MathArena 对 IMO 2025 的评估

hbghlyj · 2025-7-26 02:22

2025 年 IMO 刚开赛不久后，MathArena 迅速上线了对应的评估页面。

当前公开可用模型在 IMO 2025 得分未达到铜牌

四位 IMO 水平的评委匿名评分，每题满分 7 分，总分 42 分

模型	得分	得分率	是否达铜牌标准（19 分）
Gemini‑2.5‑Pro	13 分	31%	未达成
Grok‑4	≈ 9 分	21%	未达成
其他模型（o3, DeepSeek‑R1 等）	约 2–9 分	5–20%	均未达成

铜牌门槛约 45%（19/42），金牌更高要求（前 8%）
所有模型均未达铜牌，Gemini‑2.5‑Pro 得分最高但仍低于铜牌标准
Grok‑4 在自然 prompt 下表现弱：多数答案简短，只给出结论或缺乏理由。启用特定新 prompt 后才有改善，但整体仍不足

{problem}
After reasoning, please provide a rigorous proof of the given problem. Just provide the proof, no need to put it in \\boxed{}.

Copy the Code

Gemini‑2.5‑Pro 尽管最佳，但存在引用虚构定理、逻辑跳跃等问题，表现出“伪造可信”倾向
多数模型在第 4、5 题能提出正确思路，但逻辑不严谨导致失分
Best‑of‑32 策略显著提升分数：评测中提到，不采用该机制得分会更低，甚至不足 10%

虽然公开模型表现弱，但 OpenAI 与 DeepMind 的内部实验模型已跨越金牌门槛
OpenAI 发布消息称其最新实验模型（仍未公开发布）已达到 IMO 金牌水平，虽非官方认证，但经过三位前 IMO 参赛者评分确认
Google DeepMind 的 Gemini Deep Think 模型获得 IMO 官方认证的金牌成绩

hbghlyj · 2025-7-26 11:55

一篇论文称仅凭提示词，Gemini 2.5 Pro就可以拿到IMO2025金牌设计了一套由两个核心角色解题者和验证者构成的自我验证流水线。这两个角色均由Gemini 2.5 Pro扮演，但通过截然不同且高度特化的提示词（Prompt）来引导，使其各司其职，形成了高效的协作与迭代机制。

初始解题：模型首先尝试对问题进行解答。由于IMO问题的复杂性，模型的首次尝试往往存在错误。
自我改进：模型被提示审视并改进自己的初步解答，相当于进行第一轮反思。
严格验证：引入一个验证器角色（同样由Gemini 2.5 Pro扮演）。验证器会逐行审查解答，生成一份详细的错误报告，将问题分为关键错误（如逻辑谬误）和论证缺陷如步骤跳跃、缺乏足够论证）。
修正与迭代：解题模型根据验证器提供的错误报告来修正自己的证明。修正后的版本会再次提交给验证器进行审核。
接受或拒绝：这个验证-修正的循环会持续进行。一个解答只有在连续5次通过验证器且未发现任何问题后，才会被最终接受。如果一个方案在10轮迭代后仍存在重大问题，则被拒绝。

“生成-验证-修正”闭环
通过这套双提示词系统，研究建立了一个迭代循环：
解题者根据强调严谨和诚实的提示词生成证明
验证者根据精细化的诊断提示词，对证明进行审查，并输出一份结构化的错误报告
解题者接收这份报告，并针对性地修正自己的证明
修正后的版本再次进入验证环节，如此循环往复，直至证明连续多次通过验证，没有任何瑕疵

Account		Remember me	Forgot password
Password			Register account

MathArena 对 IMO 2025 的评估

Quick Reply