Forgot password
 Register account
View 10|Reply 1

MathArena 对 IMO 2025 的评估

[Copy link]

3243

Threads

7863

Posts

52

Reputation

Show all posts

hbghlyj posted 2025-7-26 02:22 |Read mode
2025 年 IMO 刚开赛不久后,MathArena 迅速上线了对应的评估页面

当前公开可用模型在 IMO 2025 得分未达到铜牌

四位 IMO 水平的评委匿名评分,每题满分 7 分,总分 42 分
模型得分得分率是否达铜牌标准(19 分)
Gemini‑2.5‑Pro13 分31%未达成
Grok‑4≈ 9 分21%未达成
其他模型(o3, DeepSeek‑R1 等)约 2–9 分5–20%均未达成
铜牌门槛约 45%(19/42),金牌更高要求(前 8%)
所有模型均未达铜牌,Gemini‑2.5‑Pro 得分最高但仍低于铜牌标准
Grok‑4 在自然 prompt 下表现弱:多数答案简短,只给出结论或缺乏理由。启用特定新 prompt 后才有改善,但整体仍不足
  1. {problem}
  2.   
  3. After reasoning, please provide a rigorous proof of the given problem. Just provide the proof, no need to put it in \\boxed{}.
Copy the Code
Gemini‑2.5‑Pro 尽管最佳,但存在引用虚构定理、逻辑跳跃等问题,表现出“伪造可信”倾向
多数模型在第 4、5 题能提出正确思路,但逻辑不严谨导致失分
Best‑of‑32 策略显著提升分数:评测中提到,不采用该机制得分会更低,甚至不足 10%

虽然公开模型表现弱,但 OpenAI 与 DeepMind 的内部实验模型已跨越金牌门槛
OpenAI 发布消息称其最新实验模型(仍未公开发布)已达到 IMO 金牌水平,虽非官方认证,但经过三位前 IMO 参赛者评分确认
Google DeepMind 的 Gemini Deep Think 模型获得 IMO 官方认证的金牌成绩

3243

Threads

7863

Posts

52

Reputation

Show all posts

original poster hbghlyj posted 2025-7-26 11:55
一篇论文称 仅凭提示词,Gemini 2.5 Pro就可以拿到IMO2025金牌 设计了一套由两个核心角色解题者和验证者构成的自我验证流水线。这两个角色均由Gemini 2.5 Pro扮演,但通过截然不同且高度特化的提示词(Prompt)来引导,使其各司其职,形成了高效的协作与迭代机制。

初始解题:模型首先尝试对问题进行解答。由于IMO问题的复杂性,模型的首次尝试往往存在错误。
自我改进:模型被提示审视并改进自己的初步解答,相当于进行第一轮反思。
严格验证:引入一个验证器角色(同样由Gemini 2.5 Pro扮演)。验证器会逐行审查解答,生成一份详细的错误报告,将问题分为关键错误(如逻辑谬误)和论证缺陷如步骤跳跃、缺乏足够论证)。
修正与迭代:解题模型根据验证器提供的错误报告来修正自己的证明。修正后的版本会再次提交给验证器进行审核。
接受或拒绝:这个验证-修正的循环会持续进行。一个解答只有在连续5次通过验证器且未发现任何问题后,才会被最终接受。如果一个方案在10轮迭代后仍存在重大问题,则被拒绝。

“生成-验证-修正”闭环
通过这套双提示词系统,研究建立了一个迭代循环:
解题者根据强调严谨和诚实的提示词生成证明
验证者根据精细化的诊断提示词,对证明进行审查,并输出一份结构化的错误报告
解题者接收这份报告,并针对性地修正自己的证明
修正后的版本再次进入验证环节,如此循环往复,直至证明连续多次通过验证,没有任何瑕疵

Quick Reply

Advanced Mode
B Color Image Link Quote Code Smilies
You have to log in before you can reply Login | Register account

$\LaTeX$ formula tutorial

Mobile version

2025-7-27 11:05 GMT+8

Powered by Discuz!

Processed in 0.044625 seconds, 22 queries