|
2025 年 IMO 刚开赛不久后,MathArena 迅速上线了对应的评估页面。
当前公开可用模型在 IMO 2025 得分未达到铜牌
四位 IMO 水平的评委匿名评分,每题满分 7 分,总分 42 分
模型 | 得分 | 得分率 | 是否达铜牌标准(19 分) |
---|
Gemini‑2.5‑Pro | 13 分 | 31% | 未达成 | Grok‑4 | ≈ 9 分 | 21% | 未达成 | 其他模型(o3, DeepSeek‑R1 等) | 约 2–9 分 | 5–20% | 均未达成 | 铜牌门槛约 45%(19/42),金牌更高要求(前 8%)
所有模型均未达铜牌,Gemini‑2.5‑Pro 得分最高但仍低于铜牌标准
Grok‑4 在自然 prompt 下表现弱:多数答案简短,只给出结论或缺乏理由。启用特定新 prompt 后才有改善,但整体仍不足- {problem}
-
- After reasoning, please provide a rigorous proof of the given problem. Just provide the proof, no need to put it in \\boxed{}.
Copy the Code Gemini‑2.5‑Pro 尽管最佳,但存在引用虚构定理、逻辑跳跃等问题,表现出“伪造可信”倾向
多数模型在第 4、5 题能提出正确思路,但逻辑不严谨导致失分
Best‑of‑32 策略显著提升分数:评测中提到,不采用该机制得分会更低,甚至不足 10%
虽然公开模型表现弱,但 OpenAI 与 DeepMind 的内部实验模型已跨越金牌门槛
OpenAI 发布消息称其最新实验模型(仍未公开发布)已达到 IMO 金牌水平,虽非官方认证,但经过三位前 IMO 参赛者评分确认
Google DeepMind 的 Gemini Deep Think 模型获得 IMO 官方认证的金牌成绩 |
|