Forgot password
 Register account
View 6|Reply 0

Seed Prover 在多个形式化数学基准测试中的表现领先

[Copy link]

3243

Threads

7863

Posts

52

Reputation

Show all posts

hbghlyj posted 2025-7-26 15:56 |Read mode
字节跳动 Seed 团队开发的「Seed Prover」耗时 3 天在 2025 年IMO中以 30 分(解出 4 道和部分第 1 题,赛后解出)达到银牌标准。此外,Seed Prover 在多个形式化数学基准测试中的表现领先:
测试基准Seed Prover 表现前代系统
IMO 2025解出 4 / 6(重量级),赛后达成 5/65/6(Gemini,自然语言)
MiniF2F‑valid100%(中量级,1 题重量级)90.6%(DeepSeek‑Prover‑V2)
MiniF2F‑test99.6%(中量级)92.2%(Kimina‑Prover)
PutnamBench解出 331 题(中量级)64 题(Goedel‑Prover‑V2)
CombiBench30%(中量级)10%(DeepSeek‑Prover‑V2)
MiniCTX‑v281.8%(轻量级)44.3%(Q4‑mini)
截至目前,Seed Prover 尚未被包含在PutnamBench 的官方 leaderboard中该榜单上仅包括 Goedel‑Prover‑V2、DeepSeek‑Prover‑V2 等系统。值得后续关注。
leanprover.zulipchat.com/#narrow/channel/2199 … 02025/with/530758981

Quick Reply

Advanced Mode
B Color Image Link Quote Code Smilies
You have to log in before you can reply Login | Register account

$\LaTeX$ formula tutorial

Mobile version

2025-7-27 16:57 GMT+8

Powered by Discuz!

Processed in 0.012531 seconds, 22 queries