Forgot password?
 Register account
View 18748|Reply 12

math-qa 数学问答数据集

[Copy link]

3152

Threads

7905

Posts

610K

Credits

Credits
64068
QQ

Show all posts

hbghlyj Posted 2025-4-8 06:58 |Read mode
Last edited by hbghlyj 2025-5-16 02:15https://huggingface.co/datasets?other=mathematics
huggingface.co/datasets?other=aimo
https://huggingface.co/datasets?other=math
huggingface.co/datasets?other=math-qa
https://huggingface.co/datasets?other=chinese-math-qa

AI‑MO/NuminaMath‑CoTAn 860K‑problem collection with chain‑of‑thought solutions. Sources include:
  • Chinese high‑school exercise PDFs (OCR‑processed)
  • International Olympiad questions
  • Online math discussion forums (Chinese‑language threads)



🌟 项目简介
Project Numina 是一个非营利组织,致力于推动人工智能与人类智能在数学领域的发展。

该项目受 AI 数学奥林匹克(AI Math Olympiad, AIMO)竞赛的启发,专注于开发能够解决高难度数学问题的 AI 模型。

🏆 主要成就
在首届 AIMO 竞赛中,Numina 团队开发的 NuminaMath-7B 模型在 50 道私有测试题中成功解决了 29 道,获得了首个进步奖(The First Progress Prize)。

该模型采用了工具集成推理解码算法(TIR),结合 Python 代码执行反馈,显著提升了模型的数学推理能力。

🔧 技术亮点
模型微调:基于 DeepSeekMath-Base 7B 模型,进行了两阶段微调,增强了模型的推理能力。
数据集构建:收集了大量高质量的数学题目,包括高考题和各类数学竞赛题,构建了 NuminaMath-CoT 和 NuminaMath-TIR 数据集。
工具集成推理:采用 ToRA 方法,结合 GPT-4 生成的解答,提升了模型的推理能力和准确性。

🌐 开源与合作
Project Numina 坚持开源原则,已在 Hugging Face 平台上发布了模型权重、数据集和演示 Demo,供全球研究者使用和改进。
该项目得到了 Mistral AI、General Catalyst、Answer.AI 和北京大学等机构的支持。

🔮 未来愿景
Numina 团队计划进一步扩展数据集,建立一个包含 100 万道形式化数学问题与正确解决方案的数据集,并开发形式化数学和推理基准等。

他们还致力于构建一个基于大语言模型和形式化数学的数学论文评估服务,以推动数学领域的发展。

3152

Threads

7905

Posts

610K

Credits

Credits
64068
QQ

Show all posts

 Author| hbghlyj Posted 2025-4-10 04:06
Last edited by hbghlyj 2025-5-16 01:50GPassK 是由上海人工智能实验室的司南 OpenCompass 团队推出的全新大模型评测指标和平台,旨在更真实地评估大语言模型(LLMs)在复杂推理任务中的稳定性和性能潜力。

🔍 什么是 G-Pass@k?

传统的评测指标如 Pass@k 主要关注模型在多次生成中至少一次给出正确答案的概率,反映的是模型的性能上限。然而,在实际应用中,用户更关心模型是否能持续稳定地给出正确答案。

为此,GPassK 引入了新的评测指标 G-Pass@k(Generalized Pass@k),该指标通过设置阈值,衡量模型在多次生成中至少有一定比例的输出是正确的概率,从而同时评估模型的性能潜力和稳定性。

🧪 LiveMathBench:更具挑战性的数学评测集

为了配合 G-Pass@k 指标,团队还推出了新的数学评测集 LiveMathBench。该评测集包含大量复杂的数学问题,旨在更真实地检验模型的数学推理能力,避免数据泄漏的风险。

在实际测试中,研究人员发现,即使是表现最好的模型,在 G-Pass@k 指标下的性能也会显著下降,平均下降幅度超过50%,这表明当前的大语言模型在稳定性方面仍有较大提升空间。

📊 G-Pass@k 排行榜

GPassK 官方网站提供了基于 G-Pass@k 指标的模型排行榜,涵盖了多个数据集和模型类型,包括开源模型、闭源模型和专注于数学推理的模型等。

排行榜地址:open-compass.github.io/GPassK/

3152

Threads

7905

Posts

610K

Credits

Credits
64068
QQ

Show all posts

 Author| hbghlyj Posted 2025-5-16 01:34
Last edited by hbghlyj 2025-5-16 02:05OpenMathReasoning 是由 NVIDIA 发布的一个大规模数学推理数据集,旨在训练和评估大型语言模型(LLMs)在数学问题解决方面的能力。

您可以通过以下链接访问和下载 OpenMathReasoning 数据集:
👉huggingface.co/datasets/nvidia/OpenMathReasoning

📚 数据集概览

该数据集包含约 290,000 道从 Art of Problem Solving 论坛提取的独特数学问题,涵盖代数、组合、几何、概率等多个领域。
每道题目都配有由先进模型生成的详细解答,分为三种推理模式:

链式思维(CoT):模拟人类逐步解题过程,包含约 320 万条解答。
工具集成推理(TIR):结合外部工具进行推理,包含约 170 万条解答。
生成式解答选择(GenSelect):从多个候选解中选择最优解,包含约 56.6 万条样本。

这些解答由 DeepSeek-R1 和 QwQ-32B 等模型生成,问题预处理则使用了 Qwen2.5-32B-Instruct 模型。

🏆 应用与成果

OpenMathReasoning 数据集是 NVIDIA 在 AIMO-2 Kaggle 竞赛中获胜方案的基础。基于该数据集训练的 OpenMath-Nemotron 系列模型(包括 1.5B、7B、14B 和 32B 参数规模)在多个数学基准测试中取得了领先成绩,如 AIME24、AIME25 和 HMMT-24-25。

这些模型支持多种推理模式,包括链式思维(CoT)、工具集成推理(TIR)和生成式解答选择(GenSelect),以适应不同的解题需求。

3152

Threads

7905

Posts

610K

Credits

Credits
64068
QQ

Show all posts

 Author| hbghlyj Posted 2025-5-16 02:11
Proof Pile 是由霍斯金森形式数学中心(Hoskinson Center for Formal Mathematics)发布的一个大型数学文本预训练数据集,专为训练和微调语言模型在数学领域的推理和形式化任务而设计。

📦 数据集概览
数据量:约 13GB,包含约 83 亿个标记(tokens),使用 GPT-NeoX 分词器处理。
语言:主要为英文和 LaTeX 表达的非正式数学文本,以及 Lean、Coq、Isabelle、HOL Light、Metamath、Mizar 等形式化语言编写的正式数学内容。

📚 数据来源组成
Proof Pile 数据集涵盖了多种数学文本来源,既包括非正式的数学讨论,也包括正式的定理证明,具体组成如下:

arXiv 数学论文:约 10GB,提供大量高质量的研究论文。
开源数学教材:约 50MB,涵盖基础数学知识。
形式化数学库:约 500MB,包括 Lean 的 mathlib、Isabelle 的 AFP、Coq 的数学组件、HOL Light、Metamath 的 set.mm 和 Mizar 数学库。
数学问答论坛约 2.5GB,来自 Math Overflow 和 Math Stack Exchange 的讨论内容。
维基类资源:约 50MB,包括 ProofWiki 和维基百科中的数学条目。
MATH 数据集:约 6MB,包含数学问题和解答。([OpenReview][4], [Hugging Face][2], [arXiv][5])

3152

Threads

7905

Posts

610K

Credits

Credits
64068
QQ

Show all posts

 Author| hbghlyj Posted 2025-5-16 02:10
AIMO 奖(Artificial Intelligence Mathematical Olympiad Prize)是由 XTX Markets 于 2023 年 11 月发起的一项总奖金高达 1000 万美元的全球性人工智能竞赛,旨在推动具备数学推理能力的开源 AI 模型的发展,最终目标是创建一个能够在国际数学奥林匹克竞赛(IMO)中获得金牌的 AI 模型。

🏆 奖项设置
大奖(Grand Prize):奖金为 500 万美元,授予首个在 AIMO 官方认可的竞赛中表现达到 IMO 金牌标准的开源 AI 模型。
进步奖(Progress Prizes):总奖金高达 500 万美元,分阶段奖励在实现最终目标过程中取得关键进展的团队。

🧠 设计原则
公平对比:AI 模型需以与人类选手相同的格式接收题目,并输出可供专家评审的解答,采用标准的奥林匹克评分标准。
公开共享:参赛模型必须在比赛前公开其代码、方法、数据和模型参数,以促进社区的开放合作。
独立运行:AIMO 奖独立运营,虽与 IMO 无直接隶属关系,但在奖项评定中与 IMO 成员和奥林匹克竞赛专家合作。

📅 竞赛进展
首届进步奖(2024 年 4 月):题目难度相当于高中数学竞赛水平,奖金池为 104.8 万美元。
第二届进步奖(2024 年 10 月):题目难度提升至国家奥赛级别,涵盖代数、组合、几何和数论等领域,共 110 道题目,奖金池为 209.7 万美元。

👥 顾问委员会
AIMO 奖的顾问委员会由多位著名数学家和人工智能专家组成,包括菲尔兹奖得主陶哲轩(Terence Tao)和 Timothy Gowers,以及经验丰富的奥林匹克竞赛题目设计者。

3152

Threads

7905

Posts

610K

Credits

Credits
64068
QQ

Show all posts

 Author| hbghlyj Posted 2025-5-16 02:08
Last edited by hbghlyj 2025-5-16 02:14MMMLU(Multilingual Massive Multitask Language Understanding)是由 OpenAI 发布的多语言大规模多任务语言理解数据集,旨在评估大型语言模型(LLMs)在多语言环境下的通用知识和推理能力。

📚 数据集概览
题目数量:约 15,908 道多项选择题。
涵盖领域:57 个学科,涵盖从小学水平到高级专业领域,如法律、物理、历史和计算机科学等 。
语言支持:14 种语言,包括阿拉伯语、孟加拉语、德语、西班牙语、法语等 。
数据格式:CSV 文件,适用于文本问答任务。

3152

Threads

7905

Posts

610K

Credits

Credits
64068
QQ

Show all posts

 Author| hbghlyj Posted 2025-5-16 02:13
GR.inc 的数学分类页面是一个涵盖广泛数学主题的资源库,收录了超过 83 万个可验证的问题和 10 万多个推理过程,适合从高中生到专业研究人员的不同层级用户使用。

该页面将数学内容细分为多个子领域,每个领域都包含大量相关问题和推理示例。以下是部分主要分类及其内容数量:
  • 高中数学:307,606 个问题,41,104 个推理过程
  • 数学竞赛:150,613 个问题,14,950 个推理过程
  • 线性代数:23,763 个问题,276 个推理过程
  • 微积分:21,595 个问题,1,759 个推理过程
  • 几何学:14,758 个问题,363 个推理过程
  • 统计学:14,361 个问题,177 个推理过程
  • 数论:13,939 个问题,175 个推理过程
  • 概率论:13,560 个问题,161 个推理过程
  • 代数学:10,693 个问题,210 个推理过程
  • 数学分析:9,997 个问题,197 个推理过程

此外,还包括拓扑学、复分析、组合数学、群论、抽象代数、范畴论等高级数学领域,每个领域均提供丰富的问题和详细的推理过程。

GR.inc 的数学页面支持中文界面,用户可以根据个人兴趣和学习需求,浏览、搜索并练习各类数学问题。

无论您是备战数学竞赛的学生,还是希望深入理解特定数学主题的研究人员,该平台都能为您提供系统化的学习资源和推理训练。

3152

Threads

7905

Posts

610K

Credits

Credits
64068
QQ

Show all posts

 Author| hbghlyj Posted 2025-5-22 20:33
OpenWebMath 是一个由 Alignment Lab AI 发布的开放数学数据集,旨在为大型语言模型(LLMs)的预训练和微调提供高质量的数学文本资源。

来源与规模:该数据集从超过 2000 亿个 Common Crawl 的 HTML 文档中筛选和提取,最终形成了包含约 630 万份文档、总计 147 亿个标记(tokens)的数据集。文档来自超过 13 万个不同的域名,包括论坛、教育网站和博客等,涵盖数学、物理、统计学、计算机科学等多个领域。

构建流程
  • 预筛选:使用简单的预筛选器跳过不包含数学内容的 HTML 文档,以减少不必要的处理时间。
  • 文本提取:从 HTML 文档中提取文本,包括 LaTeX 内容,同时移除模板内容。
  • 内容分类与过滤:应用 FastText 语言识别模型,仅保留英文文档。
  • 去重处理:使用 SimHash 算法对数据集进行去重。
  • 人工检查:对前述步骤收集的文档进行人工检查,移除低质量页面。

3152

Threads

7905

Posts

610K

Credits

Credits
64068
QQ

Show all posts

 Author| hbghlyj Posted 2025-5-23 21:38
FrontierMath 是由非营利研究机构 Epoch AI 与全球 70 多位顶尖数学家(包括菲尔兹奖得主陶哲轩)合作开发的高级数学基准测试,旨在评估人工智能系统在复杂数学推理方面的能力。(SegmentFault)
FrontierMath 包含约 300 道原创数学题,涵盖数论、实分析、代数几何、集合论等多个数学分支。题目难度分布如下:
25% 的题目相当于国际数学奥林匹克(IMO)水平,理论上极具天赋的高中生可解。
50% 的题目需要研究生级别的数学教育背景。
最难的 25% 题目来自特定领域的研究前沿,即使是当今的顶尖专家也可能需要数天时间解决。
所有题目均为全新且未公开,避免了训练数据中可能存在的类似题目对模型评估结果的影响。
答案通常为大整数或复杂的数学对象,设计上避免了模型通过猜测获得正确答案的可能性,确保评估结果的真实性。
在对当前领先的 AI 模型(如 GPT-4、Claude 3.5、Gemini 1.5 Pro 等)进行测试时,发现它们在 FrontierMath 上的成功率均低于 2%,即使在提供充足的思考时间和编程环境的情况下也未能显著提高表现。这表明,现有的 AI 模型在面对真正复杂的数学推理任务时仍存在显著差距。
需要注意的是,FrontierMath 的开发过程中存在一些争议。例如,OpenAI 资助了该项目并拥有部分题目的访问权限,但这一信息在项目初期并未向所有贡献者公开,导致部分数学家对项目的透明度表示担忧。

3152

Threads

7905

Posts

610K

Credits

Credits
64068
QQ

Show all posts

 Author| hbghlyj Posted 2025-5-24 00:54
Toloka 的数学基准测试平台提供了两个专为评估大型语言模型(LLMs)在大学水平数学能力而设计的基准:U-MATH)和 μ-MATH。这些题目源自真实的大学课程。数据集的收集得到了 Gradarius 学习平台的协助,该平台通过逐步指导帮助学生掌握微积分。μ-MATH 是一个包含 1,084 个问题-解答对的元评估数据集,旨在评估 LLM 在判断数学解答正确性方面的能力。该数据集从 U-MATH 中精选约 25% 的题目(共 271 道),并为每道题生成了四个解答,分别来自 Qwen2.5 72B、Llama-3.1 70B、GPT-4o 和 Gemini 1.5 Pro。每个解答都由 Toloka 的数学专家和 Gradarius 的自动验证 API 进行正确性标注。在测试中,模型需判断给定解答是否正确,任务被视为二分类问题。主要评估指标包括宏平均 F1 分数,以及精确率(PPV)、召回率(TPR)、负预测值(NPV)和真负率(TNR)等细化指标。Gemini 模型在视觉推理方面表现突出,在所有模型组中 U-MATHv 得分最高。专门针对数学领域训练的模型(如 Qwen Math)在某些情况下优于参数量更大的通用模型。

3152

Threads

7905

Posts

610K

Credits

Credits
64068
QQ

Show all posts

 Author| hbghlyj Posted 2025-5-24 03:59
agi-eval.cn/evaluation/detail?id=61
UGMathBench 是一个专为评估大型语言模型(LLMs)在本科数学推理能力而设计的多样化和动态的基准数据集。该数据集包含 5,062 道题目,涵盖 16 个数学学科和 111 个主题,题型多样,包括选择题、填空题和简答题等。(arXiv)
涵盖代数、微积分、组合数学、复分析、微分方程、金融数学、几何、线性代数、数论、概率论、集合论与逻辑、统计学和三角学等多个学科。每道题目提供三个随机化版本,以评估模型在不同表述下的推理一致性。引入了“有效准确率(EAcc)”和“推理差距(Δ)”两个指标,用于衡量模型在不同版本题目上的表现一致性和推理稳健性。

3152

Threads

7905

Posts

610K

Credits

Credits
64068
QQ

Show all posts

 Author| hbghlyj Posted 2025-5-24 04:11
MATH-Perturb 是一个旨在评估大型语言模型(LLMs)在数学推理任务中泛化能力的基准测试平台。该平台由普林斯顿大学和谷歌的研究人员共同开发,主要通过对原始数学问题进行扰动,观察模型在面对问题变体时的表现,从而分析其是否真正具备推理能力,或仅仅依赖于记忆和模式匹配。

MATH-P-Simple:对原始问题进行非本质性的简单扰动,问题结构和解法基本保持不变。
MATH-P-Hard:对问题进行本质性的困难扰动,使得原有的解题方法不再适用,要求模型具备更深层次的数学理解和推理能力。

研究发现,许多模型在 MATH-P-Hard 数据集上的表现显著下降。例如,o1-mini 模型的性能下降了 16.49%,而 gemini-2.0-flash-thinking 模型下降了 12.9% 。这表明,尽管这些模型在原始或简单扰动的问题上表现良好,但在面对结构性变化的问题时,往往无法适应,暴露出其在推理能力上的局限性。

此外,研究还指出了一种新的“盲目记忆”现象,即模型在未评估其适用性的情况下,机械地应用已学习的解题技巧,尤其是在使用原始问题进行上下文学习时,这一问题更加严重 。

3152

Threads

7905

Posts

610K

Credits

Credits
64068
QQ

Show all posts

 Author| hbghlyj Posted 2025-5-24 04:38
Thetawise 是一个基于人工智能的数学辅导平台,旨在帮助学生掌握从基础算术到高等微积分等各类数学概念。该平台提供个性化的学习路径,结合语音识别、图像上传和手写识别等功能,使学生能够通过多种方式与系统互动,获得详细的逐步解题指导和概念解析。(1ai.net)

Thetawise 主要面向大学生,特别是在数学课程中寻求个性化辅导的学生。创始人 James Grom 表示,Thetawise 的“辅导模式”被超过 40% 的用户使用,该模式旨在引导学生独立思考,而不是直接提供答案。 (eduexpertisehub.com)

Mobile version|Discuz Math Forum

2025-6-4 17:27 GMT+8

Powered by Discuz!

× Quick Reply To Top Edit