斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准

811次阅读
没有评论

斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准

能力涌现怕不是检索题库

奇月 发自 凹非寺

量子位 | 公众号 QbitAI

只是换一下数学题的变量名称,大模型就可能集体降智??

斯坦福大学最新研究表明,在他们最新提出的Putnam-AXIOM测试集上,仅仅是更换一下原题目的变量名称、变量取值范围,模型的准确率就直线下降。

也就是说,大模型的数学推理能力并不是真正掌握了解题逻辑,很可能只是检索已存储的题目……

斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准

即使是表现最好的o1-preview,它的成绩也从50%下降到了33.96%,GPT-4o、Claude、Deepseek、Qwen等模型也几乎是全军覆没。

斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准

要知道,模型推理能力的稳健性可是非常重要的指标,能代表他们是否真正掌握了解决方法:

斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准

有网友锐评到:o1的o不会是overfitting的o吧?(doge)

斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准

还有热心网友做了解释,他认为模型的搜索空间会随着深度指数级增长,搜索时间越长,搜索的难度也会更高。

斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准
斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准

全新无污染的数学测试基准

LLM在复杂数学问题上的推理能力逐渐成为模型发展的关键挑战,然而现有的评估基准,如MMLU、MMMU、GSM8K和MATH等却面临着很多问题。

一方面,数据污染可能导致模型在评估中表现虚高,因为模型可能在训练过程中接触到了评估基准中的问题。

另一方面,最先进的模型在许多现有基准上已经达到或超过人类水平,这使得这些基准失去了应有的评估价值。

对此,斯坦福研究团队提出了Putnam-AXIOM基准,专用于评估模型在解决复杂数学问题上的能力。

斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准

该基准的原始数据集涵盖了1985-2023年William Lowell Putnam数学竞赛的236个问题。

随便举个例题大家感受一下:

斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准

这些题目涵盖了11个不同数学领域的问题,团队也进行了筛选,确保能产生便于自动化评估的boxed{}答案。

同时,他们还借鉴MATH数据集的方法进行模型评估,并设计了一个等价函数,可以解决字符串不一致问题、和复杂的数学等价同质化问题。

除此之外,为防止模型在训练过程中遇到Putnam原问题而出现评估偏差,团队还引入了功能变异构建变异数据集。

变异分为变量变化(仅改变量名)和常数变化(修改数值属性)两类,能生成无限多相同难度的新问题,而且这些问题在互联网上没有现成的答案。

具体的变化形式就像这样:

斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准

在实验中,研究人员将1985-2023年的竞赛中的236个问题整理成标准化格式,使用LM Harness评估框架对多个开源模型的SOTA LLMs进行评估。

样本包括236个原始问题和52个变异问题,参与测试的模型包含OpenAI的o1-preview、GPT-4o、Claude-3.5 Sonnet等多种模型。

题目一变,模型集体懵

实验结果有些令人意外,模型们的表现都不太乐观。

首先来看看模型们在原始数据集上的表现。

多数模型的准确率都低于10%,曾获AI数学奥林匹克竞赛冠军的NuminaMath仅为4.66%,可见Putnam-AXIOM数据集难度真的很高。

斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准

而在变异数据集上,模型们的准确率则显著下降。

比如在原始数据集上表现最好的o1-preview,准确率为50%,而在变异数据集中则降到了33.96%。

也就是说,o1-preview模型在原始问题上表现可能虚高,之前的得分主要是依赖记忆而非真正的推理能力。

排名第二的Claude在原始数据集上的准确率为26.40%,而在变异数据集上的准确率降至18.86%,其他模型的分数也基本都下降了。

斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准

团队还进一步对OpenAI o1-preview和GPT-4o的答案进行了分析。

结果发现它们的错误都比较严重,在逻辑推理和数学严谨性方面存在着明显的缺陷。

下面一起康康几个例子。

比如o1-preview在解答问题时就没能提供充分的证明,它声称m的最大可能值是n,理由是m的上界是2n,但它没有说明为什么m的值介于n和2n之间不可行。

斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准

而GPT-4o则存在逻辑跳跃和不连贯的推理,比如在下面这道题中,它从逻辑上直接跳转到面积最小的几何形状是矩形这一观点,但并没有证明这一说法的合理性,而是将其默认为事实。

斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准

DeepSeek的模型也在关键步骤思维发生了跳跃,导致最终结果失误。

斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准

看来,提升大模型的数学能力还是任重道远呀!

不过斯坦福大学这篇文章中的Putnam-AXIOM基准的确缓解了现有基准饱和的问题。

它不仅为评估模型的数学推理能力提供了一个非常有挑战性的新方法,还实现了完全自动化评估、并提供了丰富多样的变体数据集。

团队也表示,虽然目前变体数据集生成过程复杂耗时,但未来如果能优化变体生成方法,将更有助于加速关于人工推理的研究。

斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准

论文:https://openreview.net/forum?id=YXnwlZe0yf¬eId=yrsGpHd0Sf
代码:https://anonymous.4open.science/r/putnam-axiom-B57C/README.md

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 1 月
 12345
6789101112
13141516171819
20212223242526
2728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态 量子位的朋友们 2025-...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离...
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离...
是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛

是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛

是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛 一水 2025-12-17 ...
人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态 量子位的朋友们 2025-...