o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

755次阅读
没有评论

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

官方承认给数据但否认OpenAI作弊

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI o3还没上线,就被曝数学成绩是靠作弊得来?!

Benchmark发布机构内部人员爆料称,OpenAI给了他们经费赞助

就连包括陶哲轩在内参与出题的60余名数学家,在消息曝光之前也都和普通公众一样蒙在鼓里

直到o3发布,这一消息才被公开。这意味着严格保密的题目,OpenAI提前拿到了手中。

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

这套数据集名叫FrontierMath,包含了由陶哲轩等60多名权威数学家命制的高难度题目。

陶哲轩就表示,这些题目足够困扰AI几年的时间;1998年菲尔斯奖得主Gowers也说,能解决其中的一个问题就已经超越现在的能力范围了。

当时也正是因为在这一测试基准上大幅领先,o3的能力更进一步被得到认可。

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

Epoch.ai这边,联合创始人Tamay Besiroglu也回应并承认了秘密赞助和OpenAI提前拿到题目的传闻,但否认题目被OpenAI拿来作弊

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

但有些网友并不买账,表示OpenAI如果不使用这些信息还要访问权限干什么,并推测有可能被用来训练。

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

专家被要求严格保密,但OpenAI却能拿到题

这家名叫Epoch.ai的机构,开发了一款名为FrontierMath的数学测试基准,论文第一版预印本于去年11月7日(协调世界时,北京时间为8日凌晨)发布。

包括第一版在内,FrontierMath的论文在近两个月的时间里一共发布了五个版本,但直到最后12月20日的第五版才披露了OpenAI的资助

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

不过也只是在脚注中提了一句,感谢OpenAI对构建Benchmark的支持。

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

并且12月20日刚好是OpenAI发布o3的日子,并且Besiroglu也透露,之前没有公开正是由于OpenAI的保密要求

在o3推出之前,我们一直被限制披露合作关系,事后看来,我们应该更加努力地谈判,以便能够尽快向基准贡献者保持透明。

如果不看OpenAI这场风波,FrontierMath是一套含金量非常高的测试基准,由全球六十余位数学家联手命题,包括教授、IMO命题人、菲尔兹奖获得者,其中就有大牛陶哲轩等人。

而且难度也非常高,包括数百个极具挑战性的数学问题,在o3之前的模型解决率不到2%

哪怕o3真的作了弊,得分也才20多分。

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

像下面的这道题目,在FrontierMath当中算是难度最低的一档:

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

正常来说,FrontierMath里的题目和答案是严格保密的,就连出题的数学家也被要求签订保密协议,甚至不能使用Overleaf、Colab或电子邮件传输有关题目的信息。

讽刺的是,这样“严格保密”的题目却被OpenAI拿到,而出题专家对OpenAI的情况毫不知情。

斯坦福博士、MIT罗德奖学金得主Carina Hong(洪乐潼)就表示,至少有六名专家能够证实这一点,并且大部分专家表示不确定如果知道(OpenAI的独家访问权)是否还会选择贡献。

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

后来她表示,(和出题人)签保密协议确实是为了防止数据污染,对OpenAI的目的则不做猜测。

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

联创承认错误,但否认OpenAI作弊

内部爆料和外部质疑之下,Epoch.ai联创Besiroglu也承认了和OpenAI存在秘密协议,并表示没有公开透明确实是“犯了一个错误”。

但Epoch.ai否认了OpenAI作弊的说法,表示一方面OpenAI拿到的数据并不是全部,另一方面OpenAI也口头承诺拿到的数据不会用于模型训练

Besiroglu回应全文如下(中文为机翻):

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

但对于Besiroglu提到的“口头承诺”,有网友表示至少要有个书面的协议,但猜测OpenAI不会愿意提供,还有人补充说哪怕有书面材料也很难监督实施。

不过到现在,确实是所有的回应都来自Epoch.ai这边,OpenAI还没给出说明。

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

另外Epoch.ai首席数学家Ellot Glazer也承诺,之后会对受到的资助进行说明。

对于o3的成绩,Ellot表示Epoch.ai无法给出承诺,但他个人相信OpenAI的报告是准确的,因为在他看来OpenAI“没有撒谎的动机”。

同时他说Epoch.ai正在开发一个保留数据集,能够确保OpenAI在测试之前无法事先接触。

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

不过有网友对“没有动机”的说法表示怀疑,Ellot也进行了解释,表示OpenAI没有傻到搬起石头砸自己的脚。

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

话又说回来,o3到现在依然是个黑盒,到底是名副其实还是炒作噱头,等到发布的那天就揭晓答案了。

参考链接:
[1]https://www.lesswrong.com/posts/cu2E8wgmbdZbqeWqb/meemi-s-shortform
[2]https://techcrunch.com/2025/01/19/ai-benchmarking-organization-criticized-for-waiting-to-disclose-funding-from-openai/
[3]https://www.reddit.com/r/singularity/comments/1i4n0r5/this_is_so_disappointing_epoch_ai_the_startup/
[4]https://x.com/CarinaLHong/status/1880820323597357273

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 1 月
 12345
6789101112
13141516171819
20212223242526
2728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山 衡宇 2025-12-21 10:...
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026 Jay 2025...
奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板?

Failed to fetch content Read More 
LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了 一水 2025-12-21 19:13:08 来源:量子位 “LLM到不了AGI...
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026 一水 2025-12-21 19:11:12 ...