o3数学成绩作弊大瓜！提前让测试机构给真题，60多名数学大牛全被蒙在鼓里

克雷西
2025-01-20
16:28:20

来源：量子位

官方承认给数据但否认OpenAI作弊

克雷西发自凹非寺
量子位 | 公众号 QbitAI

OpenAI o3还没上线，就被曝数学成绩是靠作弊得来？！

Benchmark发布机构内部人员爆料称，OpenAI给了他们经费赞助。

就连包括陶哲轩在内参与出题的60余名数学家，在消息曝光之前也都和普通公众一样蒙在鼓里。

直到o3发布，这一消息才被公开。这意味着严格保密的题目，OpenAI提前拿到了手中。

o3数学成绩作弊大瓜！提前让测试机构给真题，60多名数学大牛全被蒙在鼓里

这套数据集名叫FrontierMath，包含了由陶哲轩等60多名权威数学家命制的高难度题目。

陶哲轩就表示，这些题目足够困扰AI几年的时间；1998年菲尔斯奖得主Gowers也说，能解决其中的一个问题就已经超越现在的能力范围了。

当时也正是因为在这一测试基准上大幅领先，o3的能力更进一步被得到认可。

o3数学成绩作弊大瓜！提前让测试机构给真题，60多名数学大牛全被蒙在鼓里

Epoch.ai这边，联合创始人Tamay Besiroglu也回应并承认了秘密赞助和OpenAI提前拿到题目的传闻，但否认题目被OpenAI拿来作弊。

o3数学成绩作弊大瓜！提前让测试机构给真题，60多名数学大牛全被蒙在鼓里

但有些网友并不买账，表示OpenAI如果不使用这些信息还要访问权限干什么，并推测有可能被用来训练。

o3数学成绩作弊大瓜！提前让测试机构给真题，60多名数学大牛全被蒙在鼓里

专家被要求严格保密，但OpenAI却能拿到题

这家名叫Epoch.ai的机构，开发了一款名为FrontierMath的数学测试基准，论文第一版预印本于去年11月7日（协调世界时，北京时间为8日凌晨）发布。

包括第一版在内，FrontierMath的论文在近两个月的时间里一共发布了五个版本，但直到最后12月20日的第五版才披露了OpenAI的资助。

o3数学成绩作弊大瓜！提前让测试机构给真题，60多名数学大牛全被蒙在鼓里

不过也只是在脚注中提了一句，感谢OpenAI对构建Benchmark的支持。

o3数学成绩作弊大瓜！提前让测试机构给真题，60多名数学大牛全被蒙在鼓里

并且12月20日刚好是OpenAI发布o3的日子，并且Besiroglu也透露，之前没有公开正是由于OpenAI的保密要求：

在o3推出之前，我们一直被限制披露合作关系，事后看来，我们应该更加努力地谈判，以便能够尽快向基准贡献者保持透明。

如果不看OpenAI这场风波，FrontierMath是一套含金量非常高的测试基准，由全球六十余位数学家联手命题，包括教授、IMO命题人、菲尔兹奖获得者，其中就有大牛陶哲轩等人。

而且难度也非常高，包括数百个极具挑战性的数学问题，在o3之前的模型解决率不到2%。

哪怕o3真的作了弊，得分也才20多分。

o3数学成绩作弊大瓜！提前让测试机构给真题，60多名数学大牛全被蒙在鼓里

像下面的这道题目，在FrontierMath当中算是难度最低的一档：

o3数学成绩作弊大瓜！提前让测试机构给真题，60多名数学大牛全被蒙在鼓里

正常来说，FrontierMath里的题目和答案是严格保密的，就连出题的数学家也被要求签订保密协议，甚至不能使用Overleaf、Colab或电子邮件传输有关题目的信息。

讽刺的是，这样“严格保密”的题目却被OpenAI拿到，而出题专家对OpenAI的情况毫不知情。

斯坦福博士、MIT罗德奖学金得主Carina Hong（洪乐潼）就表示，至少有六名专家能够证实这一点，并且大部分专家表示不确定如果知道（OpenAI的独家访问权）是否还会选择贡献。

o3数学成绩作弊大瓜！提前让测试机构给真题，60多名数学大牛全被蒙在鼓里

后来她表示，（和出题人）签保密协议确实是为了防止数据污染，对OpenAI的目的则不做猜测。

o3数学成绩作弊大瓜！提前让测试机构给真题，60多名数学大牛全被蒙在鼓里

联创承认错误，但否认OpenAI作弊

内部爆料和外部质疑之下，Epoch.ai联创Besiroglu也承认了和OpenAI存在秘密协议，并表示没有公开透明确实是“犯了一个错误”。

但Epoch.ai否认了OpenAI作弊的说法，表示一方面OpenAI拿到的数据并不是全部，另一方面OpenAI也口头承诺拿到的数据不会用于模型训练。

Besiroglu回应全文如下（中文为机翻）：

o3数学成绩作弊大瓜！提前让测试机构给真题，60多名数学大牛全被蒙在鼓里

但对于Besiroglu提到的“口头承诺”，有网友表示至少要有个书面的协议，但猜测OpenAI不会愿意提供，还有人补充说哪怕有书面材料也很难监督实施。

不过到现在，确实是所有的回应都来自Epoch.ai这边，OpenAI还没给出说明。

o3数学成绩作弊大瓜！提前让测试机构给真题，60多名数学大牛全被蒙在鼓里

另外Epoch.ai首席数学家Ellot Glazer也承诺，之后会对受到的资助进行说明。

对于o3的成绩，Ellot表示Epoch.ai无法给出承诺，但他个人相信OpenAI的报告是准确的，因为在他看来OpenAI“没有撒谎的动机”。

同时他说Epoch.ai正在开发一个保留数据集，能够确保OpenAI在测试之前无法事先接触。

o3数学成绩作弊大瓜！提前让测试机构给真题，60多名数学大牛全被蒙在鼓里

不过有网友对“没有动机”的说法表示怀疑，Ellot也进行了解释，表示OpenAI没有傻到搬起石头砸自己的脚。

o3数学成绩作弊大瓜！提前让测试机构给真题，60多名数学大牛全被蒙在鼓里

话又说回来，o3到现在依然是个黑盒，到底是名副其实还是炒作噱头，等到发布的那天就揭晓答案了。

参考链接：
[1]https://www.lesswrong.com/posts/cu2E8wgmbdZbqeWqb/meemi-s-shortform
[2]https://techcrunch.com/2025/01/19/ai-benchmarking-organization-criticized-for-waiting-to-disclose-funding-from-openai/
[3]https://www.reddit.com/r/singularity/comments/1i4n0r5/this_is_so_disappointing_epoch_ai_the_startup/
[4]https://x.com/CarinaLHong/status/1880820323597357273

2025 年 1 月
一	二	三	四	五	六	日
	1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

o3数学成绩作弊大瓜！提前让测试机构给真题，60多名数学大牛全被蒙在鼓里

o3数学成绩作弊大瓜！提前让测试机构给真题，60多名数学大牛全被蒙在鼓里

专家被要求严格保密，但OpenAI却能拿到题

联创承认错误，但否认OpenAI作弊

test

test

文心AIGC

test

test