谷歌AI获IMO“唯一金牌”,硅谷夹道祝贺,奥特曼丢人又丢人

712次阅读
没有评论

谷歌AI获IMO“唯一金牌”,硅谷夹道祝贺,奥特曼丢人又丢人

马斯克发推祝贺

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

谷歌Gemini拿下了IMO金牌,而且是官方认证的那种。

经过IMO官方裁判评分,Gemini新模型答对了6道题中的5道,以35分的成绩斩获金牌。

谷歌AI获IMO“唯一金牌”,硅谷夹道祝贺,奥特曼丢人又丢人

斩获金牌的是Gemini的一个进阶版本,搭载了新的思考模式,后期会开放给Google AI Ultra订阅用户——也就月付1400元那种。

去年三天摘银,今年4.5小时夺金,DeepMind的数学成绩可以说是突飞猛进。

除了DeepMind CEO哈萨比斯、谷歌CEO劈柴哥给团队发来贺电,马斯克也发推表示了祝贺。

谷歌AI获IMO“唯一金牌”,硅谷夹道祝贺,奥特曼丢人又丢人

DeepMind这波可谓是被各界夹道祝贺,做得体面又周到。

但DeepMind被夸得越好,OpenAI就越发相形见绌,同样是AI参赛IMO,秘密搞事情也就算了,还为了营销跟人类青少年抢风头。

奥特曼治下的OpenAI,最近除了丢人就丢人了。

DeepMind官宣AI拿下IMO金牌

DeepMind公告显示,Gemini新模型做对了今年IMO六道题中的五道,获得了35分。

并且这一成绩,也获得了IMO主席Gregor Dolinar的亲自认证:

我们可以确认,谷歌DeepMind已达到人们梦寐以求的里程碑,获得了35分(满分42分)——堪称金牌。
他们的解决方案在很多方面都令人惊叹。IMO评分员认为这些解决方案清晰、精准,而且大多数都易于理解。

谷歌AI获IMO“唯一金牌”,硅谷夹道祝贺,奥特曼丢人又丢人

不仅评分遵循IMO未公开的规则,所用时间标准也和人类选手完全一致——4.5小时之内答完交卷。

而去年DeepMind的银牌成绩,是用AlphaProof和AlphaGeometry一起做了三天才获得的。

这次不仅用时更短,答题过程也是全程自然语言、端到端完成,不再像去年那样专门修改题目格式。

DeepMind高级科学家兼IMO团队负责人Thang Luong表示,这与去年相比是一个范式转变。

谷歌AI获IMO“唯一金牌”,硅谷夹道祝贺,奥特曼丢人又丢人

此外,DeepMind研究员、布朗大学教授Junehyuk Jung介绍,在今年的第三题中,很多人类选手使用了研究生水平的方案(IMO为高中竞赛),但Gemini仅使用了初等数论知识就给出了自洽的证明。

谷歌AI获IMO“唯一金牌”,硅谷夹道祝贺,奥特曼丢人又丢人

Jung还表示,Gemini没答对的最后一题,是一开始方向就错了,不过人类选手中做对这道题的也只有五个人。

谷歌AI获IMO“唯一金牌”,硅谷夹道祝贺,奥特曼丢人又丢人

顺便说一下,谷歌已经将Gemini做对的五道题的答案完整公开(链接见文末),有兴趣的话可以验证一下~

谷歌AI获IMO“唯一金牌”,硅谷夹道祝贺,奥特曼丢人又丢人

这次DeepMind用来参赛的,是一款暂未公开的全新模型,搭载了Deep Think推理模式。

DeepMind介绍,Gemini Deep Think是一种针对复杂问题的增强型推理模式,融合了其最新的一些研究技术,包括并行思维。

这种模式使模型能够同时探索并组合多种可能的解决方案,最终得出最终答案,而不是追求单一的线性思维链。

为了充分利用Deep Think的推理能力,DeepMind额外训练了 Gemini 的这一版本,使其能够利用更多多步推理、问题求解和定理证明数据。

此外DeepMind还为Gemini提供了精选的高质量数学题库,并在其指令中添加了一些关于如何解答IMO题目的通用提示和技巧。

如哈萨比斯所说,该模型已经提供给数学家等人群进行小范围测试,后续会开放给Google AI Ultra订阅用户使用。

谷歌AI获IMO“唯一金牌”,硅谷夹道祝贺,奥特曼丢人又丢人

当然,DeepMind今天的官宣,也是获得了各种称赞。

DeepMind宣布成绩,被硅谷夹道欢迎

包括来自友商的称赞在内,DeepMind获得了整个硅谷的夹道欢迎。

除了开头马斯克那句简单的Congrats之外,还有Meta AI科学家称赞Gemini给出了清晰、精准、非常适合自学的解决方案。

谷歌AI获IMO“唯一金牌”,硅谷夹道祝贺,奥特曼丢人又丢人

受欢迎的原因,不仅是表现优秀,也包括谷歌对IMO规则的尊重。

Gemini参加挑战是受到了IMO官方邀请,所有规则标准都和人类一致。

并且,DeepMind也遵守了IMO官方的要求,没有急于宣布结果。

谷歌AI获IMO“唯一金牌”,硅谷夹道祝贺,奥特曼丢人又丢人

仔细研究哈萨比斯的推文,只字未提OpenAI,但又处处在针对OpenAI。

哈萨比斯的三条回复,主要强调了这么几点:官宣是没有抢跑的,成绩是IMO认证的,模型也是未来可用的。

谷歌AI获IMO“唯一金牌”,硅谷夹道祝贺,奥特曼丢人又丢人

这三点,刚好和抢先宣布夺金结果被锤的OpenAI形成了鲜明对比。

IMO评审团和协调员们普遍认为,AI开发商在IMO期间(尤其是闭幕式之前)宣布成绩是“粗鲁且不恰当的”。

谷歌AI获IMO“唯一金牌”,硅谷夹道祝贺,奥特曼丢人又丢人

除了公告发布时间的问题,OpenAI到底得没得金牌也有争议。

领导DeepMind超级推理团队的Thang Luong补充,IMO内部其实有一份官方评分指南,外部无法获取。没有基于该指南的评分就没有资格获得奖牌。

这届IMO共6道题,每题7分。金牌线35分,OpenAI自报的成绩也刚刚过线,即使是解答过程中微小的扣分都可能让OpenAI从金牌跌到银牌。

谷歌AI获IMO“唯一金牌”,硅谷夹道祝贺,奥特曼丢人又丢人

有网友评价:OpenAI一如既往的为了炒作什么都干得出来。没有官方分数,没有耐心,也没有羞耻心。

谷歌AI获IMO“唯一金牌”,硅谷夹道祝贺,奥特曼丢人又丢人

此外,OpenAI参赛用的模型也是未公开版本,并且可能以后也不会公开。

总之是处处和谷歌对比鲜明。

OpenAI研究员回应质疑

针对以上这些质疑,OpenAI研究员Noam在给谷歌送出祝福后,也顺带进行了回应:

谷歌AI获IMO“唯一金牌”,硅谷夹道祝贺,奥特曼丢人又丢人

首先,Noam解释OpenAI没和IMO官方合作不是没收到邀请,而是OpenAI自己拒绝了。

谷歌AI获IMO“唯一金牌”,硅谷夹道祝贺,奥特曼丢人又丢人

其次是关于作答过程和评分的权威性,Noam表示没有使用RAG或者任何工具,而打分是由3位IMO获奖者给出的。

同时Noam还公开了OpenAI模型的回答,表示任何人都可以检查。

谷歌AI获IMO“唯一金牌”,硅谷夹道祝贺,奥特曼丢人又丢人

最后是关于宣发时间,Noam表示公布成绩之前和IMO董事会成员进行过沟通,后者要求等到颁奖仪式之后再发布,OpenAI表示接受。

而OpenAI官宣的时间是在太平洋时间凌晨1点,彼时颁奖已经结束,OpenAI没有被要求需要等到更晚的时间再发布。

谷歌AI获IMO“唯一金牌”,硅谷夹道祝贺,奥特曼丢人又丢人

虽然Noam的解释获得了部分网友的认可,但说一千道一万,网友还是表示倾向于站在谷歌这一边。

谷歌AI获IMO“唯一金牌”,硅谷夹道祝贺,奥特曼丢人又丢人

总之最近的OpenAI,除了丢人还是丢人。

小扎磨刀霍霍,奥特曼人丢了。

谷歌同场竞技,奥特曼丢人了。

Gemini回答:
https://storage.googleapis.com/deepmind-media/gemini/IMO_2025.pdf
OpenAI回答:
https://github.com/aw31/openai-imo-2025-proofs/
参考链接:
[1]https://deepmind.google/discover/blog/advanced-version-of-gemini-with-deep-think-officially-achieves-gold-medal-standard-at-the-international-mathematical-olympiad/
[2]https://arstechnica.com/ai/2025/07/google-deepmind-earns-gold-in-international-math-olympiad-with-new-gemini-ai/
[3]https://x.com/demishassabis/status/1947337615054671882
[4]https://x.com/polynoamial/status/1947398531259523481

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 7 月
 123456
78910111213
14151617181920
21222324252627
28293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山 衡宇 2025-12-21 10:...
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026 Jay 2025...
奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板?

Failed to fetch content Read More 
LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了 一水 2025-12-21 19:13:08 来源:量子位 “LLM到不了AGI...
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026 一水 2025-12-21 19:11:12 ...