啥?陶哲轩18个月没搞定的数学挑战,被这个“AI高斯”三周完成了

444次阅读
没有评论

啥?陶哲轩18个月没搞定的数学挑战,被这个“AI高斯”三周完成了

创始人是ICML’25时间检验奖作者

金磊 发自 凹非寺

量子位 | 公众号 QbitAI

不得了,这个名叫Gauss(高斯)的新AI Agent,有点杀疯了的感觉。

因为它只用了三周的时间,就完成了陶哲轩和Alex Kontorovich提出的数学挑战——

在Lean中形式化强素数定理(Prime Number Theorem,PNT)。

啥?陶哲轩18个月没搞定的数学挑战,被这个“AI高斯”三周完成了

要知道,陶哲轩和Kontorovich在2024年1月提出这个挑战后,足足花了18个月(今年7月)的时间,也才取得阶段性的进展。

那么这个Gauss到底是什么来头?

它的背后是一家叫做Math的AI公司,据介绍,Gauss是首个可以协助顶级数学家进行形式验证的自动形式化(autoformalization)Agent:

啥?陶哲轩18个月没搞定的数学挑战,被这个“AI高斯”三周完成了

这里的形式化(formalization),指的是把人类写的数学内容转换成一种机器可读、可检查、严密无歧义的形式语言,然后利用计算机帮助验证其正确性。

而陶哲轩和Alex Kontorovich之所以目前仅取得阶段性进展,问题就卡在了复分析(complex analysis)的核心难题上。

而这个Gauss作为硅基生命,它的特点就是可以不停的工作,极大地压缩了以前只有顶尖形式化专家才能完成的工作量;与此同时,Gauss还形式化了上面提到的复分析中关键的缺失结果。

这就是为什么它能三周解决陶哲轩18个月都未能完成的数学挑战的原因了。

Gauss是如何实现的?

目前Math公司官方并没有发布具体的技术报告。

但从最终结果来看,Gauss生成了大约25000行Lean代码,包含上千个定理和定义。

要知道,这种规模的形式化证明,以前往往需要多年才能完成。

历史上最大的单个形式化项目(往往需要跨甚至10年的时间),也只是比这大一个数量级(最多50万行代码)。

相比之下,Lean的标准数学库Mathlib有约200万行代码,包含35万个定理,但却由600多位贡献者花了8年时间才建立起来。

啥?陶哲轩18个月没搞定的数学挑战,被这个“AI高斯”三周完成了

为了支撑Gauss的运行,团队还和Morph Labs合作开发了Trinity环境基础设施。

因为要让Gauss如此大规模运行,会涉及数千个并发Agent,且每个Agent都有自己的Lean运行环境,会消耗数TB的集群内存,是一个极其复杂的系统工程挑战。

Math团队还表示:

Gauss将大幅缩短完成大型数学项目所需的时间。

随着算法不断进步,我们计划在未来12个月内,让形式化代码的总量提升100到1000倍。

这将成为新范式的训练场——走向“可验证的超级智能”和“通才型机器数学家”。

而就在刚刚,陶哲轩本人在Mastodon上对形式化相关的问题做了一番解释(以下为陶哲轩的陈述)。

任何复杂的项目往往都有明确陈述的目标和隐含的未陈述目标。例如,一个Lean形式化项目的明确目标可能是获得某个数学命题X的形式化证明;但通常还有一些未陈述的目标,例如以适合上游到 Mathlib 库的方式形式化X的关键子命题和定义X1, X2, …;学习如何使用各种协作工具和分配任务;有机地发现X证明的更精细结构,这在以前的非形式化证明中可能没有被强调;为新手形式化者提供实际培训和经验;以及更普遍地建立一个精通形式化艺术的人类社区。

过去,通常没有必要阐明这些隐含目标,因为这些目标的实现与明确目标的实现之间存在很强的经验相关性。在形式化项目的例子中,几乎任何以人为中心的努力来实现明确目标,最终都会自然而然地实现上述大部分隐含目标。因此,明确目标有效地成为了更广泛实际目标的可行替代。

然而,随着功能强大的AI工具的出现,情况正在发生变化,这些工具采用与人类截然不同的方法。这些工具可以被指示去解决一个明确的目标,而不必实现如果由人类团队执行任务时可能同时实现的所有隐含目标。事实上,AI优化算法的性质决定了它们甚至可能以牺牲所有隐含目标为代价,在明确目标上取得高绩效。(参见古德哈特定律:“当一个衡量标准成为目标时,它就不再是一个好的衡量标准。”)

鉴于这些工具的日益部署,这向我表明,项目组织者现在需要付出更大的努力,明确阐述项目的所有目标,而不仅仅是名义上的目标。在某些情况下,这些目标甚至可能最初对组织者自己来说并不明显,可能需要参与者之间进行一些讨论。而有兴趣用其AI工具测试此类项目的外部各方,则应提前与组织者协调,以防他们遗漏了一个或多个其工具不会优化的关键隐含目标。

啥?陶哲轩18个月没搞定的数学挑战,被这个“AI高斯”三周完成了

创始人是ICML’25时间检验奖作者

值得一提的是,Math这家公司的老板也是有点实力在身上的。

因为他正是拿下今年AI定会ICML时间检验奖论文的作者之一,Christian Szegedy

啥?陶哲轩18个月没搞定的数学挑战,被这个“AI高斯”三周完成了

这篇论文是他和另一位作者Sergey Loffe在2015年提出的Batch Normalization(批次归一化,简称BatchNorm)。

啥?陶哲轩18个月没搞定的数学挑战,被这个“AI高斯”三周完成了

如今,这篇论文的引用量超过6万次,是深度学习发展史上一个里程碑式的突破,极大地推动了深层神经网络的训练和应用。

可以说它是让深度学习从小规模实验,走向大规模实用化和可靠性的关键技术之一。

当然,网友们看罢Gauss之后虽然惊呼Amazing,但同时也在喊官方赶紧把论文公开喽。

至于更细节的技术内容,我们可以蹲一波了~

参考链接:
[1]https://x.com/mathematics_inc/status/1966194751847461309
[2]https://www.math.inc/gauss
[3]https://www.math.inc/vision

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 9 月
1234567
891011121314
15161718192021
22232425262728
2930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...