字节Seed数学新模型,SOTA了

429次阅读
没有评论

字节Seed数学新模型,SOTA了

开发了三个级别的策略

时令 发自 凹非寺

量子位 | 公众号 QbitAI

不仅能达IMO金牌水准,更能解决普特南数学竞赛难题,甚至超越顶尖模型o4-mini!

字节发布全新复杂数学解决模型——Seed-Prover

字节Seed数学新模型,SOTA了

该模型全面超越了谷歌的AlphaGeometry2,并在MiniF2F数据集上实现了惊人的100%正确率。

不仅如此,Seed-Prover还展现了其卓越的泛化能力:

  • 成功解决了78.1%的历年IMO难题
  • 普特南数学竞赛中的成绩达到其他主流模型的4倍;
  • 在MiniCTX-2数据集上,以81.8%的高正确率远超基准模型o4-mini。
字节Seed数学新模型,SOTA了

对此,前谷歌成员Deedy Das惊叹道:字节真不愧是唯一一家专为IMO发表完整论文的AI实验室!

字节Seed数学新模型,SOTA了

Seed-Prover模型框架

Seed-Prover是一个专注于使用Lean 4进行形式化推理的大型语言模型

Lean 4允许用户精确定义数学对象和定理,并通过机器自动验证推理步骤的严谨性与正确性。

相较于先前的研究,Seed-Prover最显著的区别在于采用了引理式证明作为证明范式,从而将引理置于推理过程的核心。

简单来说,就是在进行推理时,先要求模型生成一些有用的引理,每个引理由 “lemma” 关键字引入 ,然后再使用 “theorem” 通过应用生成的引理来生成主要证明。

字节Seed数学新模型,SOTA了

这种方法具有几个关键优势:

1、它可以清晰地识别已成功证明的引理和需要进一步完善的引理。

2、由于引理是模块化的,它们可以独立编译、独立存储和自由组合。

3、证明引理的过程可能为模型提供灵感,以证明其他未证引理或解决主要问题。

为了实现Seed-Prover的工作流程,研究人员为每个难题建立了一个引理池,存储来自所有推理运行的综合数据,包括引理陈述、引理名称、完整证明、证明难度和依赖关系。

根据可用的推理资源和问题难度,字节还开发了三个级别的策略:轻量推理、中等推理和重量级推理。

字节Seed数学新模型,SOTA了

由于Lean在几何支持方面存在不足,Seed-Prover集成了一个专用的几何推理引擎Seed-Geometry

它采用了前向链推理的引擎架构:即系统通过检查适用的规则来推导所有已知事实,直到得出结论。

此外,Seed-Geometry还具有反向追踪事实依赖关系的能力,能够识别一个几何问题中最小的依赖关系结构,从而将问题本身的上下文与解决该问题所需的辅助构造有效区分开来。

基于上述工作,Seed-Geometry建立了一个包含2.3亿个需要辅助构造的独特几何问题的库。

这是通过利用过去20多年数学奥林匹克竞赛的统计数据,并在其专用领域特定语言定义的几何空间中进行广泛搜索实现的。

基于这一专属几何数据训练得到的Seed模型,成为了一个高效的神经-符号混合几何证明器

它可以补全缺失的辅助构造元素,并借助几何推理引擎,按步骤进行前向推理,最终完成整个几何问题的形式化证明。

达IMO金牌水准

研究团队使用Seed-Prover与Seed-Geometry参加了IMO 2025,成功证明了6道题中的5道,达到了IMO金牌水准。

根据IMO-AG-50的统计方法,在2000年至2024年IMO几何问题中,Seed-Geometry (SG) 解决了43道题,比AlphaGeometry 2 (AG2) 多解决1道。

字节Seed数学新模型,SOTA了

对于2000年至2022年难度大的多的IMO候选题中的几何题,AlphaGeometry 2解决了19道,而Seed-Geometry解决了22道。

字节Seed数学新模型,SOTA了

此外,值得注意的是,Seed-Geometry还在2秒内解出了IMO 2025第2题——IMO中表现最差的两道题中的一道。

除此之外,对于MiniF2F测试集,Seed-Prover达到了几乎百分百的正确率。

字节Seed数学新模型,SOTA了

参考链接:
[1]https://x.com/deedydas/status/1951829325839499753
[2]https://www.alphaxiv.org/pdf/2507.23726

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 8 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态 量子位的朋友们 2025-...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离...
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离...
是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛

是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛

是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛 一水 2025-12-17 ...
人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态 量子位的朋友们 2025-...