字节新推理模型逆袭DeepSeek,200B参数战胜671B,豆包史诗级加强?

773次阅读
没有评论

字节新推理模型逆袭DeepSeek,200B参数战胜671B,豆包史诗级加强?

从三个角度提升了推理表现:数据、RL算法和RL基础设施

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

字节最新深度思考模型,在数学、代码等多项推理任务中超过DeepSeek-R1了?而且参数规模更小。

同样是MoE架构,字节新模型Seed-Thinking-v1.5有200B总参数和20B激活参数。

对比DeepSeek-R1的671B总参数和37B激活参数,可以算得上轻量级了。

字节新推理模型逆袭DeepSeek,200B参数战胜671B,豆包史诗级加强?

目前,完整的技术报告已公开发布,其中揭示了诸多秘诀。

字节Seed团队聚焦大规模强化学习,并从三个角度提升了推理表现:数据、RL算法和RL基础设施

字节新推理模型逆袭DeepSeek,200B参数战胜671B,豆包史诗级加强?

可验证与不可验证问题

从数据开始说起,字节团队把RL训练数据分为两个部分,具有明确答案的可验证问题和没有明确答案的不可验证问题,采用不同的奖励建模方法。

这其中,模型的推理能力主要来自可验证问题,并可以推广到不可验证问题

可验证问题包括问题与答案配对的STEM问题、附带单元测试的代码问题,以及适合自动验证的逻辑推理问题(24点、迷宫、数独等)。

不可验证问题主要包括根据人类偏好评估的非推理任务,如创意写作、翻译、知识QA、角色扮演等。

对于不可验证问题,字节团队丢弃了样本分数方差低、难度低的数据。此类数据可能过于简单或已在数据集中大量表示。离线实验表明,过度优化此类样本会导致模型的探索空间过早崩溃并降低性能。

此外,团队还打造了全新数学推理评测集BeyondAIME

当前的推理模型通常使用AIME作为评估数学推理能力的首选基准,但该基准每年只发布30个问题,有限的规模可能会导致高方差的评估结果,难以有效区分最先进的推理模型。

字节与数学专家合作,根据既定的比赛形式开发原创问题。通过结构修改和情景重新配置来系统地调整现有的比赛问题,确保不会发生直接重复。此外还确保答案不是容易猜的数值(例如问题陈述中明确提到的数字),以减少模型在没有适当推理的情况下猜出正确答案的机会。

RL算法

强化学习虽然强大,但训练起来也很不稳定,经常崩溃。

字节在技术报告中提到”有时,两次运行之间的分数差异可能高达10分”。

针对这个问题,团队提出了VAPODAPO两个RL框架,分别从基于价值和无价值的RL范式出发来稳定训练。

字节新推理模型逆袭DeepSeek,200B参数战胜671B,豆包史诗级加强?

VAPO和DAPO两篇论文都已单独发布。

字节新推理模型逆袭DeepSeek,200B参数战胜671B,豆包史诗级加强?
字节新推理模型逆袭DeepSeek,200B参数战胜671B,豆包史诗级加强?

此外,在Seed-Thining-v1.5中,还借鉴了之前学术界工作中的很多关键技术:

  • 价值预训练(Value-Pretraining),保证价值网络和策略网络一致
  • 解耦的GAE(Decoupled-GAE),让两个网络更独立高效
  • 长度自适应GAE(Length-adaptive GAE),更好处理不同长度序列
  • 解耦PPO损失(Clip-Higher),为低概率token的增长创造,了更多空间鼓励模型探索新方案
  • Token级损失(Token-level Loss),平衡每个token对训练过程的影响。
  • 正例增强(Postive Example LM Loss),提高RL训练过程中正样本的利用效率,从而提高模型整体性能
字节新推理模型逆袭DeepSeek,200B参数战胜671B,豆包史诗级加强?

RL基础设施

在Long-CoT生成过程中,字节团队观察到各种提示词之间的响应长度差异较大,在生成过程中出现大量GPU空闲时间。

为了缓解长尾响应生成的滞后问题,提出了SRS(流式Rollout系统),一种资源感知型调度框架,可战略性地部署独立的流式计算单元,将系统约束从内存绑定转换为计算绑定。

为了有效地大规模训练,团队还设计了一个混合分布式训练框架,集成高级并行策略、动态工作负载平衡和内存优化:

  • 并行机制:将TP (张量并行)/EP (专家并行)/CP (上下文并行)与全分片数据并行 (FSDP) 组合在一起,具体来说,将TP/CP 应用于注意力层,将EP应用于 MoE 层。
  • 序列长度平衡:DP等级之间的有效序列长度可能不平衡,导致计算工作量不平衡和训练效率低下。利用KARP算法在一个mini-batch内重新排列输入序列,使它们在micro-batch之间保持平衡。
  • 内存优化:采用逐层重新计算、激活卸载和优化器卸载来支持更大micro-batch的训练,以覆盖FSDP引起的通信开销。
  • 自动并行:为了实现最佳系统性能,开发了AutoTuner 自动调整系统,按照基于配置文件的解决方案 对内存使用情况进行建模。然后估计各种配置的性能和内存使用情况以获得最优配置。
  • 检查点:使用ByteCheckpoint支持从不同的分布式配置中以最小的开销恢复检查点,弹性训练以提高集群效率。
字节新推理模型逆袭DeepSeek,200B参数战胜671B,豆包史诗级加强?

最终,在多项自动评估中,Seed-Thinking-v1.5在AIME 2024基准测试中取得86.7,与OpenAI的o3-mini-high模型的性能相当。但在最近的AIME 2025和BeyondAIME中,Seed-Thinking-v1.5仍然落后于o3级别的性能。

对于GPQA任务,Seed-Thinking-v1.5达到77.3%的准确率,接近o3-mini-high的性能。

在Codeforces等代码生成场景中,Seed-Thinking-v1.5的性能与Gemini 2.5 Pro 的性能相当,但仍落后于o3-mini-high。

Seed-Thinking-v1.5在SimpleQA上的表现不太理想。但团队认为,该基准测试预训练模型规模的相关性更强,而不是考验推理能力。

字节新推理模型逆袭DeepSeek,200B参数战胜671B,豆包史诗级加强?

许多人看完这篇技术报告,都很感兴趣,不过找了一圈也没找到模型在哪发布。

字节新推理模型逆袭DeepSeek,200B参数战胜671B,豆包史诗级加强?

从技术报告的口径来看,该模型与目前豆包中的Doubao-1.5 Pro并不是一回事。

但从作者名单看,这是由字节Seed团队负责人吴永辉带队,主要成员都参与的大项目。

那么是否将来会部署到豆包APP,可以期待一波了。

字节新推理模型逆袭DeepSeek,200B参数战胜671B,豆包史诗级加强?

论文地址:
https://github.com/ByteDance-Seed/Seed-Thinking-v1.5/

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 4 月
 123456
78910111213
14151617181920
21222324252627
282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态 量子位的朋友们 2025-...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离...
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离...
是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛

是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛

是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛 一水 2025-12-17 ...
人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态 量子位的朋友们 2025-...