啊?7B的DeepSeek反超R1满血版,上海AI Lab周伯文团队新成果

755次阅读
没有评论

啊?7B的DeepSeek反超R1满血版,上海AI Lab周伯文团队新成果

最优的TTS方法高度依赖于具体的策略模型、过程奖励模型(PRM)和问题难度

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

倒反天罡了,新方法让DeepSeek蒸馏的Qwen数学能力反超R1满血版,7B反超671B

除此之外,0.5B模型超过GPT-4o,1.5B的DeepSeek蒸馏Qwen超过o1-mini和o1-preview,3B的Llama超过405B的Llama……

这是上海AI Lab/清华哈工大/北邮团队最新研究成果,通讯作者为齐弼卿周伯文

重新思考计算最优的Test-Time Scaling(TTS)

啊?7B的DeepSeek反超R1满血版,上海AI Lab周伯文团队新成果

团队认为,尽管TTS在提升语言模型推理能力上取得进展,但目前的研究还缺乏对策略模型、过程奖励模型(PRM)和问题难度等因素影响的系统分析。

因此,该研究聚焦两个核心问题:

  • 跨不同策略模型、PRM和问题难度,最优的TTS方式是什么?
  • TTS能在多大程度上提升语言模型在复杂任务上的表现?小模型能否超越大模型?
啊?7B的DeepSeek反超R1满血版,上海AI Lab周伯文团队新成果

重新思考Test-Time Scaling

为探究这些问题,团队在MATH-500和AIME24数学推理数据集上,使用多个不同规模的策略模型和PRM,进行了全面的实验评估。

他们将推理问题建模为马尔可夫决策过程,定义了状态空间、动作空间、转移函数、奖励函数和折扣因子等元素。

啊?7B的DeepSeek反超R1满血版,上海AI Lab周伯文团队新成果

对于TTS,考虑了Best-of-N、Beam Search和Diverse Verifier Tree Search(DVTS)三种方法。

啊?7B的DeepSeek反超R1满血版,上海AI Lab周伯文团队新成果

实验发现,最优的TTS方法高度依赖于具体的策略模型、过程奖励模型(PRM)和问题难度。

对于小型策略模型,基于搜索的方法优于BoN,而对于大型策略模型相反。

团队认为之所以出现这种差异,是因为较大的模型具有更强的推理能力,并且不需要验证器来执行逐步选择。相比之下,较小的模型依靠验证器来选择每个步骤,确保每个中间步骤的正确性。

啊?7B的DeepSeek反超R1满血版,上海AI Lab周伯文团队新成果

对于过程奖励模型,对Llama3.1-8B-Instruct使用Skywork和Qwen2.5-Math的PRM时效果拔群,在MATH-500数据集上搜索方法的性能随计算预算增加显著提升。

而使用Math-Shepherd和RLHFlow的PRMs时效果不佳甚至不如多数投票。

啊?7B的DeepSeek反超R1满血版,上海AI Lab周伯文团队新成果

对于问题难度,参数少于7B的小型策略模型,BoN更适合于简单的问题,而Beam Search更适合于更难的问题。

参数在7B-32B的策略模型,DVTS在简单和中等问题上表现良好,而Beam Search对于困难问题更有效。

另外在72B参数的策略模型上,BoN是所有难度级别的最佳方法。

啊?7B的DeepSeek反超R1满血版,上海AI Lab周伯文团队新成果
啊?7B的DeepSeek反超R1满血版,上海AI Lab周伯文团队新成果

因此,团队提出了一个更通用的奖励感知型最优计算TTS框架,确保TTS计算能适应特定的策略模型、提示和奖励函数。

啊?7B的DeepSeek反超R1满血版,上海AI Lab周伯文团队新成果

利用奖励感知型最优TTS框架,在MATH-500和AIME24上取得了如下结果:

3B的Llama3.2超越135倍大的Llama3.1-405B,与之前的TTS研究(超越23倍大的模型)相比,改善了487%。

DeepSeek-R1-Distill-Qwen-7B超过了OpenAI-o1(参数量未知)和DeepSeek-R1(671B)。

甚至0.5B和1.5B的小模型也展现出了与GPT-4o、o1-preview等专门的推理模型媲美的表现。

啊?7B的DeepSeek反超R1满血版,上海AI Lab周伯文团队新成果

研究还比较了最优TTS和目前流行的基于长CoT的方法。

结果表明,TTS在MATH-500和AIME2024上优于多数长CoT方法。

然而,虽然TTS在MATH-500上的性能接近DeepSeek-R1-Distill-Qwen-7B,但在AIME24上却显示出显著的下降。
这说明TTS在相对简单任务上优势明显,但在更复杂的任务上则逊色于从超大规模模型蒸馏得到模型,还有提升空间。

啊?7B的DeepSeek反超R1满血版,上海AI Lab周伯文团队新成果

最后,团队提出研究真正的 “从弱到强” 方法而不是当前 “从强到弱” 的策略优化监督机制的重要性。

未来的工作应侧重于开发更具适应性和通用性的监督机制,以提高小语言模型在复杂任务上的性能,并为开发有效的推理策略提供新方法。

目前的工作对数学任务上的TTS做了全面评估,但仍有一些局限性和未来方向需要探索:比如将TTS扩展到更多任务,例如代码和化学,以及探索更高效的计算最优TTS方法。

论文地址:
https://arxiv.org/abs/2502.06703

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 2 月
 12
3456789
10111213141516
17181920212223
2425262728  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手 十三 2025-12-09 18:18:41 来源:量子位...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东 Jay 2025-12-09 08:26:01 来源...
梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物! 一水 2025-12-09 09:46:23 来源:量子位 来自安...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布 思邈 2025-12-09 15:46:09 来源:量子位 国内首个聚焦...
极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」 henry 2...