啊？7B的DeepSeek反超R1满血版，上海AI Lab周伯文团队新成果

梦晨
2025-02-12
12:10:36

来源：量子位

最优的TTS方法高度依赖于具体的策略模型、过程奖励模型（PRM）和问题难度

梦晨发自凹非寺
量子位 | 公众号 QbitAI

倒反天罡了，新方法让DeepSeek蒸馏的Qwen数学能力反超R1满血版，7B反超671B。

除此之外，0.5B模型超过GPT-4o，1.5B的DeepSeek蒸馏Qwen超过o1-mini和o1-preview，3B的Llama超过405B的Llama……

这是上海AI Lab/清华哈工大/北邮团队最新研究成果，通讯作者为齐弼卿和周伯文：

重新思考计算最优的Test-Time Scaling（TTS）

团队认为，尽管TTS在提升语言模型推理能力上取得进展，但目前的研究还缺乏对策略模型、过程奖励模型(PRM)和问题难度等因素影响的系统分析。

因此，该研究聚焦两个核心问题：

跨不同策略模型、PRM和问题难度，最优的TTS方式是什么？
TTS能在多大程度上提升语言模型在复杂任务上的表现？小模型能否超越大模型？

重新思考Test-Time Scaling

为探究这些问题，团队在MATH-500和AIME24数学推理数据集上，使用多个不同规模的策略模型和PRM，进行了全面的实验评估。

他们将推理问题建模为马尔可夫决策过程，定义了状态空间、动作空间、转移函数、奖励函数和折扣因子等元素。

对于TTS，考虑了Best-of-N、Beam Search和Diverse Verifier Tree Search（DVTS）三种方法。

实验发现，最优的TTS方法高度依赖于具体的策略模型、过程奖励模型（PRM）和问题难度。

对于小型策略模型，基于搜索的方法优于BoN，而对于大型策略模型相反。

团队认为之所以出现这种差异，是因为较大的模型具有更强的推理能力，并且不需要验证器来执行逐步选择。相比之下，较小的模型依靠验证器来选择每个步骤，确保每个中间步骤的正确性。

对于过程奖励模型，对Llama3.1-8B-Instruct使用Skywork和Qwen2.5-Math的PRM时效果拔群，在MATH-500数据集上搜索方法的性能随计算预算增加显著提升。

而使用Math-Shepherd和RLHFlow的PRMs时效果不佳甚至不如多数投票。

对于问题难度，参数少于7B的小型策略模型，BoN更适合于简单的问题，而Beam Search更适合于更难的问题。

参数在7B-32B的策略模型，DVTS在简单和中等问题上表现良好，而Beam Search对于困难问题更有效。

另外在72B参数的策略模型上，BoN是所有难度级别的最佳方法。

因此，团队提出了一个更通用的奖励感知型最优计算TTS框架，确保TTS计算能适应特定的策略模型、提示和奖励函数。

利用奖励感知型最优TTS框架，在MATH-500和AIME24上取得了如下结果：

3B的Llama3.2超越135倍大的Llama3.1-405B，与之前的TTS研究（超越23倍大的模型）相比，改善了487%。

DeepSeek-R1-Distill-Qwen-7B超过了OpenAI-o1（参数量未知）和DeepSeek-R1（671B）。

甚至0.5B和1.5B的小模型也展现出了与GPT-4o、o1-preview等专门的推理模型媲美的表现。

研究还比较了最优TTS和目前流行的基于长CoT的方法。

结果表明，TTS在MATH-500和AIME2024上优于多数长CoT方法。

然而，虽然TTS在MATH-500上的性能接近DeepSeek-R1-Distill-Qwen-7B，但在AIME24上却显示出显著的下降。
这说明TTS在相对简单任务上优势明显，但在更复杂的任务上则逊色于从超大规模模型蒸馏得到模型，还有提升空间。

最后，团队提出研究真正的 “从弱到强” 方法而不是当前 “从强到弱” 的策略优化监督机制的重要性。

未来的工作应侧重于开发更具适应性和通用性的监督机制，以提高小语言模型在复杂任务上的性能，并为开发有效的推理策略提供新方法。

目前的工作对数学任务上的TTS做了全面评估，但仍有一些局限性和未来方向需要探索：比如将TTS扩展到更多任务，例如代码和化学，以及探索更高效的计算最优TTS方法。

论文地址：
https://arxiv.org/abs/2502.06703

2025 年 2 月
一	二	三	四	五	六	日
	1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

啊？7B的DeepSeek反超R1满血版，上海AI Lab周伯文团队新成果

啊？7B的DeepSeek反超R1满血版，上海AI Lab周伯文团队新成果

重新思考Test-Time Scaling

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定