无需数据标注！测试时强化学习，模型数学能力暴增 | 清华&上海AI Lab

克雷西
2025-04-24
14:26:28

来源：量子位

AIME 2024准确率提升159%

克雷西发自凹非寺
量子位 | 公众号 QbitAI

无需数据标注，在测试时做强化学习，模型数学能力暴增159%！

清华和上海AI Lab周伯文团队用这样的方法，对模型进行了强化——

结果模型在多个数据集上的成绩均大幅提升，尤其是Qwen-2.5-Math-7B，它做AIME 2024竞赛题的成绩直接提高了159%。

无需数据标注！测试时强化学习，模型数学能力暴增 | 清华&上海AI Lab

实验过程中，强化学习的数据均由被训练的模型自身生成。

作者还发现，训练后的模型性能，准确性已经超过了用于训练它的伪标签（测试时强化学习过程中产生）。

DeepMind工程师评价，这种测试时强化学习的方式将改变LLM的格局：

它利用预训练模型和特定任务的提示进行实时自适应，而无需大量带标签的数据集，这是向前迈出的重要一步。

无需数据标注！测试时强化学习，模型数学能力暴增 | 清华&上海AI Lab

模型自己生成强化学习数据

作者提出的测试时强化学习（TTRL）过程是测试时扩展和测试时训练的结合，具体可以分为“生成、投票、强化”三个大步骤。

无需数据标注！测试时强化学习，模型数学能力暴增 | 清华&上海AI Lab

第一步生成的目的，是让模型针对每个输入的prompt，生成尽可能多样化的候选答案，该过程通过测试时推理来实现。

其思路是在推理阶段增加计算资源以获得更好的性能，具体到TTRL采用的是增加采样数量的方式，即对每个prompt，让模型采样生成N个不同的答案，而不是只生成一个确定性最高的输出。

作者的实验中，当在AIME 2024数据集上应用TTRL训练Qwen2.5-Math-7B模型时，每个prompt采样64次(N=64)，温度系数设为1.0，以鼓励模型生成多样化的答案。

投票过程从上一步生成的N个候选答案出发，通过多数投票的方式来估计正确答案，并将其作为伪标签。

无需数据标注！测试时强化学习，模型数学能力暴增 | 清华&上海AI Lab

TTRL在实际应用投票机制时还引入了一个参数 Maj@N，表示多数投票的估计准确率。

它衡量的是伪标签与真实标签的一致性。通过控制Maj@N，可以权衡伪标签的质量和数量。

最后一步利用强化学习，基于上一步估计出的伪标签，来优化语言模型的策略，使其倾向于给出正确答案。

TTRL采用GRPO算法，还加入了重要性采样和蒙特卡洛估计等技术，以提高训练效率和稳定性。

模型数学能力大幅提升

为了评估TTRL的效果，作者在AIME 2024、AMC和MATH-500三个数据集上对调整前后的三款模型进行了测试。

在AIME 2024数据集上，对于Qwen2.5-Math-7B基础模型，TTRL将其准确率从16.7%提高到43.3%，提升幅度高达159.3%，超越了所有在大规模标注数据上训练的模型。
在AMC数据集上，Qwen2.5-Math-7B、Qwen2.5-Math-1.5B和LLaMA模型的准确率分别获得了74.9%、63.1%和68.4%的大幅提高。
MATH-500数据集上的表现更为突出，Qwen2.5-Math-7B和Qwen2.5-Math-1.5B分别实现了66.4%和142.4%的惊人提升，LLaMA模型的准确率也提高了29.3%。

平均而言，TTRL使Qwen2.5-Math-7B模型在三个数据集上的性能提高了84.1%。

无需数据标注！测试时强化学习，模型数学能力暴增 | 清华&上海AI Lab

进一步的泛化性实验表明，在一个数据集上应用TTRL后，性能的提高可以自然迁移到其他数据集，甚至是从未参与训练的任务。

无需数据标注！测试时强化学习，模型数学能力暴增 | 清华&上海AI Lab

为了分析TTRL方法有效的原因，作者比较了TTRL训练前后模型的多数投票性能。

结果，应用TTRL后，模型的多数投票准确率（Maj@64）显著高于原始的Qwen模型，说明通过多数投票得到的伪标签质量优于单个模型输出。

无需数据标注！测试时强化学习，模型数学能力暴增 | 清华&上海AI Lab

并且强化学习具备纠错能力。即使伪标签并非完全准确，强化学习也可以通过奖惩机制引导模型朝着正确方向优化。

从AIME 2024上标签准确率和奖励准确率的变化曲线中可以看到，即使在标签准确率较低的阶段，奖励准确率也能维持在90%以上。

无需数据标注！测试时强化学习，模型数学能力暴增 | 清华&上海AI Lab

作者简介

这项研究的领导者是清华大学C3I课题组博士生张开颜和上海AI实验室青年研究员崔淦渠。

张开颜的导师是上海人工智能实验室主任、首席科学家周伯文教授；崔淦渠则毕业于清华NLP实验室，读博期间导师是刘知远副教授。

本文共同一作是张开颜和同样来自清华的Yuxin Zuo，周伯文和C3I课题组博士后丁宁是本文的通讯作者。

无需数据标注！测试时强化学习，模型数学能力暴增 | 清华&上海AI Lab

论文地址：
https://arxiv.org/abs/2504.16084

2025 年 4 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

无需数据标注！测试时强化学习，模型数学能力暴增 | 清华&上海AI Lab

无需数据标注！测试时强化学习，模型数学能力暴增 | 清华&上海AI Lab

克雷西发自凹非寺
量子位 | 公众号 QbitAI

模型自己生成强化学习数据

模型数学能力大幅提升

作者简介

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

test

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

test

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

test

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

test

无需数据标注！测试时强化学习，模型数学能力暴增 | 清华&上海AI Lab

无需数据标注！测试时强化学习，模型数学能力暴增 | 清华&上海AI Lab

克雷西 发自 凹非寺 量子位 | 公众号 QbitAI

模型自己生成强化学习数据

模型数学能力大幅提升

作者简介

文心AIGC

克雷西发自凹非寺
量子位 | 公众号 QbitAI