奖励是假的,能让Qwen提升25%性能却是真的!

747次阅读
没有评论

奖励是假的,能让Qwen提升25%性能却是真的!

鹭羽 发自 凹非寺

量子位 | 公众号 QbitAI

即使RLVR(可验证奖励强化学习)使用错误的奖励信号,Qwen性能也能得到显著提升?

甚至还和真实奖励相差无几。

奖励是假的,能让Qwen提升25%性能却是真的!

自从RLVR被DeepSeek-R1带火,RL推理研究层出不穷,走进了蜜月期。

这不,来自华盛顿大学的一群博士生来火上浇油了——

使用Qwen模型(尤其是数学版本),对虚假奖励进行RLVR,仍然可以将MATH-500的绝对准确率显著提升约25%

团队实验发现:

RLVR通过激活预训练中的推理能力来提升性能,但不考虑奖励信号的正确性。

奖励是假的,能让Qwen提升25%性能却是真的!

这彻底颠覆了既往大家对RLVR的认知,原来那些年在虚假奖励上踩过的坑,还真能实现弯道超车?

X上的网友们纷纷表示,强烈建议每位RLVR研究员都来读一读,尤其是那些围绕Qwen模型精心构造奖励函数的研究员们,该瑟瑟发抖了……

奖励是假的,能让Qwen提升25%性能却是真的!

Qwen自家的研究员Binyuan Hui也在评论区现身:

也许是预训练数据混合以某种方式意外导致了一些有用的行为,又一次侧面印证了代码推理的重要性。

奖励是假的,能让Qwen提升25%性能却是真的!

具体啥情况?下面我们娓娓道来。

虚假奖励带来显著的RLVR增益

此前已有研究证明,RLVR在提升语言模型推理能力上非常有效,核心思想是利用可自动验证的奖励信号优化

普遍研究都默认优化效果依赖奖励的正确性,但研究团队反直觉地认为其中必有蹊跷——虚假奖励或许也能“变废为宝”?

奖励是假的,能让Qwen提升25%性能却是真的!

于是说干就干,开始大胆假设,小心求证。

从实验出发

为测试RLVR提升数学推理能力所需的最低监督下限,团队设计了一系列逐步简化的奖励函数替代标准真实奖励:

  1. 真实奖励:使用真实标签对可验证正确的回答给予奖励,将其作为奖励监督质量的上限。
  2. 多数投票奖励:在微调前利用模型对训练集进行伪标注,即对每个提示采样64个响应并选取多数答案,再基于这些(可能错误的)标签进行奖励。
  3. 格式奖励:进一步弱化奖励信号,奖励所有包含至少一个非空boxed {}表达式的响应,完全忽略回答的数学正确性。
  4. 随机奖励:在奖励过程中不提供任何指导,直接给定一个固定概率超参数随机分配奖励,其中1的概率为,0为,主实验中设置。
  5. 错误奖励:故意提供错误的监督,只奖励错误答案,即先用多数投票法标注所有训练数据,选择错误标签的子集进行训练,并给予对应的响应奖励。
奖励是假的,能让Qwen提升25%性能却是真的!

基于GRPO方法微调Qwen2.5-Math模型,再使用不同奖励函数进行RLVR训练。

实验结果表明,与未调优的基线模型相比,所有奖励函数(即使是设计上存在问题的函数),均能在所有基准测试的前50步内显著提升数学推理性能。

值得注意的是,虚假奖励带来的性能提升,与基于真实标签的RLVR提升幅度,相差只有几个百分点

例如,在MATH500基准上,使用错误标签奖励进行训练可提升24.6%,而基于真实答案的RLVR提升幅度只有28.8%,即使是提供纯噪音的随机奖励,也仍能带来 21.4%的性能提升。

因此团队证明,即使是完全错误的奖励或随机奖励,也能在Qwen2.5-Math模型中激发性能提升。

但在进一步的研究中,他们发现这种奇怪的增益只有利于Qwen2.5系列模型,其余非 Qwen模型的性能在虚假奖励下几乎无变化,甚至还会出现下降的趋势。

奖励是假的,能让Qwen提升25%性能却是真的!

这又是怎么一回事呢?研究团队只好又开始挖掘模型差异的根源。

为什么虚假奖励有效

通过分析Qwen2.5-Math-7B和OLMo2-7B的推理轨迹,团队发现预训练期间,模型学习到的特定推理策略差异是关键。

Qwen2.5-Math-7B频繁生成Python代码辅助思考过程 (占所有回答的 65.0%),尽管无法执行,但这种代码推理行为在一定程度上,与答案准确率高度正相关。

奖励是假的,能让Qwen提升25%性能却是真的!

但该模式在其他模型中并未有所发现,例如Llama、Qwen2.5-1.5B以及OLMo2-7B完全不生成代码,无法从此推理策略中获益。

OLMo2-7B-SFT和Qwen2.5-7B虽然也频繁尝试使用代码推理,但该策略反而会降低模型性能。

奖励是假的,能让Qwen提升25%性能却是真的!

而基于虚假奖励的RLVR可以有效增强代码推理频率,如Qwen2.5-Math-7B在进行RLVR训练后,代码推理频率在最初15步内,迅速从65%提升至约90%。

奖励是假的,能让Qwen提升25%性能却是真的!

此外,通过分析随机奖励也能提升性能的特殊情况,研究人员还发现一个有趣的结论:GRPO的裁剪偏差可能会诱导随机奖励生成有益的训练信号,增加代码推理行为,从而实现性能提升。

奖励是假的,能让Qwen提升25%性能却是真的!

One More Thing

本项目是由多位华人学者共同完成的,他们目前都在华盛顿大学的NLP小组读博。

奖励是假的,能让Qwen提升25%性能却是真的!

而当论文作者Stella Li在X上发帖介绍自己的论文时,我们注意到评论区有这样一位网友的留言,他指出在模型改进中,也许「结果不重要,推理过程才重要」

奖励是假的,能让Qwen提升25%性能却是真的!

Stella Li的回复也提出了另外一种可能,也许错误推理+正确答案或者正确推理+错误答案,可能也会帮助OLMo2-7B-SFT实现类似Qwen在虚假奖励下的性能增益。

奖励是假的,能让Qwen提升25%性能却是真的!

另外,作者也温馨提示,现有的以Qwen为中心的RLVR研究可能需要在非Qwen模型上做进一步验证,不要只盯着单一模型做漂亮数值提升的工作,因为那可能意义并不大。

项目链接:https://rethink-rlvr.notion.site/Spurious-Rewards-Rethinking-Training-Signals-in-RLVR-1f4df34dac1880948858f95aeb88872f
代码链接:https://github.com/ruixin31/Rethink_RLVR
论文链接:https://github.com/ruixin31/Rethink_RLVR/blob/main/paper/rethink-rlvr.pdf

参考链接:
[1]https://x.com/StellaLisy/status/1927392717593526780
[2]https://x.com/huybery/status/1927434422934028358
[3]https://x.com/RulinShao/status/1927442751462707524

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 5 月
 1234
567891011
12131415161718
19202122232425
262728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态 量子位的朋友们 2025-...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离...
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离...
是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛

是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛

是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛 一水 2025-12-17 ...
人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态 量子位的朋友们 2025-...