超低成本复现QwQ!数学推理模型训练迎来RL暴击,数据代码全开源 | 蚂蚁&清华出品

716次阅读
没有评论

超低成本复现QwQ!数学推理模型训练迎来RL暴击,数据代码全开源 | 蚂蚁&清华出品

只需200条数据

白交 发自 凹非寺

量子位 | 公众号 QbitAI

用上这个开源框架,2天时间就能刷新7B数学推理纪录

蚂蚁清华联手开源的强化学习框架AReaL-boba,直接把推理模型训练带到了Next Level——

训练成本下降的同时,训练速率、推理能力还大幅提升的那种。

超低成本复现QwQ!数学推理模型训练迎来RL暴击,数据代码全开源 | 蚂蚁&清华出品

除了前面提到的7B模型,在32B模型上,只需两百美元、200条数据,就可以轻松复现QwQ-32B,就是数学推理能力媲美DeepSeek-R1,一战封神的那个。

而且开源的内容非常全面,不仅只是模型,所有训练代码,数据,模型参数以及训练细节都通通开源了,还有超级详细的技术笔记可以看,感觉像是被技术团队手把手教导。

一个技术小白也能手搓一个顶尖大模型了。

AReaL-boba,人人可复现QwQ

AReaL,Ant Reasoning RL,是Ant Research RL Lab等开源的高效强化学习系统。在此基础之上,该版本取名为boba,是因为团队希望AReaL像珍珠奶茶一样让强化学习普惠整个社区,让开发者无论资源规模均可触达SOTA效果。

通过开源全部代码、数据与模型参数,AReaL-boba在训练效率、推理能力与成本控制上实现三重突破。

首先是训练效率上的提升,全面集成SGLang推理框架

AReaL-boba是首个拥抱SGLang的开源训练系统,大幅优化训练吞吐性能。

(SGLang是一个xAI公司采用的面向复杂语言模型的高性能推理框架,它通过共同设计后端运行时和前端语言,让模型交互更快、更可控。市面上主流模型和企业都已大规模部署,每天产生数万亿个token

对比原始版本,在1.5B模型尺寸上吞吐提升35%,7B模型提升60%,32B模型提升73%。

超低成本复现QwQ!数学推理模型训练迎来RL暴击,数据代码全开源 | 蚂蚁&清华出品

而且无缝适配各种计算资源,既支持单机,也支持大规模分布式训练,突破传统RL训练资源瓶颈。

大规模分布式训练效率上有显著的提升,一个直观的例子:

128卡集群1天完成1.5B模型训练,256卡2天完成7B模型训练。

超低成本复现QwQ!数学推理模型训练迎来RL暴击,数据代码全开源 | 蚂蚁&清华出品

这样一来,中小团队也能在有限算力下快速迭代模型,真正实现”人人可驾驭强化学习”。

其次,推理能力大幅提升,尤其7B模型性能断层领先。

当前最考验推理模型能力的,无疑是它在数学推理领域的表现。

在这一领域中,AReaL-boba基于Qwen-R1-Distill-7B模型,通过大规模强化学习训练,仅用2天即实现SOTA水平——

AIME 2024 61.9分,AIME 2025 48.3分,相比于o1-preview也是大幅领先。

超低成本复现QwQ!数学推理模型训练迎来RL暴击,数据代码全开源 | 蚂蚁&清华出品

相较于基础模型Qwen-R1-Distill-7B,使用AReaL-boba后模型推理能力也有不少提升——

分别在AIME2024、AIME2025提升6.9、8.6分。

而想要拥有这样一个SOTA级别的推理模型并不难,团队不仅把能开源的都开源了,还有超级详细的技术笔记送上。

超低成本复现QwQ!数学推理模型训练迎来RL暴击,数据代码全开源 | 蚂蚁&清华出品

团队不仅开源了推理模型,也开源了所有所有训练数据AReaL-boba-106k,以及全部的训练脚本和评估脚本,保证人人可以复现。

而过程中遇到问题也不用担心,在项目官方仓库上,AReaL 团队也放出了极其详细的技术笔记,总结了大量训练中的关键点,包括 PPO 超参数、奖励函数设置、正则化设置、长度上限设置等等。

刷新小模型推理上限的同时,也通过技术透明化推动创新生态。

像我这样一个技术小白,研究一下也能手搓个小模型出来。

超低成本复现QwQ!数学推理模型训练迎来RL暴击,数据代码全开源 | 蚂蚁&清华出品

最后,使用创新性蒸馏技术,极简数据复现顶尖模型

前段时间,QwQ-32B横空出世,其强大的推理性能引发诸多关注。

它在数学推理、编码能力和一般问题解决能力上,超过了一众领先模型,包括DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini和原始DeepSeek-R1。

超低成本复现QwQ!数学推理模型训练迎来RL暴击,数据代码全开源 | 蚂蚁&清华出品

现在AReaL-boba推出超精简训练方案,直接把32B大模型训练的所需成本给打下来。

数据上面,仅需200条数据的AReaL-boba-200数据集。

使用Qwen-32B-Distill基础模型,通过轻量级SFT技术即可复现QwQ-32B的AIME2024效果。

整个计算成本,仅需200美元

这一创新让顶级推理能力的训练门槛从“实验室专享”降为”人人可及”,开创了小数据驱动大模型的新范式。

首个完整开源的团队

AReaL团队的核心成员均来自于蚂蚁研究院强化学习实验室以及清华交叉信息研究院吴翼老师团队。

上个月,他们初始版本针对1.5B和7B推理模型优化,比如借助AReaL使用RL训练1.5B蒸馏模型,在40小时内超越o1-Preview的数学推理能力。

超低成本复现QwQ!数学推理模型训练迎来RL暴击,数据代码全开源 | 蚂蚁&清华出品

同样也给出了详细的训练细节。

超低成本复现QwQ!数学推理模型训练迎来RL暴击,数据代码全开源 | 蚂蚁&清华出品

作为国内第一个完整开源(数据、代码、模型、脚本全开源)的项目团队,他们表示致力于真正实现AI训练的普惠。

其实从此次boba版本的发布也能看出,通过开源开放,让AI训练成为社区共享的基础设施。其三大技术突破(极速训练、推理登顶、低成本复现)形成的技术飞轮,推动强化学习大规模训练的发展。

在项目列表中,他们也揭示了后续的开源计划和目标——

包括异步训练,更快的训练吞吐,更好的数据集和算法,以及代码和Agent智能体能力的支持

也是十分期待了。

超低成本复现QwQ!数学推理模型训练迎来RL暴击,数据代码全开源 | 蚂蚁&清华出品

实际上,蚂蚁的AI研发也非常值得关注,成果SOTA,场景天然,产品还是国民级的。

项目链接:

https://github.com/inclusionAI/AReaL

HuggingFace数据模型地址:

https://huggingface.co/collections/inclusionAI/areal-boba-67e9f3fa5aeb74b76dcf5f0a

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 4 月
 123456
78910111213
14151617181920
21222324252627
282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手 十三 2025-12-09 18:18:41 来源:量子位...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东 Jay 2025-12-09 08:26:01 来源...
梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物! 一水 2025-12-09 09:46:23 来源:量子位 来自安...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布 思邈 2025-12-09 15:46:09 来源:量子位 国内首个聚焦...
极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」 henry 2...