首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench

715次阅读
没有评论

首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench

鹭羽 发自 凹非寺

量子位 | 公众号 QbitAI

仅需一个强化学习(RL)框架,就能实现视觉任务大统一

现有RL对推理和感知任务只能二选一,但“大模型六小强”之一MiniMax表示:我全都要!

首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench

最新开源V-Triune(视觉三重统一强化学习系统)框架,使VLM首次能够在单个后训练流程中,联合学习和掌握视觉推理和感知任务。

通过三层组件设计基于动态交并比(IoU)的奖励机制,弥补了传统RL方法无法兼顾多重任务的空白。

首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench

甚至基于V-Triune,MiniMax还一步到位,贴心地给大家开发了全新的Orsta(One RL to See Them All)模型系列(7B至32B),在MEGA-Bench Core基准测试中从+2.1%显著提升至+14.1%。

首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench

值得注意的是,在论文的作者一栏,MiniMax创始人兼CEO闫俊杰也参与了这项研究。

首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench

目前V-Triune框架和Orsta模型都在GitHub上实现全面开源,点击文末链接即可跳转一键获取。

那话不多说,咱们直接上细节。

推理感知“两手抓”

视觉任务可以分为推理感知两类,在当前,RL研究主要集中于数学QA和科学QA等视觉推理任务。

而目标检测和定位等视觉感知任务,因亟需独特的奖励设计和训练稳定性保障,还没有得到一个很好的解决方案……

首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench

针对上述问题,MiniMax针对性地提出了新框架V-Triune,作为首个面向VLM后训练的统一RL系统,通过三个互补组件核心巧妙实现二者的平衡。

样本级数据格式化

让每个样本自定义其奖励设置和验证器,支持动态路由和权重调整,以处理多种任务需求。

数据模式基于HuggingFace数据集实现,包含以下三个字段:

  1. reward_model:样本级定义奖励类型、权重。
  2. verifier:指定验证器及其参数。
  3. data_source:标识样本来源。

最终实现了多样化数据集的无缝集成,同时支持高度灵活的奖励控制。

验证器级奖励计算

采用异步客户端-服务器架构,将奖励计算与主训练循环解耦。

首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench

客户端通过代理工作器异步发送请求,而服务器则根据”verifier”字段路由至专用验证器。

主要使用两类验证器:

  1. MathVerifyVerifierr:处理推理、OCR和计数任务。
  2. DetectionVerifier:处理检测和定位任务,应用动态IoU奖励。

从而实现在无需修改核心训练流程的情况下,灵活扩展新任务或更新奖励逻辑。

数据源级指标监控

在多任务多源训练中,按数据源记录以下指标:

  1. 奖励值:追踪数据集特定稳定性。
  2. IoU和mAP(感知任务):记录不同阈值下的IoU和mAP。
  3. 响应长度和反思率:跟踪响应长度分布、截断率,以及15个预定义反思词(如“re-check”)的出现比例。

该监控机制帮助诊断模型行为(如过度思考或肤浅响应),并确保学习的稳定性。

首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench

动态IoU奖励

此外针对监测和定位任务,团队还创新性地提出了动态IoU奖励,分阶段调整阈值,以缓解冷启动问题,同时引导模型逐步提升定位精度:

首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench

首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench

虽然V-Triune提供了可扩展的数据、任务和指标框架,但早期实验显示,联合训练可能会导致评估性能下降梯度范数突增等不稳定现象,于是团队又通过以下调整逐步解决:

  1. 冻结ViT参数,防止梯度爆炸。
  2. 过滤伪图像特殊词元,确保输入特征对齐,提升训练稳定性。
  3. 构建随机化CoT提示池,降低提示依赖性。
  4. 由于V-Triune基于Verl框架实现,主节点内存压力较大,需解耦测试阶段与主训练循环以管理内存。

Orsta模型

另外值得一提的是,基于开源的Qwen2.5-VL模型,团队还训练出7B和32B的Orsta模型

首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench

依据4类推理任务(数学、谜题、科学、图表分析)和4类感知任务(物体检测、目标定位、计数、OCR)的训练数据,进行规则和难度的两阶段过滤和训练优化。

最终实现在MEGA-Bench Core基准测试中,Orsta相比原始模型提升至+14.1%,尤其是在感知任务中,mAP指标显著提高,证明了该统一方法的有效性和可扩展性。

首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench

MiniMax布局多模态领域

MiniMax作为商汤背景出身的AI六小龙之一,近期在多模态领域可谓动作频频,模型横跨语言、音频、视频

首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench

例如MiniMax的S2V-01视频模型、MiniMax-VL-01视觉多模态模型以及MiniMax-T2A-01系列语言模型等。

尤其是广受好评的MiniMax-01系列,包含基础语言模型和视觉多模态模型两种,性能上比肩DeepSeek-V3、GPT-4o等国内外顶尖模型的同时,还首次创新性实现了对新型Lightning Attention架构的大规模扩展。

最新发布的Speech-02,在AI语言生成上也是一骑绝尘,直接刷新全球权威语音基准测试榜单第一,一举打破OpenAI、ElevenLabs的行业垄断。

首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench

据悉,此番统一视觉任务的RL架构

是为后续更大规模模型的通用视觉能力做探索。

MiniMax的更多开源,感兴趣的小伙伴可以持续蹲一蹲~

论文链接:https://arxiv.org/abs/2505.18129
代码链接:https://github.com/MiniMax-AI/One-RL-to-See-Them-All

参考链接:
[1]https://x.com/MiniMax__AI/status/1926949919228600423
[2]https://huggingface.co/papers/2505.18129

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 5 月
 1234
567891011
12131415161718
19202122232425
262728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山 衡宇 2025-12-21 10:...
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026 Jay 2025...
奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板?

Failed to fetch content Read More 
LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了 一水 2025-12-21 19:13:08 来源:量子位 “LLM到不了AGI...
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026 一水 2025-12-21 19:11:12 ...