阿里开源R1-Omni,DeepSeek同款RLVR首度结合全模态情感识别,网友:可解释性+多模态学习=下一代AI

880次阅读
没有评论

阿里开源R1-Omni,DeepSeek同款RLVR首度结合全模态情感识别,网友:可解释性+多模态学习=下一代AI

三个关键方面有显著提升

西风 发自 凹非寺

量子位 | 公众号 QbitAI

首次将DeepSeek同款RLVR应用于全模态LLM,含视频的那种!

眼睛一闭一睁,阿里通义实验室薄列峰团队又开卷了,哦是开源,R1-Omni来了。

同样在杭州,这是在搞什么「开源双feng」(狗头保命)?

阿里开源R1-Omni,DeepSeek同款RLVR首度结合全模态情感识别,网友:可解释性+多模态学习=下一代AI

他们都做了啥?

DeepSeek-R1带火了RLVR(可验证奖励强化学习),之前已有团队将RLVR应用于图像-文本多模态LLM,证明其在几何推理和视觉计数等任务上表现优异。

然鹅,尚未探索将其与包含音频、动态视觉内容的全模态LLM结合。

薄列峰团队首次将RLVR与全模态LLM结合,聚焦的是视觉和音频模态都提供关键作用的情感识别任务

团队实验发现,模型在三个关键方面有显著提升:

RLVR的引入不仅提高了模型在分布内数据上的整体性能,而且在分布外数据集上也展现出了更强的鲁棒性。

更重要的是,提升后的推理能力使得能够清晰分析在情感识别过程中不同模态所起的作用。

阿里开源R1-Omni,DeepSeek同款RLVR首度结合全模态情感识别,网友:可解释性+多模态学习=下一代AI

R1-Omni在X上也吸引了不少网友关注:

非常有趣的论文,我立刻就能预见到它在市场营销和广告领域进行情感倾向分析的潜力。

阿里开源R1-Omni,DeepSeek同款RLVR首度结合全模态情感识别,网友:可解释性+多模态学习=下一代AI

还有网友表示可解释性+多模态学习就是下一代AI的方向。

阿里开源R1-Omni,DeepSeek同款RLVR首度结合全模态情感识别,网友:可解释性+多模态学习=下一代AI

一起具体来看R1-Omni。

阿里开源R1-Omni,DeepSeek同款RLVR首度结合全模态情感识别,网友:可解释性+多模态学习=下一代AI

R1-Omni长啥样?

在研究方法上,论文首先介绍了DeepSeek同款RLVR和GRPO。

RLVR是一种新的训练范式,其核心思想是利用验证函数直接评估输出,无需像传统的人类反馈强化学习(RLHF)那样依赖根据人类偏好训练的单独奖励模型。

给定输入问题q,策略模型πθ生成响应o,接着使用可验证奖励函数R(q,o)对其进行评估,其优化目标为最大化验证奖励减去基于KL散度正则化项的结果。

阿里开源R1-Omni,DeepSeek同款RLVR首度结合全模态情感识别,网友:可解释性+多模态学习=下一代AI

RLVR在简化了奖励机制的同时,确保了其与任务内在的正确性标准保持一致。

GRPO是一种全新的强化学习方法,它与PPO等传统方法有所不同,PPO依赖于一个评论家模型来评估候选策略的性能,而GRPO直接比较生成的响应组,避免了使用额外的评论家模型,简化了训练过程。

利用归一化评分机制,GRPO鼓励模型在组内优先选择奖励值更高的响应,增强了模型有效区分高质量和低质量输出的能力。

阿里开源R1-Omni,DeepSeek同款RLVR首度结合全模态情感识别,网友:可解释性+多模态学习=下一代AI

遵循DeepSeek-R1中提出的方法,团队将GRPO与RLVR相结合

R1-Omni模型构建方面,团队采用了一种受DeepSeek-R1训练方法启发的冷启动策略

在包含232个可解释多模态(视觉和音频)情感推理数据集(EMER)样本和348个手动标注的HumanOmni数据集样本的组合数据集上对HumanOmni-0.5B(一个专为人为场景理解设计的开源全模态模型)进行微调,使模型具备初步推理能力,了解视觉和音频线索是如何对情感识别产生作用的。

之后,通过RLVR训练优化模型,奖励函数由准确率奖励和格式奖励组成,准确性奖励评估预测情感与真实情感的匹配度,格式奖励确保模型输出符合指定的HTML标签格式。

阿里开源R1-Omni,DeepSeek同款RLVR首度结合全模态情感识别,网友:可解释性+多模态学习=下一代AI
阿里开源R1-Omni,DeepSeek同款RLVR首度结合全模态情感识别,网友:可解释性+多模态学习=下一代AI

模型输出预期包含两部分:一个推理过程,封装在”<think></think>”标签内,解释模型如何整合视觉和音频线索得出预测;一个最终情感标签,封装在”<answer></answer>”标签内,表示预测的情感。

推理/理解/泛化三方面提升

实验评估中,研究者将R1-Omni与三个基线模型进行比较:原始的HumanOmni-0.5B、在EMER数据集上进行监督微调的模型EMER-SFT、直接在MAFW和DFEW训练集上基于HumanOmni-0.5B进行监督微调的模型MAFW-DFEW-SFT

评估指标包括无加权平均召回率(UAR)和加权平均召回率(WAR),这些指标衡量模型在不同情感类别中准确分类情感的能力。

重要的是,所有评估都在开放词汇情感测试(OV-emotion)协议下进行。在这种设置中,模型不提供预定义的情感类别,而是直接从输入数据中生成情感标签,这增加了评估的挑战性和实际应用价值。

实验结果表明,R1-Omni在三个关键方面优于三个对比模型:推理能力增强、理解能力提高、泛化能力更强

研究者展示了一系列可视化示例,比较R1-Omni与其它三个模型的输出,R1-Omni提供了更连贯、准确和可解释的推理过程。

相比之下原始HumanOmni-0.5B和MAFW-DFEW-SFT模型表现出有限的推理能力,而EMER-SFT虽具备一定推理能力但推理过程连贯性较差且容易产生幻觉。

阿里开源R1-Omni,DeepSeek同款RLVR首度结合全模态情感识别,网友:可解释性+多模态学习=下一代AI

在MAFW和DFEW数据集上,R1-Omni在UAR和WAR指标上均优于其它模型。

例如在DFEW数据集上,R1-Omni实现了65.83%的UAR和56.27%的WAR,明显优于MAFW-DFEW-SFT的60.23%UAR和44.39%WAR。

阿里开源R1-Omni,DeepSeek同款RLVR首度结合全模态情感识别,网友:可解释性+多模态学习=下一代AI

为了评估模型的泛化能力,研究者在RAVDESS数据集上进行了实验,该数据集作为分布外(OOD)测试集。

与主要由电影片段组成的MAFW和DFEW数据集不同,RAVDESS数据集特点是专业演员以中性北美口音发表词汇匹配的陈述,这种数据分布的显著差异使RAVDESS成为评估模型泛化到未见场景能力的理想基准。

R1-Omni在RAVDESS数据集上相较于MAFW-DFEW-SFT模型有显著提升,实现了43.00%的UAR和44.69%的 WAR。

阿里开源R1-Omni,DeepSeek同款RLVR首度结合全模态情感识别,网友:可解释性+多模态学习=下一代AI

目前,基础模型HumanOmni-0.5B、冷启动模型EMER-SFT,还有MAFW-DFEW-SFT以及最终模型R1-Omni已全部开源。

阿里开源R1-Omni,DeepSeek同款RLVR首度结合全模态情感识别,网友:可解释性+多模态学习=下一代AI

参考链接:
[1]https://arxiv.org/abs/2503.05379
[2]https://github.com/HumanMLLM/R1-Omni

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 3 月
 12
3456789
10111213141516
17181920212223
24252627282930
31  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...