院士领衔万字长文，全面系统梳理多模态LLM对齐算法

1,012次阅读

没有评论

院士领衔万字长文，全面系统梳理多模态LLM对齐算法

衡宇
2025-03-23
12:39:18

来源：量子位

从幻觉到o1式推理全都有

CASIA等投稿

量子位 | 公众号 QbitAI

万字长文，对多模态LLM中对齐算法进行全面系统性回顾！

从现有对齐算法涵盖的应用场景，到构建对齐数据集的核心因素，再到用于评估对齐算法的基准，还有对齐算法未来潜在发展方向，全都梳理了一遍。

大语言模型（LLMs）能够通过简单的提示完成多种任务，且无需进行任务特定的训练。然而，这些模型主要处理文本数据，对于多模态数据的处理存在局限。

由于世界本质上是多模态的，包括视觉、听觉和文本等数据，研究者开始在LLM的基础上开发多模态大语言模型（MLLMs），以处理更复杂的数据形式。

然而，现有的MLLMs仍面临一系列挑战，尤其是在真实性、安全性、推理能力和与人类偏好对齐方面，这些问题尚未得到充分解决。

因此，针对这些问题的对齐算法应运而生，成为解决这些挑战的有效途径。

本文这项研究的主要贡献是对多模态大型语言模型（MLLMs）中的对齐算法进行全面的系统性回顾。

具体而言，探讨了以下四个关键问题：

现有对齐算法的应用场景：文章通过分类当前的对齐算法，清晰地展示了它们在不同应用领域的适用性，并为研究者提供了一个统一的符号系统，帮助理解各算法之间的区别与联系。
对齐数据集的构建：对齐数据集的构建涉及数据源、模型响应和偏好注释三个核心因素。文章对这些因素进行了系统分析与分类，并总结了公开数据集的优势与不足，为未来的改进提供参考。
对齐算法的评估方法：鉴于大多数对齐算法针对特定任务，如减少幻觉、确保安全性和改善推理能力，文章整理了常用的评估基准，提出了清晰的评估框架。
未来发展方向：文章提出了对齐算法发展的潜在未来方向，特别是视觉信息的整合、LLM对齐方法的经验启示，以及MLLM作为智能体面临的挑战与机遇。

这项研究由来自中国科学院自动化研究所、南京大学、中国科学技术大学、南洋理工大学、清华大学深圳国际研究生院、腾讯优图实验室、新加坡国立大学、理海大学、香港科技大学、松鼠Ai学习等机构的研究人员共同完成。

中国科学院院士谭铁牛、中国计算机学会会士王亮领衔。

以下是更多细节。

应用场景与代表性方法

应用场景

文章介绍了多模态大语言模型（MLLM）对齐算法的应用场景，分为三大层次：

通用图像理解：主要集中在减少幻觉（模型生成不准确或无关的输出），并提升模型在其他功能（如对话、推理能力）方面的表现。
多图像、视频和音频：针对复杂多模态数据，如多图像和视频，提出了不同的架构和训练方法来处理这些任务，尤其是如何在这些任务中减少幻觉并提高模型的能力。
扩展应用：探讨了将MLLM应用于领域特定任务，如医学、数学推理、安全系统等，介绍了如何根据这些特定领域的需求对模型进行优化。

通用图像理解与多模态o1

一般图像理解

MLLM对齐算法的初衷是解决多模态系统中的幻觉问题。最近的研究表明，这些算法不仅能提升幻觉的处理，还能增强模型的安全性、对话能力、推理能力等多个功能属性。

本节将系统地介绍几种创新的方法，按其主要应用场景分类：减少幻觉和提升其他能力。

减少幻觉

MLLM对齐算法的最初设计目的是减少幻觉现象。

例如，Fact-RLHF是第一个多模态的RLHF算法，使用了10K个人工标注的样本来训练奖励模型，并引入了每个token的KL惩罚、事实信息校准、以及正确性和长度惩罚等机制。

DDPO通过提高更正数据的权重，进一步优化了标准的DPO。

HA-DPO则利用MLLM生成图像描述，通过GPT-4验证幻觉并对正负样本进行重写，加入了辅助的因果语言建模损失以减少幻觉。

mDPO通过引入视觉损失函数来解决视觉信息忽视问题，并增加锚定机制来避免选定响应的概率下降。

提升综合能力

除了减少幻觉，一些算法还专注于提升模型的多方面能力。

例如，Silkie通过收集多样的指令数据集，并使用GPT-4V评估生成的响应，从而为应用DPO提供偏好数据。CLIP-DPO利用CLIP分数对数据进行标注，并应用DPO损失，从而同时提升幻觉减缓和零样本分类任务的表现。

SIMA通过让模型自我评估其生成的响应来构建偏好对，进一步提升了多图像任务的表现。

近期，MM-RLHF等方法通过更多样性的数据和算法，将alignment的效果进一步提升。

多模态o1发展

DeepSeek-R1的流行给MLLM社区带来了新的启示。

LMM-R1使用纯文本数学数据集，通过RLOO训练，并在多模态数学基准上取得了改进。

Open-R1-Video则利用GRPO方法提升了模型在视频领域的表现。

VLM-R1应用R1方法处理指代表达理解任务，进一步扩展了多模态推理的能力。

多图像、视频和音频

在这一部分，文章讨论了多图像、视频和音频任务中的挑战和解决方法。

多图像任务：现有的MLLM在多图像理解方面常常遇到困难，MIA-DPO通过构建多图像偏好数据来解决这一问题，取得了较好的效果。
视频任务：视频理解任务比单图像任务更加复杂，DPO和交错视觉指令的结合，能够有效提升视频任务的处理能力，如LLaVA-NeXT-Interleave方法。
音频任务：音频-视觉理解存在音频盲视问题，Video-SALMONN 2通过引入音频-视觉对齐机制，成功解决了这一问题。

扩展多模态应用

文章还介绍了在特定领域的扩展应用，提出了针对性更强的对齐方法。

医学应用：3D-CT-GPT++通过对医学影像分析进行优化，成功减少了诊断中的误差，达到了临床级别的准确性。
数学应用：MAVIS方法通过改进视觉数学问题解决框架，提高了MLLM在数学推理中的表现。
安全性：为应对多模态大语言模型的对抗性攻击，文章介绍了AdPO和VLGuard等方法，它们通过优化训练数据和模型结构来提高模型的鲁棒性。
代理和智能系统：INTERACTIVECOT和EMMOE方法通过动态优化推理流程和分解任务，提高了多模态大语言模型在嵌入式智能中的表现，尤其是在复杂决策过程中。

作者分析多模态大语言模型的不同应用场景，详细介绍了多种算法和方法，涵盖了从通用图像理解到特定领域应用的各个方面。

主要贡献在于展示了如何通过优化对齐算法来减少幻觉现象并提升模型在不同任务中的综合能力，尤其在视频、音频、医学、数学等复杂领域的应用。

随着这些方法的不断优化，MLLM将在更多领域展现其强大的处理能力。

下表总结了目前alignment策略常见的损失函数形式：

MLLM对齐数据构造与现有数据总结

主要内容总结

在多模态大型语言模型（MLLM）的研究中，对齐数据集是关键组成部分。由于多模态数据集的构建涉及到大量的数据来源、生成方法和注释技术，研究者们对不同构建方法进行了分类。

这些数据集大致可以分为两类：引入外部知识的数据集和依赖自我标注的数据集。

通过这些分类，研究者可以更清晰地了解不同数据集的特点，进而为多模态系统的优化提供支持。

作者对现有MLLM对齐数据集进行了全面的分类与分析，详细介绍了不同构建方法的优缺点以及应用场景。研究主要关注以下几个方面：

引入外部知识的数据集：讨论了通过人类注释和闭源模型（如GPT-4系列）构建的数据集，这些方法提高了数据的质量，但也面临高成本和主观性等挑战。
自我标注的数据集：探讨了利用模型自身生成偏好对进行数据集构建的方法，包括单一文本模态、单一图像模态和图像-文本混合模态三种类型的数据构建方法。
数据质量和规模的平衡：文章还讨论了如何平衡数据质量、规模与成本的关系，并展望了未来自动化数据增强技术的潜力，特别是如何利用自我标注方法提升数据质量。

通过这项工作，研究者们可以更加清楚地理解多模态数据集的构建策略，为未来的研究提供有力的支持。

引入外部知识的数据集

人工注释：通过人工标注，收集了不同领域的高质量数据。

例如，LLaVA-RLHF通过人工选择正负响应收集了10k个样本，RLHF-V通过人工修正幻觉响应收集了1.4k个样本。

闭源LLM/MLLM：利用GPT-4系列模型生成的偏好数据，通过这种方法可以大规模构建数据集，同时减少成本。

像LRV-Instruction通过GPT-4生成了400k个视觉指令，涵盖16个视觉语言任务。

开源LLM/MLLM：使用开源模型（如CLIP-DPO）来构建偏好数据，减少成本但可能牺牲数据质量。

例如，INTERACTIVECOT通过预定义分数构建了具身智能的偏好数据集。

自我标注的数据集

单一文本模态：

SQuBa使用微调后的模型生成负样本，并将其与正样本进行DPO对比。SymDPO通过将VQA/分类数据转化为ICL格式，以增强视觉学习。

单一图像模态：

Image DPO通过对图像进行扰动（如高斯模糊或像素化），而保持文本不变，构建DPO偏好对。

图像-文本混合模态：

AdPO通过构建原始/对抗图像及其模型响应的偏好对，在优化过程中，两者的图像和文本内容在正负样本中有所不同。

实验发现

在实验部分，研究发现：

数据集规模与质量的平衡：通过引入外部知识的数据集，能够提高数据的质量，但这也增加了构建成本。而自我标注的方法虽然能够大规模生成数据，但由于MLLM的性能限制，当前的自我标注数据集质量仍较低，且存在一定的分布偏移问题。

自动化增强的潜力：随着自动化数据增强技术的发展，未来的自我标注方法将可能解决当前数据质量低的问题，并提高数据的多样性和可信度。

总的来说，数据集的构建方法和质量控制是影响MLLM对齐效果的关键因素，未来的研究应关注如何在保证数据质量的同时，降低成本并提高数据集的规模。

模型评估

现有的MLLM对齐评估基准被分为六个关键维度：

通用知识（评估基础能力）、幻觉（衡量生成内容与事实的一致性）、安全性（评估响应中降低风险的能力）、对话（测试模型是否能输出用户要求的内容）、奖励模型（评估奖励模型的表现）和与人类偏好的对齐。

通用知识

大多数基准优先考虑高质量、人工注释的数据集，这些数据集专门为实际应用场景量身定制。

例如，MME-RealWorld包含来自13K张图像的29K个问答对，MMMU包含来自学术来源的11.5K个问题。MMStar通过减少数据泄漏和强调视觉依赖性来增强可靠性。

许多基准引入了创新方法，如MMBench的双语评估与CircularEval，MMT-Bench的任务图用于域内外分析，以及BLINK专注于视觉感知任务。这些框架提升了评估精度，揭示了模型的局限性。

任务通常需要高级的多模态推理能力，例如MathVista的数学视觉整合、SQA3D的3D情境问答以及MMMU对图表和地图的覆盖。

这些基准推动模型解决跨学科的挑战，通过策划具有挑战性的、细粒度的任务（如MVBench中的时间理解、Mantis-Instruct中的多图像处理），旨在提升模型解决现实世界问题的能力，特别是在细致感知和推理方面。

幻觉

这些基准系统地识别并分类多模态模型中的幻觉问题，包括对象幻觉（Object HalBench）、内在和外在幻觉（VideoHallucer）以及关联偏差（VALOR-Eval）。它们强调在视觉、文本和序列上下文中的细粒度评估。

许多基准提出了创新的框架，例如基于投票的查询（POPE）、LLM驱动的评分（HaELM、RefoMB）、开放词汇检测（OpenCHAIR）、无注释评估（GAVIE）、无LLM管道（AMBER）和GPT-4辅助的推理分析（Mementos）。

这些方法强调自动化、可扩展的评估，同时解决数据泄漏和语言先验等问题。

数据集优先采用细粒度的人类注释（M-HalDetect、HallusionBench）和合成数据生成（VHTest、MHaluBench），它们平衡了现实世界的复杂性（PhD的反常识图像、ActivityNet-QA的58K问答对）和受控挑战（R-Bench的鲁棒性分析）。

一些基准专注于特定任务，如多语言支持（MHumanEval），而另一些则处理更广泛的问题，如偏见和干扰（Bingo）。所有这些都旨在提高模型在实际场景中的鲁棒性。

通过提出对齐策略（如RLAIF-V的开源反馈）并提出统一框架（HQH），这些基准为开发更可靠的多模态系统提供了指导。

安全性

一些研究引入了新颖的技术，例如基于扩散的对抗性攻击（AdvDiffVLM）、红队框架（RTVLM）和后期微调策略（VLGuard）。

这些方法通过模拟现实世界威胁或提升模型的抗干扰能力来增强评估的严谨性。

像MultiTrust和RTVLM这样的基准通过多个维度统一了可信度评估（如真实性、公平性），而另一些基准则专注于特定挑战，如超出分布（OOD）泛化（VLLM-safety-bench）或过度敏感性（MOSSBench）。这些基准为模型的限制提供了整体的见解。

MM-RLHF-SafetyBench从现有数据集中进行采样，进一步涵盖了如对抗性攻击、隐私、红队攻击和有害内容检测等领域。

对话

这些基准优先评估基础的视觉技能，如低级感知能力（Q-Bench、LLVisionQA）、低级信息的描述能力（LLDescribe）和质量评估。

它们强调模型解释和表达细粒度视觉信息的能力。

几个基准测试了模型在具有挑战性场景中的泛化能力，包括非常规图像（LLaVA Bench-Wilder）、跨领域任务（LiveBench的数学/新闻整合）和对抗性提示（Vibe-Eval的高难度问题）。这些基准揭示了模型在标准数据集之外的适应能力。

奖励模型

每个基准都针对特定的评估维度，例如多语言能力（M-RewardBench中的23种语言）、对齐/安全性/偏见（MJ-Bench）、通过人类注释增强可解释性和最终模型评分能力（MM-RLHF-RewardBench）以及MLLM在辅助评判者跨多种模态中的能力（MLLM-as-a-Judge的评分与成对比较）。

这些框架揭示了模型在结构化和OOD场景中的优缺点。

高质量的数据集通过人类与AI合作（如VL-RewardBench的注释管道）或结构化三元组设计（RewardBench）策划而成，任务从简单的偏好排序到复杂的推理，推动模型处理如幻觉和伦理对齐等细致挑战。

对齐

一些基准研究了模型与人类偏好的对齐能力。

Arena-Hard是一个全面的多维度基准，旨在评估中文LLM的对齐能力。AlpacaEval-V2提出了一种简单的回归分析方法，用于控制自评中的长度偏差。Arena-Hard通过增加模型性能的分离度三倍，达到了98.6%的与人类偏好排名的相关性。MM-AlignBench是一个专门设计的手工注释基准，旨在评估与人类价值观的对齐。

总体而言，许多当前的MLLM对齐算法侧重于防止模型生成幻觉，同时探索如何利用对齐算法提升MLLM的通用知识和对话能力，这是未来的重要方向。

一些研究者将不安全的响应视为与人类偏好不对齐，因此应用MLLM对齐算法来解决安全问题。这些框架中奖励模型的有效性，尤其是在引导对齐方面的表现，值得进一步研究。

此外，针对与人类偏好的对齐，基准也从LLM领域发展到了MLLM领域。

未来工作与挑战

随着多模态大型语言模型（MLLM）的迅速发展，将它们与人类偏好对齐已经成为研究的重点。然而，仍然存在若干挑战。

首先，高质量和多样化数据集的稀缺问题仍然未得到有效解决。其次，许多方法未能有效利用视觉信息，往往主要依赖文本来构建正负样本，忽略了多模态数据的全部潜力。此外，缺乏全面的评估标准，当前的方法通常仅在幻觉或对话任务等特定类型的基准上进行验证，这使得它们的普适性难以评估。

通过借鉴LLM后期训练策略和智能体研究的进展，可以揭示现有MLLM对齐方法中的局限性。克服这些挑战对于开发更强大和全面的对齐方法至关重要。

数据挑战

MLLM对齐面临两个关键的数据相关挑战：数据质量和覆盖范围。

首先，高质量的MLLM对齐数据的可用性有限。与LLM相比，获取和注释多模态数据要复杂得多，因为它涉及多个模态的处理。

其次，现有数据集在涵盖多样化多模态任务方面存在不足，例如光学字符识别、数学问题和图表理解等任务。构建一个涵盖广泛任务的综合数据集是一项极具挑战的工作。

据作者所知，目前没有一个公开的、完全人工注释的多模态数据集样本量超过200,000个。

这些在数据质量和覆盖范围方面的限制，成为有效对齐MLLM的重大障碍。

利用视觉信息进行对齐

目前的对齐数据可以表示为：偏好数据D=(x, I, yw, yl)，其中x是问题，I是图像，yw、yl分别表示正确和错误的响应。

在当前的研究中，主要有三种方法用于利用视觉信息来增强对齐性能，但每种方法都有其局限性：

使用破损或无关图像作为对齐阶段的负样本。

研究人员创建新的图像Ineg，并使用(yw｜X, Ineg)作为负样本。此方法通过减少幻觉和提高MLLM对不同图像的鲁棒性来改善对齐效果。然而，视觉负样本通常依赖于扩散算法或图像修改，这些方法缺乏强有力的质量度量，并且计算成本较高。

基于破损图像生成新的问题和答案。

在这种方法中，研究人员创建一个新的图像Ineg，使用该图像生成额外的响应yneg，然后将(yneg｜X, I)视为负样本。此方法增加了文本比较的多样性，但生成额外负样本的过程增加了计算开销。

使用像CLIP这样的余弦相似度度量来评估文本-图像匹配。

该方法通过计算文本与图像之间的相似度分数来筛选数据，或将其作为强化学习奖励函数的一部分。虽然这种方法有助于减少数据噪声，但评分的质量依赖于评估模型的质量，可能受到模型偏见的影响。

每种方法在利用视觉数据增强MLLM对齐方面都有一定的作用，但在效率、成本和潜在偏见方面存在权衡。

综合评估

大多数MLLM对齐研究主要评估其算法在幻觉、对话能力或安全性等几个关键领域的表现。

然而，未来的研究应采用更全面的评估方法，跨更广泛的任务评估对齐方法，以更好地展示其普适性和有效性。

全模态对齐

Align-anything开创了通过多模态数据集“align-anything-200k”实现全模态对齐的研究，涵盖了文本、图像、音频和视频。这项研究展示了不同模态之间的互补效应。

然而，他们的工作仍处于初期阶段，每种模态的数据集相对较小，限制了其任务覆盖范围。

此外，提出的算法仅是DPO方法的初步改进，未能充分利用每种模态固有的独特结构信息。

未来，超越图像/文本领域的对齐算法设计，尤其是针对其他模态的对齐，将是一个关键的趋势。

MLLM推理

最近，由OpenAI（o1）和DeepSeek-R1代表的推理LLM已经证明，强化学习算法和偏好数据对于提高LLM在复杂问题求解、长时上下文理解和生成任务中的表现至关重要。

本文将探讨从LLM推理增强研究中获得的洞察及其对对齐MLLM的影响，主要从数据和优化框架两个维度进行分析。

(1) 数据。

规模与质量。对应的方法逐渐从小模型重采样（如OpenMathInstruct）发展到高质量合成数据（如AceMath），并逐步采用尖端模型（如OpenAI o1）和通过领域专用模型合成数据实现可扩展的知识迁移（如DeepSeek-V3）。

目前，用于推理增强的数据集普遍达到百万样本规模（如Qwen-2.5-MATH）。

效率。采用“少即是多”的对齐（如LIMA的1k样本用于65B Llama）证明了最少的高质量数据能够最优地激活预训练能力，同时减少对数据规模的依赖。

(2) 优化框架。

采样策略。最近的进展表明，在线强化学习（RL）逐渐成为主流方法，DeepSeek-V3和Qwen-2.5-MATH的在线采样方法有效地缓解了分布偏移。

此外，Mini-Max采用了离线+在线采样策略，进一步提升了模型性能。

训练范式。多阶段、协作优化已成为主流方法。

例如，Llama 3包含了六轮DPO迭代，而DeepSeek通过温度变化的采样和反射/验证提示来优化推理深度（长链式推理）和简洁性。

算法。强化学习算法从早期的策略梯度方法发展到更复杂的PPO，最近基于PPO的改进主要有两个方向：

一个是去除评估模型并用稀疏奖励训练策略，从而减少一半的参数量（如DPO和GRPO）；另一个是精炼评估模型的设计，例如引入比率作为优势函数的PRIME和通过重塑正负样本奖励的OREAL。

通过优先考虑高质量数据和创新的优化框架，MLLM领域正朝着更有效、可扩展的模型发展，这些模型也能更好地解锁MLLM的推理潜力。

LLM对齐的启示

对LLM的对齐已经成为最近研究的一个关键焦点，提供了许多有价值的见解，可以为MLLM的开发提供指导。通过审视现有LLM对齐策略的经验教训，可以揭示出有助于提升MLLM研究的关键原则：

(1) 提高训练效率。

当前MLLM的对齐方法依赖于DPO损失函数。然而，由于DPO需要同时加载策略模型和参考模型，训练速度会显著下降。是否可以利用类似SimPO的无参考方法进一步提升训练效率？

这一方法可能加速训练过程，同时减少对参考模型的依赖。进一步研究参考模型在MLLM对齐中的具体作用和影响，对于提高效率和优化模型设计至关重要。

(2) 减轻过度优化/奖励黑客问题。

在使用DPO或RLHF进行LLM对齐时，过度优化仍然是一个关键挑战，即通过学习到的代理奖励模型来提高性能，但真正的质量可能停滞或退化。

为应对这一挑战，解决策略包括：

使用平衡的训练数据集确保多样性和代表性，防止过于狭窄的优化；
在验证性能平稳时实施早停；
引入正则化技术，减少对训练数据的过度依赖，提高模型的泛化能力。

MLLM作为智能体

MLLM结合了LLM强大的推理能力和处理来自多种模态（如图像、文本和音频）数据的能力。这使得它们能够从多种信息源中提取知识并进行综合分析，在处理复杂的现实任务中具有很大优势。

然而，要将MLLM转变为高效的智能体，仍然需要解决几个待处理的问题。

多智能体协作。
目前，针对基于文本的智能体的多智能体协作框架已取得显著进展，但基于MLLM的多智能体系统仍缺乏成熟的解决方案。
鲁棒性。
MLLM智能体在开放环境中的鲁棒性尚未得到系统验证，需引入对抗性鲁棒性测试和保障技术。
安全性。
MLLM智能体中引入更多复杂组件增加了安全风险，未来的研究应探索多种安全保护机制，以减轻这些风险。

论文链接：https://arxiv.org/pdf/2503.14504
GitHub链接：https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment

院士领衔万字长文，全面系统梳理多模态LLM对齐算法

院士领衔万字长文，全面系统梳理多模态LLM对齐算法

应用场景与代表性方法

应用场景

通用图像理解与多模态o1

多图像、视频和音频

扩展多模态应用

MLLM对齐数据构造与现有数据总结

主要内容总结

引入外部知识的数据集

自我标注的数据集

实验发现

模型评估

通用知识

幻觉

安全性

对话

奖励模型

对齐

未来工作与挑战

数据挑战

利用视觉信息进行对齐

综合评估

全模态对齐

MLLM推理

LLM对齐的启示

MLLM作为智能体

test

test

文心AIGC

test

test

2025 年 3 月
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

2025 年 3 月
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31