视觉语言模型安全升级，还不牺牲性能！技术解读一文看懂｜淘天MMLab南大重大出品

957次阅读

没有评论

视觉语言模型安全升级，还不牺牲性能！技术解读一文看懂｜淘天MMLab南大重大出品

衡宇
2025-01-17
11:45:18

来源：量子位

概念瓶颈+渐进式对齐

PSA-VLM 投稿

量子位 | 公众号 QbitAI

模型安全和可靠性、系统整合和互操作性、用户交互和认证……

当“多模态”“跨模态”成为不可阻挡的AI趋势时，多模态场景下的安全挑战尤其应当引发产学研各界的注意。

应对挑战，淘天集团未来生活实验室团队联手南京大学、重庆大学、港中文MMLab提出了一种全新的视觉语言模型（VLM）安全对齐方法，PSA-VLM（Progressive Safety Alignment for Vision-Language Models）。

PSA-VLM通过基于概念瓶颈模型（CBM）的架构创新，允许模型在生成答案时干预模型的中间层概念预测，从而优化大模型的最终回复，显著提升VLM在应对视觉安全风险方面的性能。

视觉语言模型安全升级，还不牺牲性能！技术解读一文看懂｜淘天MMLab南大重大出品

这一方法不仅在安全性能上取得了卓越的表现，同时保持了模型的通用任务能力。

一起来看。

视觉语言模型的安全隐忧：从“黑箱”到“可控”

近年来，大语言模型（LLMs）的发展促进了多模态学习的进步，使这些强大的语言模型能够处理来自多种模态的信息。

其中，视觉语言模型（VLMs）通过整合图像和文本特征，在视觉问答、图像描述以及多模态推理等任务上取得了显著成果。

然而，尽管VLMs取得了诸多进展，但其安全性仍然存在重大缺陷。

研究发现，在遭遇攻击时视觉模态表现出特别的脆弱性，针对VLM中视觉模态的攻击更容易成功：人们可以通过简单的攻击手段绕过语言模型基座已有的安全对齐机制，生成有害内容。

这一问题对模型的社会应用造成严重隐患，亟需有效的解决方案。

△风险与误导数据示例

虽然一些研究探索了针对多模态模型的防御和对齐措施，然而，现有防御方法通常基于直觉设计并通过数据驱动的端到端训练实现。

模型仍然是一个人类难以理解和控制的黑箱。

此外，模型的高复杂性也带来了发现内部潜在缺陷的担忧，这都带来了模型具备可解释性和可控性的需求。

为了克服这些局限性，PSA-VLM的创新在于引入了概念瓶颈模型的核心思想——

通过一层可解释的高阶概念连接输入和输出，实现模型的透明化与可控性。

这不仅让模型能够准确识别不安全内容，还支持用户在概念层面对模型预测进行干预，为高风险场景提供了灵活可靠的解决方案。

PSA-VLM的设计亮点：基于概念瓶颈的安全创新

在VLMs中，安全对齐通常指的是确保模型对多模态输入（特别是可能包含敏感内容的视觉输入）生成受控且适当的响应。

VLMs在其视觉模态中面临特定的脆弱性，这些脆弱性使有害或不适当的内容能够绕过传统的基于语言的安全机制。

为了解决这一问题，研究团队提出了基于CBM框架的渐进式安全对齐方法PSA-VLM。

这种方法通过引入可控的概念瓶颈来隔离安全关键特征，从而通过分层的概念驱动架构增强了VLM的安全性。

概念瓶颈模型驱动的核心架构

PSA-VLM的核心设计围绕概念瓶颈（Concept Bottleneck）展开。

即通过在视觉输入与模型输出之间引入高阶安全概念层，实现模型的可透明化与可控性。

显式概念安全头（Explicit Concept Safety Head）：通过图片和文本信息的交叉注意力（Cross Attention），将视觉特征映射到具体的安全类型（如NSFW等）与风险等级（高、中、低），提供精细化的安全预测。
隐式概念安全标记（Implicit Concept Safety Tokens）：作为额外的训练令牌，直接嵌入视觉输入中，提升模型对隐性风险信号的敏感度。这些可训练令牌针对不安全视觉输入发出信号，根据概念特定指标对模型的注意力进行对齐。它可以被理解为语义上不可理解的隐式概念。

多模态协同的安全模块

分为以下2部分：

安全投影器（Safety Projector）：在视觉编码器（Image Encoder）之后，专注提取与安全相关的视觉特征，并将其转化为安全对齐的表示（Safety-Aligned Features）。
文本－视觉对齐机制：结合文本输入（Text）和安全特征，通过联合条件（Joint Condition）生成安全提示（Safe Text），动态引导模型在高风险场景中输出安全响应。

两阶段训练策略

第一阶段，安全特征提取。

冻结大语言模型和视觉编码器，仅训练安全模块，聚焦于概念层次的风险识别与特征对齐。

初始阶段重点是通过安全投影器、令牌和头部提取和对齐安全概念。

这些组件学习对视觉输入中的安全对齐特征进行分类和提取，确保模型对风险内容的响应是一致的。

第二阶段，模型微调。

解冻大语言模型，将安全模块与语言模型深度集成，使其全面吸收安全概念特征，进一步提升跨模态输入的安全性能。

推理阶段的动态安全控制

在推理过程中，PSA-VLM利用安全头的输出对视觉内容进行动态干预，通过联合条件概率调整生成文本，确保对高风险内容的安全响应。

例如，在遇到不恰当的输入风险时，提供可操作的选项，让下游用户在推理时按需要进行选择，从而实现更灵活的安全管理。

△模型架构示意图

通过上述模块，PSA-VLM不仅提升了视觉语言模型在应对不安全内容方面的表现，还显著增强了模型的可解释性和可控性，为多模态系统的安全对齐树立了新范式。

在提升安全性的同时，通过设计高效的安全模块和对齐训练策略，确保模型在标准任务中的性能不受显著影响，达成安全与通用能力的平衡。

从安全和通用领域两方面评估性能

有害数据在现实场景中多样且复杂，不限于单一来源、类型或模态。

为了解决这个问题，研究人员收集了多个数据集——他们手动将风险图像分类为6种类型和3个级别，以实现风险控制的分类和分级。

此外，通过抽样构建了一个相对平衡的数据集，其中包含约11,000对风险图像和文本查询。

注意，为了避免在微调期间通用性能下降，其中包括了部分LLaVA和COCO数据集作为干净的安全样本。

△训练与评测数据来源

具体来说，PSA-VLM团队从两个方面评估VLM性能：

安全性能
通用领域性能

为了确保公平比较，研究者首先使用RTVLM基准和GPT-4评分为基础的方法评估模型。

由于RTVLM数据集有限且不包含敏感数据，研究者扩展了评估范围，加入了额外的风险数据集；然后进一步结合GPT-4和人类专家的主观评估，提供全面而可信的评测。

在通用场景中评估模型性能时，团队使用了多个基准，包括MMBench、SEEDBench和 MME。

首先来看安全性能方面。

团队首先使用RTVLM基准对VLMs的不同维度进行了GPT-4评分分析，包括四个不同类别以深入理解模型的安全能力。

△RTVLM基准上的安全性能评测结果

如上图所示，团队评估了多个开源VLM以及GPT-4V和我们的PSA-VLM。

结果表明，GPT-4V在各种类别上表现良好，尤其是验证码和越狱场景等安全领域；InternLM-XComposer2在多个指标上表现突出。

经过对齐后，基于LLaVA的PSA-VLM同样表现出强大的性能，特别是在使用LoRA解冻LLM时，其在政治（8.36）和种族（8.43）上获得了最高分。

从平均得分来看，PSA-VLM-7B（+LoRA）以8.26的领先得分脱颖而出，其次是未解冻LLM的PSA-VLM，得分为8.18。

值得注意的是，13B模型使用LoRA达到8.46的最高平均分。

PSA-VLM相较其他VLM的提升安全得分，突显了附加安全模块和两阶段安全对齐策略的有效性。

不过，RTVLM数据集不包括NSFW等其他高风险敏感数据。

因此，研究团队在其他风险数据集上进行了实验，以评估PSA-VLM的安全性能。

如下图所示，PSA-VLM-13B在有害政治（9.49）、NSFW内容（8.72）和网络欺凌检测（7.45）上取得了最佳性能，显著优于基线模型LLaVA-v1.5-13B，其得分为6.67、1.11和6.16。

尽管使用LoRA解冻的PSA-VLM-7B在某些任务中得分稍有下降（如8.91和6.82），但仍显著优于LLaVA-v1.5-7B。

△其他风险数据集上的安全性能评测结果

接着来看通用领域性能方面。

在PSA-VLM中，提高安全性能并非以牺牲通用性能为代价。

尽管采取了增强的安全措施，PSA-VLM-7B在MMBench、SEEDBench和MME等通用基准上仍保持竞争力。

如下图所示，PSA-VLM-7B在MMBench和SEEDBench通用基准上表现出改进，分别取得68.5和65.3的分数，显示出更好的通用性能。

△常见通用多模态性能测试基准结果

此外，在多模态基准的评估中，PSA-VLM-7B有效识别并拒绝响应多个潜在风险图像，显示其对潜在不安全内容的高度敏感性，并强调了PSA-VLM安全对齐方法的有效性。

被认为不安全的图像被过滤，从而允许研究过程能使用完全干净的数据评估通用性能。

这种对不安全内容的响应能力反映了PSA-VLM-7B可靠的安全性能，同时不影响其整体性能能力。

最后，研究团队还做了进一步实验。

如图（a）所示，t-SNE可视化展示了二维空间中不安全图像特征的分离。

每个子图对应一组特征集和标签的不同组合，展示了原始和安全特征之间的差异。

在使用安全投影器后，不安全图像的特征显著分为不同的簇，这表明提取到的特征和安全标签的相关性很强，有效地学习到了输入中的风险信息。

△图（a），安全特征的t-SNE可视化

如图3（b）所示，研究团队还在信息瓶颈层测试了安全级别和安全类型的分类性能，包括准确率和F1得分。

这些得分大多数在90%以上，表明模型可以有效地完成安全信息提取的任务。

△图（b），安全级别和安全类型的分类性能

对齐后的输出实例如下图所示：

综上来看，在主流VLM安全基准上的测试表明，PSA-VLM在多个维度上改善了现有VLM的安全性指标，在部分特定任务中表现出色。

例如，在LLaVA-1.5 7B基座上，即使只使用4*A100，1小时的计算资源进行一阶段对齐，就可以将RTVLM基准测试评分从6.39提升到8.18。

同时，其概念瓶颈架构极大增强了模型的可解释性和可控性，使其成为高风险领域（如医疗、教育）的理想选择。

PSA-VLM的成功应用还具有重要的社会价值，例如通过实时监测与干预不安全内容，降低模型被恶意利用的风险；增强的透明度与安全性有助于提升用户对AI系统的信心，促进多模态模型在社会场景中的广泛应用。

PSA-VLM的提出尝试为多模态模型的可信性与可控性树立了新标杆。

随着更多数据集的完善与模型架构的优化，基于概念的安全对齐策略有望在更广泛的领域中得到应用，助力多模态大模型向更高的社会价值迈进。

One More Thing

PSA-VLM项目的核心作者包括刘振东，聂远碧，谭映水，岳翔宇，崔秋实等。

整个团队中，有四位来自淘天集团算法技术-未来实验室团队。

该实验室聚焦大模型、多模态等AI技术方向，致力于打造大模型相关基础算法、模型能力和各类AI Native应用。

团队将持续在大语言模型和多模态大语言模型对齐方向的研究。如您有任何疑问、建议、或合作意向，欢迎随时通过电子邮件联系。

电子邮箱：
tanyingshui.tys@taobao.com
论文链接：
https://arxiv.org/pdf/2411.11543
项目主页：
https://github.com/Yingshui-Tan/PSA-VLM

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

视觉语言模型安全升级，还不牺牲性能！技术解读一文看懂｜淘天MMLab南大重大出品

视觉语言模型安全升级，还不牺牲性能！技术解读一文看懂｜淘天MMLab南大重大出品

视觉语言模型的安全隐忧：从“黑箱”到“可控”

PSA-VLM的设计亮点：基于概念瓶颈的安全创新

概念瓶颈模型驱动的核心架构

多模态协同的安全模块

两阶段训练策略

推理阶段的动态安全控制

从安全和通用领域两方面评估性能

One More Thing

test

test

文心AIGC

test

test