仅1/70的数据量,多模态检索效果却更优! 智源发布BGE-VL,合成数据立大功

941次阅读
没有评论

仅1/70的数据量,多模态检索效果却更优! 智源发布BGE-VL,合成数据立大功

算法能够以极低成本持续生成多样化且高质量的多模态三元组

允中 发自 凹非寺

量子位 | 公众号 QbitAI

BGE系列模型自发布以来广受社区好评。近日,智源研究院联合多所高校开发了多模态向量模型BGE-VL,进一步扩充了原有生态体系。

BGE-VL在图文检索、组合图像检索等主要多模态检索任务中均取得了最佳效果。BGE-VL借助大规模合成数据MegaPairs训练而成。

这一设计具备以下两大核心优势:

  • 优异的可扩展性:MegaPairs 结合多模态表征模型、多模态大模型和大语言模型,在海量图文语料库中高效挖掘多模态三元组数据。其算法能够以极低成本持续生成多样化且高质量的多模态三元组。本次发布的版本涵盖 2600 万条样本,为多模态检索模型的训练提供了大规模、高价值的数据支持。
  • 卓越的数据质量:相较于传统多模态数据,MegaPairs 仅需 1/70 的数据量即可实现更优的训练效果。利用该合成数据,智源训练了多模态检索模型 BGE-VL,显著提升了多个主流多模态检索基准的性能。

BGE-VL的技术报告已发布,相关数据、模型及代码资源将陆续向社区全面开放。

仅1/70的数据量,多模态检索效果却更优! 智源发布BGE-VL,合成数据立大功

MegaPairs构造

在大模型时代,信息检索需要满足人们日益多样化的需求,这种需求不仅体现在用户的多模态查询输入上,也体现在对多模态信息的需求上。例如,用户可能拍摄一张汽车外观图,并希望获取该款汽车的指定信息。在这种情况下,多模态检索器需要综合理解用户的图像和文本指令,并从多种模态的信息中检索出最相关的内容。

然而,现有的多模态检索模型通常基于单一形式的跨模态配对数据(如图像-文本对)进行训练,这使得它们难以处理复杂的组合模态输入。近年来,指令微调技术在文本检索和大语言模型等领域已经证明了其增强多任务能力的有效性。然而,以往的多模态检索指令数据集大多依赖人工标注,限制了大规模多样化数据的获取。

为解决这一限制,智源BGE团队创新性地提出了MegaPairs数据合成方法。该方法通过从现有大规模图像数据集中挖掘多样的关联图像对,并利用开源多模态大模型和大语言模型进行自动化指令生成,从而构建出高质量、可扩展、泛化性强的多模态检索指令微调数据集。团队基于MegaPairs的高质量数据,训练并开源多模态向量模型BGE-VL系列,实现了当前最佳的多模态检索能力。

MegaPairs提出从现有大规模图文语料库中挖掘并构造大规模、高质量多模态检索指令数据集。

具体地,MegaPairs的构造主要分为两个关键步骤:

(1)使用多种相似度模型从图像数据集中挖掘多样的图像对;

(2)使用开源的多模态大模型和大语言模型合成开放域检索指令。

以下图为例,MegaPairs首先从大规模图像数据集中采样一对图像-文本数据作为查询数据。然后,利用多种图像和文本相似度模型,挖掘出多组关联图像对(例如:同款汽车的外饰与内饰、同款汽车不同涂装、同品牌汽车未来概念图等)。接着,针对这些挖掘出的图像对,MegaPairs采用两阶段标注方法:首先使用多模态大语言模型(MLLM)总结两张图片之间的关联关系,然后使用大语言模型(LLM)撰写最终的开放域检索指令。

值得注意的是,MegaPairs完全基于开源数据集和开源模型进行自动化构建和标注。通过引入多个相似度模型和两阶段标注方法,MegaPairs能够在无需人工参与的情况下,扩展性地生成大规模、高质量且多样化的多模态检索指令数据集。

仅1/70的数据量,多模态检索效果却更优! 智源发布BGE-VL,合成数据立大功

△MegaPairs多模态三元数据构造流程

基于上述流水线,MegaPairs合成了超过2600万条(查询图像, 查询语句, 目标图像)三元数据对。此外,鉴于“难负例”在训练检索模型的重要性,MegaPairs对于每组挖掘的图像对数据都选取了其他相似图片作为难负例。

BGE-VL模型

基于MegaPairs合成的大规模多模态检索指令数据集,智源BGE团队训练出了3款不同尺寸的多模态检索模型。包括基于CLIP架构的BGE-VL-Base和BGE-VL-Large,以及基于多模态大模型架构的BGE-VL-MLLM。团队发现,仅仅使用MegaPairs三元组数据训练,模型就在多个任务上实现了远超以往方法的的领先性能优势。

综合多模态嵌入任务性能表现

团队首先在Massive Multimodal Embedding Benchmark(MMEB)上验证了BGE-VL模型的性能。MMEB是一个综合性基准测试,涵盖了4大类共计36个不同多模态嵌入评测任务:分类(Classification)、视觉问答(Visual Question Answering)、检索(Retrieval)和视觉定位(Visual Grounding)。

仅1/70的数据量,多模态检索效果却更优! 智源发布BGE-VL,合成数据立大功

△MMEB评测任务示例图

在零样本性能表现方面,BGE-VL在MMEB的多个任务类型和整体评分均实现了最优性能。更令人兴奋的是,MegaPairs并未包含MMEB中的绝大部分任务类型数据(例如Classification、VQA,Grounding),却能够实现良好的任务泛化能力。

仅1/70的数据量,多模态检索效果却更优! 智源发布BGE-VL,合成数据立大功

根据MMEB的设置,团队进一步在MMEB的分布内(IND)集合(包含36个评测任务中的20个任务)上对BGE-VL进行了有监督微调。实验结果显示,BGE-VL的平均性能指标相比直接在MMEB上微调的VLM2Vec (LLaVA-1.6) 模型高出9.1个百分点。同时,在分布外(OOD)数据集上的平均表现也比两版VLM2Vec分别高出11.6%和7.1%。这些结果证明了MegaPairs数据的高质量和泛化能力。

仅1/70的数据量,多模态检索效果却更优! 智源发布BGE-VL,合成数据立大功

组合图像检索性能

传统图像检索通常采用“文搜图”或“图搜图”的方式。近年来,组合图像检索作为一种新兴的图像搜索范式,允许用户同时输入图像和搜索指令,实现更精准的图像检索效果。这一方法被谷歌称为“下一代图像搜索范式”。

在当前主流的组合图像检索评测集CIRCO上,BGE-VL在不同模型尺寸上均显著刷新了现有基准。大幅超越包括谷歌的MagicLens系列和英伟达的MM-Embed等对比基线。具体而言,BGE-VL-MLLM较之前的SOTA模型提升了8.1个百分点。此外,BGE-VL-Base模型以不到1/50的参数量超越了如MM-Embed和E5-V等大模型底座的多模态检索器。这些实验结果有力展示了MegaPairs数据的有效性。

仅1/70的数据量,多模态检索效果却更优! 智源发布BGE-VL,合成数据立大功

团队还对MegaPairs的可扩展性和数据质量进行了深入研究。如图所示,一方面,随着MegaPairs数据规模的增加,BGE-VL模型表现出一致的性能增长趋势,证明了MegaPairs数据构造方法的良好可扩展性。

另一方面,与在37M闭源数据上训练的SOTA模型Google MagicLens相比,MegaPairs仅需1/70的数据规模(0.5M)即可实现显著的性能优势,证明了MegaPairs数据的高效性和高质量。

仅1/70的数据量,多模态检索效果却更优! 智源发布BGE-VL,合成数据立大功

△MegaPairs可扩展性分析:使用不同规模的MegaPairs数据训练BGE-VL-base模型在各评测基准上的性能变化趋势。虚线表示基于CLIP-base并在37M MagicLens数据集上训练的MagicLens-B模型的性能。

BGE-VL检索可视化结果

仅1/70的数据量,多模态检索效果却更优! 智源发布BGE-VL,合成数据立大功

未来,智源将继续探索MegaPairs与更丰富的多模态检索场景结合,进一步打造更全能通用的多模态检索器。

更多方法和实验细节请参照论文。

论文地址:https://arxiv.org/abs/2412.14475
项目主页: https://github.com/VectorSpaceLab/MegaPairs
模型地址: https://huggingface.co/BAAI/BGE-VL-MLLM-S1

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 3 月
 12
3456789
10111213141516
17181920212223
24252627282930
31  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山 衡宇 2025-12-21 10:...
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026 Jay 2025...
奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板?

Failed to fetch content Read More 
LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了 一水 2025-12-21 19:13:08 来源:量子位 “LLM到不了AGI...
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026 一水 2025-12-21 19:11:12 ...