视觉指令微调

867次阅读
没有评论

Visual Instruction Tuning

H Liu, C Li, Q Wu, Y J Lee
[University of Wisconsin–Madison & Microsoft Research & Columbia University]

视觉指令微调

要点:

  • 动机:将指令微调方法应用于多模态领域。为此,我们提出了使用语言生成数据来生成多模态语言图像指令,并开发了一种名为LLaVA的大型多模态模型。
  • 方法:提出使用GPT-4生成多模态语言图像指令,用这些指令来微调一个名为LLaVA的大型多模态模型,该模型连接一个视觉编码器和大型语言模型,以实现通用的视觉和语言理解。提出了一个数据重组的视角和流程,将图像-文本对转换为适当的指令格式。
  • 优势:所提出的LLaVA模型具有很多优势,其中最重要的是其在多模态问答方面取得了最先进的性能。

一句话总结:
用语言生成数据对多模态语言图像指令进行微调,提出一种名为LLaVA的大型多模态模型,连接视觉编码器和大型语言模型,用于通用的视觉和语言理解。

https://arxiv.org/abs/2304.08485 
视觉指令微调
视觉指令微调
视觉指令微调

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy