熔岩羊驼LLaVA多模态大模型

今天要介绍的项目 ——LLaVA（Large Language and Vision Assistant）与之类似，是一个由威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布的多模态大模型。

MiniGPT-4 展示了许多类似于 GPT-4 的能力，例如生成详细的图像描述并从手写草稿创建网站。此外，作者还观察到 MiniGPT-4 的其他新兴能力，包括根据给定的图像创作故事和诗歌，提供解决图像中显示的问题的解决方案，根据食品照片教用户如何烹饪等。该项目上线 3 天就拿到了近一万的 Star 量。

熔岩羊驼LLaVA多模态大模型

论文链接：https://arxiv.org/pdf/2304.08485.pdf
项目链接：https://llava-vl.github.io/

该模型展示出了一些接近多模态 GPT-4 的图文理解能力：相对于 GPT-4 获得了 85.1% 的相对得分。当在科学问答（Science QA）上进行微调时，LLaVA 和 GPT-4 的协同作用实现了 92.53% 准确率的新 SoTA。

论文概览

人类通过视觉和语言等多种渠道与世界交互，因为不同的渠道在代表和传达某些概念时都有各自独特的优势，多渠道的方式有利于更好地理解世界。人工智能的核心愿望之一是开发一个通用的助手，能够有效地遵循多模态指令，例如视觉或语言的指令，满足人类的意图，在真实环境中完成各种任务。

为此，社区兴起了对开发基于语言增强的视觉模型的风潮。这类模型在开放世界视觉理解方面具有强大的能力，如分类、检测、分割和图文，以及视觉生成和视觉编辑能力。每个任务都由一个大型视觉模型独立解决，在模型设计中隐含地考虑了任务的需求。此外，语言仅用于描述图像内容。虽然这使得语言在将视觉信号映射到语言语义（人类交流的常见渠道）方面发挥了重要作用，但它导致模型通常具有固定的界面，在交互性和对用户指令的适应性上存在限制。

另一方面，大型语言模型（LLM）已经表明，语言可以发挥更广泛的作用：作为通用智能助理的通用交互接口。在通用接口中，各种任务指令可以用语言明确表示，并引导端到端训练的神经网络助理切换模式来完成任务。例如，ChatGPT 和 GPT-4 最近的成功证明了 LLM 在遵循人类指令完成任务方面的能量，并掀起了开发开源 LLM 的热潮。其中，LLaMA 是一种与 GPT-3 性能相近的开源 LLM。Alpaca、Vicuna、GPT-4-LLM 利用各种机器生成的高质量指令跟踪样本来提高 LLM 的对齐能力，与专有 LLM 相比，展示出了令人印象深刻的性能。但遗憾的是，这些模型的输入仅为文本。

在本文中，研究者提出了视觉 instruction-tuning 方法，首次尝试将 instruction-tuning 扩展到多模态空间，为构建通用视觉助理铺平了道路。

具体来说，本文做出了以下贡献：

多模态指令数据。当下关键的挑战之一是缺乏视觉与语言组成的指令数据。本文提出了一个数据重组方式，使用 ChatGPT/GPT-4 将图像 – 文本对转换为适当的指令格式；
大型多模态模型。研究者通过连接 CLIP 的开源视觉编码器和语言解码器 LLaMA，开发了一个大型多模态模型（LMM）—— LLaVA，并在生成的视觉 – 语言指令数据上进行端到端微调。实证研究验证了将生成的数据用于 LMM 进行 instruction-tuning 的有效性，并为构建遵循视觉 agent 的通用指令提供了较为实用的技巧。使用 GPT-4，本文在 Science QA 这个多模态推理数据集上实现了最先进的性能。
开源。研究者向公众发布了以下资产：生成的多模式指令数据、用于数据生成和模型训练的代码库、模型检查点和可视化聊天演示。

试用反馈

在论文给出的可视化使用页面上，机器之心也尝试着输入了一些图片和指令。首先是问答里常见的数人任务。测试表明，数人的时候较小的目标会被忽略，重叠的人也有识别误差，性别也有识别误差。

熔岩羊驼LLaVA多模态大模型接着，我们尝试了一些生成任务，比如为图片起名字，或者根据图片讲一个故事。模型输出的结果还是偏向于图片内容理解，生成方面的能力还有待加强。

在这张照片中，即便人体有重合也依然能准确地识别出人数。从图片描述和理解能力的角度来看，本文的工作还是存在亮点，存在着二创的空间。

2023 年 4 月
一	二	三	四	五	六	日
	1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

熔岩羊驼LLaVA多模态大模型

test

test

文心AIGC

test

test