LAION宣布OpenFlamingo:一个用于通过上下文学习训练视觉语言模型的开源框架

1,569次阅读
没有评论

作者:Anas Awadalla 和 Irena Gao  2023 年 3 月 28 日

概述。 我们很高兴地宣布 OpenFlamingo 的发布,它是 DeepMind 的 Flamingo 模型的开源复制品。OpenFlamingo 的核心是一个支持大型多模态模型 (LMM) 训练和评估的框架。查看我们的GitHub 存储库演示以开始使用!

代码地址:https://github.com/mlfoundations/open_flamingo

对于第一个版本,我们的贡献如下:

  • 🏋️ 一个用于训练 Flamingo 风格 LMM 的 Python 框架(基于 Lucidrains 的flamingo 实现和 David Hansmair 的flamingo-mini 存储库)。
  • 🪅 具有交错图像和文本序列的大规模多模态数据集。
  • 🧪 视觉语言任务的上下文学习评估基准。
  • 🤖 我们​​基于 LLaMA 的 OpenFlamingo-9B 模型的第一个版本,还有更好的模型!

随着BLIP-2FROMAGe的发布,开源 LMM 的最新进展显示了多模式系统令人兴奋的潜力。我们希望 OpenFlamingo 能够帮助推动多模态机器学习的进步,我们正在准备更多令人兴奋的贡献,敬请期待!

目标。 我们与 OpenFlamingo 的目标是开发一个可以处理各种视觉语言任务的多模式系统。最终,我们的目标是在处理视觉和文本输入方面与 GPT-4 的功能和多功能性相匹配。为了实现这一目标,我们正在创建DeepMind 的 Flamingo模型的开源版本,这是一种能够处理和推理图像、视频和文本的 LMM。我们致力于构建完全开源的模型,并相信这种透明度对于促进协作、加速进步和使对最先进的 LMM 的访问民主化至关重要。我们的发布是朝着这个目标迈出的第一步。

我们正在分享我们的 OpenFlamingo-9B 模型的第一个检查点。虽然该模型尚未完全优化,但它展示了该项目的潜力。通过共同努力并接收来自社区的反馈,我们可以培养更好的 LMM。我们鼓励社区通过提供反馈和为存储库做出贡献来参与开发过程。

技术细节。我们的实施很大程度上遵循Flamingo 的实施。Flamingo 模型在包含交错文本和图像的大规模网络语料库上进行训练,这对于赋予它们上下文中的少样本学习能力至关重要。OpenFlamingo 实现了原始 Flamingo 论文中提出的相同架构(感知器重采样器、交叉注意层)。然而,由于 Flamingo 的训练数据不向公众开放,我们使用开源数据集来训练我们的模型。具体来说,已发布的 OpenFlamingo-9B 检查点是在来自我们新的多模式 C4 数据集的 500 万个样本和来自LAION-2B的 1000 万个样本上进行训练的。

多式联运C4

Multimodal-C4 数据集是纯文本C4 数据集的扩展,用于训练 T5 模型。对于C4 en.clean数据集中的每个文档,我们从Common Crawl检索原始网页,然后收集可下载的图像。数据清理是通过重复数据删除和内容过滤进行的,旨在消除不安全的工作(NSFW)和不相关的图像,例如广告。此外,我们运行人脸检测并丢弃具有正面识别的图像。最后,图像和句子在文档中使用二分匹配交错:CLIP ViT/L-14 图像-文本相似性作为边缘权重。Multimodal-C4 包含大约 7500 万个文档,包括大约 4 亿张图像和 38B 个标记。即将发布包含更多详细信息的完整版本。

LAION宣布OpenFlamingo:一个用于通过上下文学习训练视觉语言模型的开源框架

基准

为了衡量 OpenFlamingo 的性能,我们评估了一组不同的下游任务。我们的目标是最终构建 Flamingo 基准的开源版本,并超越它以标准化视觉语言任务评估。目前我们支持视觉问答(VQAv2OK-VQA)、字幕(COCOFlickr30k)和图像分类(ImageNet)任务。期待我们添加更多的评估集来探测模型推理、偏差等!您可以访问 OpenFlamingo 存储库上的基准测试。

模型发布

LAION宣布OpenFlamingo:一个用于通过上下文学习训练视觉语言模型的开源框架

作为我们发布的一部分,我们还提供了来自我们正在开发的 OpenFlamingo-9B 的检查点,OpenFlamingo-9B 是一个建立在LLaMA 7BCLIP ViT/L-14之上的 LMM 。该模型仍在进行中,但已经可以为社区带来很多价值。例如,

LAION宣布OpenFlamingo:一个用于通过上下文学习训练视觉语言模型的开源框架

表现

我们在 COCO 和 VQAv2 上评估了我们的检查点。在这里,我们使用不同数量的镜头报告验证性能。

可可(苹果酒)

LAION宣布OpenFlamingo:一个用于通过上下文学习训练视觉语言模型的开源框架

*请注意,我们报告了 OpenFlamingo-9B 的验证性能(使用 Flamingo 论文中概述的相同设置),而 DeepMind Flamingo-9B 性能基于测试数据。

安全和道德考虑

由于 OpenFlamingo-9B 建立在冻结的LLaMACLIP模型之上,您可以期望 OpenFlamingo 继承父模型的危害。我们知道,通过发布这些模型,它们可能会被用于有害的方式。然而,对于研究界来说,研究大型多模态模型的危害很重要,我们相信开源这些模型将使社区能够开发出更好的方法来减轻未来模型中的这些危害。

我们强调 OpenFlamingo-9B 是研究神器而非成品。它可能会产生意想不到的、不适当的、令人反感的和/或不准确的结果。因此,我们提倡在任何实际应用中使用我们的模型之前要谨慎和彻底评估。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 3 月
 12345
6789101112
13141516171819
20212223242526
2728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...