谷歌 | MaMMUT:一种简单的联合学习多模态任务的架构

1,644次阅读
没有评论

【推荐理由】本文用一个简单的联合框架整合了多种多模态任务。该框架具体由一个单独的视觉编码器和一个文本解码器组成。它能够通过一种新颖的两遍方法适应对比和生成学习。尤其是考虑到其规模,它在VQA和视频字幕生成方面展现出有竞争力的结果。

MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks
Weicheng Kuo, AJ Piergiovanni, Dahun Kim, Xiyang Luo, Ben Caine, Wei Li, Abhijit Ogale, Luowei Zhou , Andrew Dai, Zhifeng Chen, Claire Cui, Anelia Angelova
[Google Research]

【论文链接】https://arxiv.org/pdf/2303.16839.pdf

【摘要】语言模型的发展已经从编码器-解码器转向了仅解码器的设计。此外,普遍认为最流行的两个多模态任务,生成任务和对比任务,往往会相互冲突,难以在一个架构中容纳,并且需要针对下游任务进行复杂的适应性调整。本文提出了一种新的训练范式,使用仅解码器的模型进行多模态任务的训练,这在联合学习这些不同的视觉语言任务方面十分有效。这是通过一个名为MaMMUT的简单模型实现的。它由一个单一的视觉编码器和一个文本解码器组成,能够通过文本解码器上的新型两次通行方法来适应对比和生成学习。作者证明了这些多样化目标任务的联合训练是简单、有效的,并且最大化了模型的权重共享。此外,相同的架构使得对开放词汇目标检测和视频语言任务的直接扩展变得容易。该模型能够解决各种任务,同时容量适中。该模型在图像-文本和文本-图像检索、视频问答和开放词汇检测任务上实现了SOTA,超过了更大、更广泛训练的基础模型。考虑到模型的大小,它在VQA和视频字幕生成方面显示出了有竞争力的结果。消融实验证实了此方法的灵活性和优势。

谷歌 | MaMMUT:一种简单的联合学习多模态任务的架构

谷歌 | MaMMUT:一种简单的联合学习多模态任务的架构

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 3 月
 12345
6789101112
13141516171819
20212223242526
2728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
手把手教你用AI 10分钟生成一个APP!零基础也能搞定

手把手教你用AI 10分钟生成一个APP!零基础也能搞定

今日,我将向大家展示DeepSeek的全新玩法——从零开始,利用AI创建一个完整的应用程序。借助DeepSee...
训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享 衡宇 2026-01-08 20:...
开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!

开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!

开源“裸考”真实世界,国产具身智能基座模型拿下全球第二! 西风 2026-01-08 19:02:20 来源:...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
刚刚,智谱港交所敲钟!市值528亿港元

刚刚,智谱港交所敲钟!市值528亿港元

刚刚,智谱港交所敲钟!市值528亿港元 闻乐 2026-01-08 10:08:39 来源:量子位 全球大模型...
黄仁勋CES回应全场!内存卡GPU脖子,游戏玩家可能只能用旧显卡了

黄仁勋CES回应全场!内存卡GPU脖子,游戏玩家可能只能用旧显卡了

黄仁勋CES回应全场!内存卡GPU脖子,游戏玩家可能只能用旧显卡了 西风 2026-01-08 13:50:3...
傅利叶首秀CES 2026,全面展示“有温度”的人机交互

傅利叶首秀CES 2026,全面展示“有温度”的人机交互

傅利叶首秀CES 2026,全面展示“有温度”的人机交互 西风 2026-01-08 19:27:35 来源:...
开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!

开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!

开源“裸考”真实世界,国产具身智能基座模型拿下全球第二! 西风 2026-01-08 19:02:20 来源:...
训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享 衡宇 2026-01-08 20:...