Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved With Text
Wanrong Zhu, Jack Hessel, Anas Awadalla, Samir Yitzhak Gadre, Jesse Dodge, Alex Fang, Youngjae Yu, Ludwig Schmidt, William Yang Wang, Yejin Choi
https://twitter.com/ZhuWanrong/status/1648021932410048512
像Flamingo这样的上下文视觉和语言模型支持任意交错的图像和文本序列作为输入。这种格式不仅可以通过交错独立的监督(图像、文本)实例来实现少量的学习,而且还可以实现涉及图像之间互动的更复杂的提示,例如:”图像A和图像B有什么共同点?” 为了支持这个界面,预训练发生在类似于包含交错图像+文本的网络语料库上。
然而,到目前为止,这种形式的大规模数据还没有公开提供。我们发布了多模态C4(mmc4),它是对流行的纯文本c4语料库的扩充,其中包含了图像交错。我们使用一种线性赋值算法,利用CLIP的特征将图片放入较长的文本中,我们发现这个过程优于其他方法。
mmc4涵盖了日常话题,如烹饪、旅行、技术等。对随机抽样的文件进行的人工检查显示,绝大多数(90%)的图像都是主题相关的,而且线性赋值经常选择与每张图像特别吻合的个别句子(78%)。在过滤了NSFW图像、广告等之后,语料库包含了1.03亿份文件,其中包含了5.85亿张图像和43B个英语标记交错排列。
Github: https://github.com/allenai/mmc4
Arxiv: https://arxiv.org/abs/2304.06939