【推荐理由】本文介绍了YTD-18M,一个基于视频的大规模对话数据集和CHAMPAGNE,一个从YTD-18M中学习真实世界对话的模型。
CHAMPAGNE: Learning Real-world Conversation from Large-Scale Web Videos
Seungju Han, Jack Hessel, Nouha Dziri, Yejin Choi, Youngjae Yu
Seoul National University, Allen Institute for Artificial Intelligence, University of Washington, Yonsei University
论文链接:https://arxiv.org/pdf/2303.09713.pdf
项目链接:https://seungjuhan.me/champagne
视觉信息对于对话至关重要:例如身体手势和面部表情可以增强超越单词本身的含义。然而,迄今为止,大多数神经对话模型仅限于文本。本文介绍了CHAMPAGNE,一种可以考虑视觉语境的对话生成模型。为了训练CHAMPAGNE,收集并发布了YTD-18M,一个由1800万个基于视频的对话构成的大规模语料库。YTD-18M是从网络视频中构建的,本文的数据收集流程关键在于预训练语言模型,它可以将容易出错的自动转录转换为更干净的对话格式,同时保持意义不变。人类评估表明,与先前的资源(MMDialog [17],100万个对话)相比,YTD-18M更为合理和具体,同时保持了视觉基础性。实验证明,1)CHAMPAGNE学习如何从YTD-18M进行对话;2)当进行微调时,它在四个专注于现实世界对话的视觉语言任务上取得了最先进的结果。
【推荐理由】本文介绍了YTD-18M,一个基于视频的大规模对话数据集和CHAMPAGNE,一个从YTD-18M中学习真实世界对话的模型。
CHAMPAGNE: Learning Real-world Conversation from Large-Scale Web Videos
Seungju Han, Jack Hessel, Nouha Dziri, Yejin Choi, Youngjae YuSeoul National University, Allen Institute for Artificial Intelligence, University of Washington, Yonsei University
论文链接:https://arxiv.org/pdf/2303.09713.pdf
项目链接:https://seungjuhan.me/champagne
视觉信息对于对话至关重要:例如身体手势和面部表情可以增强超越单词本身的含义。然而,迄今为止,大多数神经对话模型仅限于文本。本文介绍了CHAMPAGNE,一种可以考虑视觉语境的对话生成模型。为了训练CHAMPAGNE,收集并发布了YTD-18M,一个由1800万个基于视频的对话构成的大规模语料库。YTD-18M是从网络视频中构建的,本文的数据收集流程关键在于预训练语言模型,它可以将容易出错的自动转录转换为更干净的对话格式,同时保持意义不变。人类评估表明,与先前的资源(MMDialog [17],100万个对话)相比,YTD-18M更为合理和具体,同时保持了视觉基础性。实验证明,1)CHAMPAGNE学习如何从YTD-18M进行对话;2)当进行微调时,它在四个专注于现实世界对话的视觉语言任务上取得了最先进的结果。