MPMQA: Multimodal Question Answering on Product Manuals
解决问题:这篇论文旨在解决现有产品手册问答数据集忽略视觉内容而只保留文本部分的问题,强调多模态内容的重要性,并提出了一个名为MPMQA的多模态产品手册问答任务。
关键思路:MPMQA要求模型不仅处理多模态内容,还要提供多模态答案。为了支持MPMQA,作者构建了一个大规模数据集PM209,其中包含来自27个知名消费电子品牌的209个产品手册。这个数据集的特点是每个答案都包含来自手册的文本句子和相关的视觉区域。考虑到产品手册的长度以及一个问题总是涉及少量页面,MPMQA可以自然地分成两个子任务:检索最相关的页面,然后生成多模态答案。作者进一步提出了一个统一模型,可以同时执行这两个子任务,并取得了与多个任务特定模型相当的性能。
其他亮点:这个数据集的构建是这篇论文的一个亮点,它包含了丰富的多模态信息,并且作者提出了一种有效的方法来解决这个任务。此外,作者还提供了数据集和代码,这对于后续研究者来说非常有用。
关于作者:本文的主要作者是来自中国人民大学的Liang Zhang、Anwen Hu、Jing Zhang、Shuo Hu和Qin Jin。他们的代表作包括“Graph Convolutional Networks for Text Classification”、“Leveraging Structural and Semantic Correspondence for Attribute-based Zero-shot Learning”、“Attribute-Driven Spatio-Temporal Interest Point Detection for Action Recognition”等。
相关研究:近期其他相关的研究包括“Visual Question Answering: A Survey of Methods and Datasets”(Y. Goyal等,IEEE TIP 2017)和“VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions”(M. Kafle等,CVPR 2018)。
论文摘要:本文提出了一个多模态产品手册问答(MPMQA)任务,以强调多模态内容的重要性。为支持MPMQA,作者构建了一个大规模数据集PM209,包含来自27个知名消费电子品牌的209个产品手册。数据集中的人类注释包括6种手册内容的语义区域和22,021个问题和答案对。特别地,每个答案都包含手册中相关的文本句子和视觉区域。考虑到产品手册的长度和问题与少量页面相关的事实,MPMQA可以自然地分为两个子任务:检索最相关的页面,然后生成多模态答案。作者进一步提出了一个统一模型,可以同时执行这两个子任务,并实现与多个任务特定模型相当的性能。PM209数据集可在https://github.com/AIM3-RUC/MPMQA中获得。