Information Extraction from Documents: Question Answering vs Token
Classification in real-world setups
解决问题:本篇论文旨在探讨在文档智能领域中,采用问题回答(QA)方法与传统的基于词语分类的方法相比,对于关键信息提取(DocKIE)任务的效果如何。同时,论文还试图探讨在不同实验设置下,两种方法的表现差异,以及它们在处理长实体和噪声环境下的能力。
关键思路:本文提出了两种不同的方法,一种是传统的基于词语分类的方法,另一种是基于问题回答的方法。通过对这两种方法在不同实验设置下的表现进行比较,论文得出了一些结论。与目前该领域的研究相比,本文的创新点在于提出了一种新的方法(即基于QA的方法)来解决关键信息提取问题。
其他亮点:本文的实验设计比较充分,涉及了多个实验设置,并对两种方法在这些设置下的表现进行了详细的比较和分析。此外,本文还探讨了两种方法在处理长实体和噪声环境下的能力。然而,本文并没有提供开源代码或使用的数据集。
关于作者:本文的主要作者包括Laurent Lam、Pirashanth Ratnamogan、Joël Tang、William Vanhuffel和Fabien Caspani。他们分别来自比利时的鲁汶大学、比利时皇家军事学院和瑞士的IBM研究所。这些作者之前的代表作包括“DocBERT: BERT for Document Classification”(Joël Tang等人,2020)和“Finetuning Pretrained Language Models to Improve Question Answering System”(Laurent Lam等人,2020)等。
相关研究:近期其他相关的研究包括“BERT for Doc Classification: Fine-tuning BERT for Document Classification”(Ganesh Jawahar等人,2020)和“Document-level Question Answering with Hierarchical Recurrent Neural Networks”(Yelong Shen等人,2017)等。这些研究主要集中在文档智能领域的关键信息提取任务上,采用了不同的方法和技术来解决该问题。
论文摘要:这篇文章探讨了在现实世界中从文档中提取信息的两种方法:基于分类的Token分类和基于问答的抽取式文档问答。在文档智能以及文档关键信息提取(DocKIE)领域的研究中,主要解决的是Token分类问题。最近,自然语言处理(NLP)和计算机视觉方面的突破使得构建以文档文本、布局和图像模态的多模态理解的文档预训练方法成为可能。然而,这些突破也导致了一个新的DocKIE子任务的出现,即抽取式文档问答(DocQA),作为机器阅读理解(MRC)研究领域的一部分。在这项工作中,我们比较了问答方法和传统的基于分类的Token分类方法在文档关键信息提取中的表现。我们设计了实验来评估五种不同的实验设置:原始性能、对噪声环境的鲁棒性、提取长实体的能力、Few-Shot Learning的微调速度以及Zero-Shot Learning。我们的研究表明,当处理干净且相对较短的实体时,仍然最好使用基于Token分类的方法,而QA方法可能是处理噪声环境或长实体用例的良好选择。