PARAGRAPH2GRAPH: A GNN-based framework for layout paragraph analysis
解决问题:该论文旨在解决文档布局分析中的语言依赖性问题,以及当前算法在处理长文档和多语言数据集时的限制。论文提出了一种基于图神经网络的模型,旨在实现对文档布局的准确分析和处理。
关键思路:Paragraph2Graph是一种基于图神经网络的模型,可以处理文档中的不同布局组件,并实现严格分离。与当前的算法相比,该模型具有语言无关性和适应性,并且适用于工业应用。该模型只有1995万个参数,具有较小的存储空间和计算成本。
其他亮点:该论文使用了常见的文档布局数据集进行实验,并证明了Paragraph2Graph在这些数据集上具有竞争力的表现。该论文还提到了该模型的适用性,特别是在处理多语言数据集时。然而,该论文并未提供开源代码。
关于作者:论文的主要作者是Shu Wei和Nuo Xu。他们分别来自华为和哥伦比亚大学。Shu Wei曾参与开发名为Multi-Task Learning for Chinese NER的模型,该模型通过联合训练多个命名实体识别任务来提高模型的性能。Nuo Xu曾参与开发名为Adversarial Training for Multi-lingual Neural Machine Translation的模型,该模型使用对抗训练来提高跨语言机器翻译的性能。
相关研究:最近的相关研究包括:1. “DeepDocClassifier: Document Classification with Deep Convolutional Neural Networks”,作者为Yi Yang等人,发表于2019年的IEEE Access;2. “LayoutLM: Pre-training of Text and Layout for Document Image Understanding”,作者为Yiheng Xu等人,发表于2020年的ACL。这些研究都关注文档分析领域,并提出了一些新的模型和方法来解决相关问题。
论文摘要:PARAGRAPH2GRAPH是一种基于图神经网络(GNN)的模型,它是一种语言无关的框架,可以用于文档布局分析。文档布局分析在不同的领域、语言和业务场景中有着广泛的需求。然而,大多数现有的最先进算法都是依赖于语言的,其架构依赖于变压器编码器或语言特定的文本编码器,如BERT,用于特征提取。由于输入序列长度限制,这些方法在处理非常长的文档时能力有限,并且与语言特定的分词器密切相关。此外,由于缺乏考虑隐私的标记多语言文档数据集,训练跨语言文本编码器可能具有挑战性。此外,一些布局任务需要在不重叠的情况下清晰分离不同的布局组件,这对于基于图像分割的算法来说可能是困难的。本文提出了Paragraph2Graph,这是一种适用于严格分离业务场景的语言无关的图神经网络(GNN)模型,它在常见的文档布局数据集上取得了有竞争力的结果。我们的模型仅有1995万个参数,适用于工业应用,特别是在多语言场景下。