人大提出WebBrain:NLP新任务,通过网络数据的挖掘生成真实文章

719次阅读
没有评论

人大提出WebBrain:NLP新任务,通过网络数据的挖掘生成真实文章

本文介绍了一种新的自然语言处理任务——通过从网络中挖掘支持证据来为查询生成简短的事实文章。在这个名为WebBrain的任务中,最终目标是为在维基百科上看不到的事实查询生成流畅、信息丰富和事实正确的短文(例如维基百科文章)。为了进行WebBrain的实验,我们通过提取英语维基百科文章和可爬取的维基百科参考文献构建了一个大规模数据集WebBrain-Raw。WebBrain-Raw比先前最大的对等数据集大十倍,这对研究社区有很大的好处。从WebBrain-Raw中,我们构建了两个任务特定数据集:WebBrain-R和WebBrain-G,分别用于训练域内检索器和生成器。此外,我们在WebBrain上经验性地分析了当前最先进的自然语言处理技术的表现,并引入了一个名为ReGen的新框架,通过改进证据检索和任务特定的预训练来增强生成的事实性。实验结果表明,ReGen在自动评估和人类评估中都优于所有基线方法。

总结:

这篇论文提出了一种名为WebBrain的方法,该方法通过利用大规模的网页文本来获取语料库的知识,并使用生成模型来生成语句,其中“概览模型”将语句转换为更具语义的表示形式,以便进行“信息抽取”和“指代消解”,并“委托模型”将语句转换为可重构的模板。生成的模板与真实模板比较,以确保其包含正确的事实信息。实验结果表明,与其他方法相比,WebBrain能够生成更准确和更多样的文章,并且具有可扩展性。

标题:WebBrain: Learning to Generate Factually Correct Articles for Queries by Grounding on Large Web Corpus

作者:Hongjing Qian, Yutao Zhu, Zhicheng Dou, Haoqi Gu, Xinyu Zhang, Zheng Liu, Ruofei Lai, Zhao Cao, Jian-Yun Nie, Ji-Rong Wen

代码:https://github.com/qhjqhj00/WebBrain

人大提出WebBrain:NLP新任务,通过网络数据的挖掘生成真实文章

人大提出WebBrain:NLP新任务,通过网络数据的挖掘生成真实文章

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy