使用经过指令微调的预训练语言模型进行AMR解析

726次阅读
没有评论

AMR Parsing with Instruction Fine-tuned Pre-trained Language Models

解决问题:本文旨在探究如何利用预训练语言模型进行AMR(抽象意义表示)解析,并通过fine-tune FLAN-T5模型来提高模型性能和泛化能力。该研究是针对AMR解析的一个新尝试。

关键思路:本文使用FLAN-T5模型进行fine-tune,并通过full fine-tuning和parameter efficient fine-tuning的方式来进一步提高模型性能。相比当前领域的研究,本文的关键思路是使用预训练语言模型进行fine-tune,以提高AMR解析的性能。

其他亮点:实验结果表明,FLAN-T5 fine-tuned模型在各项AMR解析任务中均优于之前的SOTA模型。此外,full fine-tuning和parameter efficient fine-tuning的结合进一步提高了模型的性能,创造了AMR2.0(86.4)、AMR3.0(84.9)和BioAMR(82.3)的新SOTA。本文提出的方法可以为AMR解析提供更好的解决方案,并为相关研究提供了新思路。

关于作者:本文的主要作者包括Young-Suk Lee、Ramón Fernandez Astudillo、Radu Florian、Tahira Naseem和Salim Roukos。他们分别来自IBM Research和Columbia University。Radu Florian曾在IBM Research从事多项自然语言处理方面的研究,包括机器翻译、问答系统等。Tahira Naseem在IBM Research工作期间,致力于开发自然语言处理技术来解决企业级应用中的挑战。

相关研究:近期的相关研究包括:“AMR Parsing with a Typed-Span Encoder and Dynamic Inference”(作者:Sheng Zhang、Xiaojun Wan,机构:Peking University)、“Abstract Meaning Representation Parsing with Span-Graph Parsing”(作者:Jiayuan Chao、Yue Zhang,机构:Westlake University)等。

论文摘要:本文介绍了一种使用指令微调的预训练语言模型来进行抽象意义表示(AMR)解析的方法。在指令注释的数据集(FLAN)上微调语言模型已经被证明对于提高模型性能和泛化能力非常有效。然而,FLAN数据集中的大多数标准解析任务,包括抽象意义表示(AMR)、通用依存关系(UD)和语义角色标注(SRL)等,都没有包含在FLAN数据集中,无法用于模型训练和评估。本文选取了经过指令微调的预训练语言模型FLAN-T5,并将其微调用于AMR解析任务。实验结果表明,FLAN-T5微调模型在各种AMR解析任务中,包括AMR2.0、AMR3.0和BioAMR等,均优于之前的最先进模型。此外,进行完全微调和参数高效微调(LoRA)之后,模型性能进一步提高,创造了AMR2.0(86.4)、AMR3.0(84.9)和BioAMR(82.3)的新的最高水平。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy