香港大学&微软提出AnnoLLM:使大型语言模型成为更好的众包注释器

1,055次阅读
没有评论

AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators

Xingwei He, Zhenghao Lin, Yeyun Gong, A-Long Jin, Hang Zhang, Chen Lin, Jian Jiao, Siu Ming Yiu, Nan Duan, Weizhu Chen 

[The University of Hong Kong & Xiamen University & Microsoft Research Asia & Microsoft]

  1. 许多自然语言处理 (NLP) 任务依赖标记数据来训练机器学习模型以实现高性能。然而,数据注释可能是一个耗时且昂贵的过程,尤其是当任务涉及大量数据或需要专门领域时。最近,GPT-3.5 系列模型在各种 NLP 任务中展示了卓越的少样本和零样本能力。
  2. 在本文中,首先声称大型语言模型 (LLM),例如 GPT-3.5,可以通过为它们提供足够的指导和演示示例来充当优秀的众包注释器。为了使 LLM 成为更好的注释者,我们提出了一种两步法,即“先解释后注释”。更准确地说,我们首先为每个演示示例创建提示,我们随后利用它来提示 LLM 提供解释,说明为什么为该特定示例选择了特定的基本事实答案/标签。在此之后,我们构建了带有自生成解释的少样本思维链提示,并用它来注释未标记的数据。
  3. 对三个任务进行了实验,包括用户输入和关键字相关性评估、BoolQ 和 WiC。GPT-3.5 的注释结果在用户输入和关键字相关性评估方面优于众包注释。此外,对于其他两项任务,GPT-3.5 取得的结果与通过众包注释获得的结果相当。我们用自生成的解释构建了少样本的思维链提示,并用它来注释未标记的数据。我们对三个任务进行了实验,包括用户输入和关键字相关性评估、BoolQ 和 WiC。GPT-3.5 的注释结果在用户输入和关键字相关性评估方面优于众包注释。

https://arxiv.org/pdf/2303.16854.pdf

 

香港大学&微软提出AnnoLLM:使大型语言模型成为更好的众包注释器

香港大学&微软提出AnnoLLM:使大型语言模型成为更好的众包注释器

 

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy