卡耐基梅隆与多家知名研究单位共同提出在LLM中引入自反馈机制

782次阅读
没有评论

卡耐基梅隆与多家知名研究单位共同提出在LLM中引入自反馈机制

就像人类一样,LLMs在处理生成问题时不总是能够一次性生成最优质的文本(例如摘要、答案、解释)。与人们一样,本文引入了SELF-REFINE框架,通过反复的反馈和改善,类似地改进LLMs的初始输出。其主要思想是使用LLM生成输出,然后允许同一模型为其自身的输出提供多方面的反馈;最后,通过使用其自身的反馈,同一模型改进其之前生成的输出。与早期工作不同,本文的迭代改进框架不需要有监督的训练数据或强化学习,并且可与单个LLM一起使用。本文在7个不同的任务中进行了实验,涵盖从评论改写到数学推理的范围,证明了本文的方法优于直接生成。在所有任务中,使用SELF-REFINE生成的输出得到人类和自动化度量标准的更好评价,相对于直接使用GPT-3.5和GPT-4生成,平均改进幅度约为20%。

总结:

Self-Refine是一种迭代优化技术,它使用自反馈机制来不断改进模型的性能。该技术涉及到两个模型,一个是基础模型,另一个是反馈模型。基础模型用来生成输出,反馈模型用来对输出进行评估,并为基础模型提供反馈。通过迭代优化,基础模型逐步改进,从而提高其性能和准确度。Self-Refine可用于各种任务,如图像分类和语音识别等领域。它已在多项实验中证明了其有效性和鲁棒性。

标题:Self-Refine: Iterative Refinement with Self-Feedback

作者:Aman Madaan, Niket Tandon, Prakhar Gupta, Skyler Hallinan, Luyu Gao, Sarah WiegreffeUri Alon, Nouha Dziri, Shrimai Prabhumoye, Yiming Yang Sean Welleck Bodhisattwa Prasad Majumder , Shashank Gupta Amir Yazdanbakhsh, Peter Clark

项目:https://selfrefine.info/

卡耐基梅隆与多家知名研究单位共同提出在LLM中引入自反馈机制

卡耐基梅隆与多家知名研究单位共同提出在LLM中引入自反馈机制

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy