阿里巴巴&清华大学提出新型学习范式RRHF:对语言模型与人的反馈进行排序使其保持一致

1,082次阅读
没有评论

标题:RRHF: Rank Responses to Align Language Models with Human Feedback without tears

作者:Zheng YuanHongyi YuanChuanqi TanWei WangSongfang HuangFei Huang

[Alibaba DAMO Academy & Tsinghua University]

简介:

人类反馈强化学习 (RLHF) 促进了大型语言模型与人类偏好的对齐,显着提高了人类与这些模型之间的交互质量。InstructGPT 通过几个阶段实现 RLHF,包括监督微调 (SFT)、奖励模型训练和近端策略优化 (PPO)。然而,PPO 对超参数很敏感,并且在其标准实现中至少需要四个模型,这使得它很难训练。

相比之下,我们提出了一种称为 RRHF 的新型学习范式,它对不同采样策略生成的响应进行评分,并通过排名损失学习使它们与人类偏好保持一致。RRHF 可以像微调一样有效地将语言模型输出概率与人类偏好对齐,并且在调优期间只需要 1 到 2 个模型。此外,RRHF 可以被认为是 SFT 和奖励模型的扩展,同时在编码、模型计数和超参数方面比 PPO 更简单。整个对齐过程可以在一次 RRHF 培训课程中完成。我们使用 LLaMA 和 Alpaca 在有用和无害的数据上评估 RRHF,展示了与 PPO 相当的性能。

https://arxiv.org/pdf/2304.05302.pdf

阿里巴巴&清华大学提出新型学习范式RRHF:对语言模型与人的反馈进行排序使其保持一致

阿里巴巴&清华大学提出新型学习范式RRHF:对语言模型与人的反馈进行排序使其保持一致

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy