阿里巴巴&清华大学提出新型学习范式RRHF：对语言模型与人的反馈进行排序使其保持一致

标题：RRHF: Rank Responses to Align Language Models with Human Feedback without tears

作者：Zheng Yuan, Hongyi Yuan, Chuanqi Tan, Wei Wang, Songfang Huang, Fei Huang

[Alibaba DAMO Academy & Tsinghua University]

简介：

人类反馈强化学习 (RLHF) 促进了大型语言模型与人类偏好的对齐，显着提高了人类与这些模型之间的交互质量。InstructGPT 通过几个阶段实现 RLHF，包括监督微调 (SFT)、奖励模型训练和近端策略优化 (PPO)。然而，PPO 对超参数很敏感，并且在其标准实现中至少需要四个模型，这使得它很难训练。

相比之下，我们提出了一种称为 RRHF 的新型学习范式，它对不同采样策略生成的响应进行评分，并通过排名损失学习使它们与人类偏好保持一致。RRHF 可以像微调一样有效地将语言模型输出概率与人类偏好对齐，并且在调优期间只需要 1 到 2 个模型。此外，RRHF 可以被认为是 SFT 和奖励模型的扩展，同时在编码、模型计数和超参数方面比 PPO 更简单。整个对齐过程可以在一次 RRHF 培训课程中完成。我们使用 LLaMA 和 Alpaca 在有用和无害的数据上评估 RRHF，展示了与 PPO 相当的性能。

https://arxiv.org/pdf/2304.05302.pdf

阿里巴巴&清华大学提出新型学习范式RRHF：对语言模型与人的反馈进行排序使其保持一致

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

阿里巴巴&清华大学提出新型学习范式RRHF：对语言模型与人的反馈进行排序使其保持一致

n8n实战：Webhook、条件判断与API集成详解

谷歌太壕了！编程Agent大招至简：开源且免费，百万上下文、多模态、MCP全支持

百度文心快码AI IDE上线，首创设计稿一键转代码、支持MCP

老黄新鲜一刀，RTX 5050正式官宣

国产GPU历史性时刻！摩尔线程、沐曦同日获IPO受理

百度文心快码AI IDE上线，首创设计稿一键转代码、支持MCP

曝苹果拟收购Perplexity AI，人才一并拿走

有道14B低成本轻量模型“子曰3”开源，数学推理性能超越大模型

马斯克Robotaxi今日上路：画饼十年终兑现！团队合影C位武汉理工校友引关注

蚂蚁开源轻量级推理模型Ring-lite，多项Benchmark达到SOTA