Llama 2反馈机制升级详解｜RLHF何以成LLM训练关键？五款平替方案

在ChatGPT引领的大型语言模型时代，一个绕不过去的话题就是「基于人类反馈的强化学习」（RLHF），不仅提升了语言模型的性能，也将人类社会的价值观注入到模型中，使得语言模型能够帮助用户解决问题，提高模型的安全性。

不过在ChatGPT之后，大量模型和相关技术不断发布，RLHF也早已更新换代，并衍生出来一些无需人工的微调方法，效果提升也很明显。

最近，Lightning AI创始人、AI研究大牛Sebastian Raschka发表了一篇博客，描述了Llama 2中的RLHF机制和原版相比做出了哪些改变和提升，还介绍了几个RLHF算法的替代方案。

经典LLM的训练流程

目前最先进的、基于Transformer的大型语言模型，例如ChatGPT或Llama 2，大体都包括三个训练步骤：预训练，有监督微调和对齐。

在预训练阶段，模型会吸收来自海量、无标注文本数据集的知识，然后使用有监督微调细化模型以更好地遵守特定指令；最后使用对齐技术使LLM可以更有用且更安全地响应用户提示。

1. 预训练（Pretraining）

预训练阶段通常需要包含数十亿到数万亿个token的庞大文本语料库，但训练目标只是一个简单的「下一个单词预测」（next word prediction）任务，模型需要根据提供的文本来预测后续单词或token。

Llama 2反馈机制升级详解｜RLHF何以成LLM训练关键？五款平替方案

自监督预训练可以让模型从大规模的数据中学习，只要能够在不侵犯版权，或是无视创造者偏好的情况下收集到数据，就可以不依赖人工标注完成训练，因为训练标签实际上就是文本的后续单词，已经暗含在数据集中了。

2. 有监督微调（Supervised finetuning）

第二阶段大体上来看也是「next token prediction」任务，不过需要人工标注的指令数据集，其中模型的输入是一个指令（根据任务的不同，也可能包含一段文本），输出为模型的预期回复内容。

Llama 2反馈机制升级详解｜RLHF何以成LLM训练关键？五款平替方案

数据形式类似于：

Instruction: “Write a about a pelican.”

使用说明：“写一首关于鹈鹕的打油诗。“

Output: “There once was a pelican so fine…”

输出：“从前有一只鹈鹕很好…“

模型会将指令文本作为输入，并逐个token输出，训练目标是与预期输出相同。

虽然两个阶段都采用相似的训练目标，但有监督微调数据集通常比预训练数据小得多，指令数据集需要人类（或其他高质量的LLM）提供标注结果，所以无法大规模应用。

3. 对齐（Alignment）

第三阶段依然是微调，不过其主要目标在于将语言模型与人类的偏好、价值观进行对齐，也是RLHF机制发挥作用的地方。

Llama 2反馈机制升级详解｜RLHF何以成LLM训练关键？五款平替方案

RLHF主要包括三步：

Step 1. 预训练模型的有监督微调

先收集一个提示词集合，并要求标注人员写出高质量的回复，然后使用该数据集以监督的方式微调预训练的基础模型。

Llama 2反馈机制升级详解｜RLHF何以成LLM训练关键？五款平替方案

Step 2. 创建奖励模型

对于每个提示，要求微调后的LLM生成四到九个回复，再由标注人员根据个人偏好对所有回复进行排序。

Llama 2反馈机制升级详解｜RLHF何以成LLM训练关键？五款平替方案

虽然排序过程很耗时，但工作量还是比第一步的数据集构建少一些。

在处理排序结果时，可以设计一个奖励模型RM，将微调语言模型SFT的输出通过一个回归层（单个输出节点）转换为奖励分数，用于后续优化。

Step 3.PPO微调

使用邻近策略优化（PPO，proximal policy optimization ），根据奖励模型提供的奖励分数对SFT模型进一步优化。

Llama 2反馈机制升级详解｜RLHF何以成LLM训练关键？五款平替方案

PPO的具体技术细节可以参考InstructGPT或下面的论文列表。

Asynchronous Methods for Deep Reinforcement Learning (2016) ，https://arxiv.org/abs/1602.01783
Proximal Policy Optimization Algorithms (2017)，https://arxiv.org/abs/1707.06347
Fine-Tuning Language Models from Human Preferences (2020)，https://arxiv.org/abs/1909.08593
Learning to Summarize from Human Feedback (2022) ，https://arxiv.org/abs/2009.01325

Llama 2中的RLHF

Meta AI在创建Llama-2-chat模型时也使用了RLHF技术，不过与ChatGPT相比还是有些细微区别。

Llama 2反馈机制升级详解｜RLHF何以成LLM训练关键？五款平替方案

简单来说，Llama-2-chat在第一步RLHF微调上使用相同的指令数据，但在第二步使用了两个奖励模型；通过多个阶段的不断进化，奖励模型也会根据Llama-2-chat模型出现的错误进行更新；并且增加了拒绝采样（rejection sampling）步骤。

Margin Loss

在标准InstructGPT中使用的RLHF PPO方法，研究人员需要收集同一个提示下的4-9个模型输出并进行排序，比如四个回复的排序结果为A<C< D<B，那么就可以得到六个对比结果：A < C，A < D ，A < B，C < D，C < B，D < B

Llama 2的数据集也采用类似的方式，不过标注人员每次只能看到两个（而非4-9个）回复并进行对比，但新增了一个边际（margin）标签，对比结果可以为「显著更好」（significantly better）和「好的不明显」（negligibly better）。

在排序训练时中，Llama 2相比InstructGPT增加了边际损失：

Llama 2反馈机制升级详解｜RLHF何以成LLM训练关键？五款平替方案

其中，rθ（x，y）是提示x和生成的回复y的标量分数输出; θ为模型权重; σ是将层输出转换为范围从0到1的分数的逻辑S形函数; yc是由标注人员选择的更优回复; yr是较差的回复。

m(r)可以调节两个回复之间的差值，如果对比结果为「显著更好」，则会增加梯度值，加快更新速度。

两种奖励模式

Llama 2中的两个奖励模型分别侧重「有用性」（helpfulness）和「安全性」（safety），用于模型优化的最终奖励函数会将两个分数进行线性组合。

Llama 2反馈机制升级详解｜RLHF何以成LLM训练关键？五款平替方案

拒绝采样（Rejection sampling）

Llama 2的作者使用了一个训练流水线，同时使用PPO和拒绝采样算法，迭代地产生多个RLHF模型（从RLHF-V1到RLHF-V5），模型在拒绝采样时会得到K个输出，在每次优化迭代时选择具有最高奖励的输出用于梯度更新，而PPO每次只基于单样本进行更新。

Llama 2反馈机制升级详解｜RLHF何以成LLM训练关键？五款平替方案

从实验结果来看，RLHF微调模型在无害性和有用性上都得到了改善，并且在最后阶段RLHF-v5使用PPO算法的性能最好。

Llama 2反馈机制升级详解｜RLHF何以成LLM训练关键？五款平替方案

RLHF的替代方案

可以看到，RLHF是一个相当复杂的过程，如此精心的设计是否值得？

Llama 2反馈机制升级详解｜RLHF何以成LLM训练关键？五款平替方案

虽然InstructGPT和Llama 2论文实验结果中证实了RLHF带来的性能提升，但也有相关工作在关注开发更有效的替代品：

1. 宪政AI：人工智能反馈的无害性

研究人员提出了一种基于人类提供的规则列表的自我训练机制，也使用了强化学习的方法。

Llama 2反馈机制升级详解｜RLHF何以成LLM训练关键？五款平替方案

论文标题：Constitutional AI: Harmlessness from AI Feedback

论文链接：https://arxiv.org/abs/2212.08073

发表日期：2022年12月

上图中的「红队」（Red Team）指的是测试目标系统的防御能力，即外部或内部专家模拟潜在对手的过程，通过模仿现实世界攻击者的战术、技术和程序来挑战、测试并最终改进系统。

2. 后见之明的智慧

研究人员提出了一种基于重新标注的有监督方法HIR用于微调，在12个BigBench任务上都优于RLHF算法。

Llama 2反馈机制升级详解｜RLHF何以成LLM训练关键？五款平替方案

论文标题：The Wisdom of Hindsight Makes Language Models Better Instruction Followers

论文链接：https://arxiv.org/abs/2302.05206

发表时间：2023年2月

HIR方法包括两个步骤，采样和训练：在采样时，提示和指令被馈送到LLM以收集回复，并基于对齐分数，在训练阶段适当的地方重新标注指令；然后使用新指令和原始提示用于微调LLM。

重新标注可以有效地将失败案例（LLM创建的输出与原始指令不匹配的情况）转化为有用的训练数据以用于监督学习。

3. 直接偏好优化

直接偏好优化（DPO）是使用PPO的RLHF的替代方案，实验结果显示，用于拟合RLHF中的奖励模型的交叉熵损失可以直接用于微调LLM，并且DPO更有效，在回复生成质量方面通常也优于RLHF/PPO

Llama 2反馈机制升级详解｜RLHF何以成LLM训练关键？五款平替方案

论文标题：Direct Preference Optimization: Your Language Model is Secretly a Reward Model

论文链接：https://arxiv.org/abs/2305.18290

发表日期：2023年5月

4. 强化自训练（ReST）

ReST是RLHF的替代方案，可以将LLM与人类偏好对齐，其使用采样方法来创建一个改进的数据集，在质量越来越高的子集上迭代训练，以完善其奖励函数。

Llama 2反馈机制升级详解｜RLHF何以成LLM训练关键？五款平替方案

论文标题：Reinforced Self-Training (ReST) for Language Modeling

论文链接：https://arxiv.org/abs/2308.08998

发表日期：2023年8月

根据作者的说法，ReST通过离线生成其训练数据集，与标准在线RLHF方法（PPO）相比，实现了更高的效率，但缺少与InstructGPT或Llama 2中使用的标准RLHF PPO方法的全面比较。

5. 基于人工智能反馈的强化学习

基于人工智能反馈的强化学习（RLAIF）的研究表明，RLHF中奖励模型训练的评级不一定必须由人类提供，也可以由LLM生成（如PaLM 2）。

Llama 2反馈机制升级详解｜RLHF何以成LLM训练关键？五款平替方案

论文标题：RLAIF：Scaling Reinforcement Learning from Human Feedback with AI Feedback

论文链接：https://arxiv.org/abs/2309.00267

发表日期：2023年9月

标注人员在一半的案例中更喜欢RLAIF模型，也就意味着两个模型的差距并不大，并且RLHF和RLAIF都大大优于纯粹通过监督指令微调训练的模型。

这项研究的结果是非常有用的，基本上意味着我们可以更容易获得RLHF的训练数据，不过RLAIF模型如何在定性研究中表现还有待观察，这项研究侧重于信息内容的安全性和真实性，只是对人类偏好研究的部分捕获。

但这些替代方案在实践中是否有价值还有待观察，因为目前还没有哪个模型可以不用RLHF的情况下，取得与Llama 2和Code Llama相近的性能。

参考资料：

https://magazine.sebastianraschka.com/p/llm-training-rlhf-and-its-alternatives

2023 年 9 月
一	二	三	四	五	六	日
	1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

Llama 2反馈机制升级详解｜RLHF何以成LLM训练关键？五款平替方案

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定