卷友们好，我是rumor。

一个多月前，我分享了ChatGPT的一些关键难点，受InstructGPT实验结果的影响，如下图（1.3B模型+RLHF超越175B+SFT），Alignment在我心里的权重直线拉升，甚至觉得是不是只做Alignment，我们期待的那些AGI能力就可以涌现出来。

RLHF，对齐了，又没完全对齐？

然而根据后来GPT4的结果，RLHF对效果「并没有太大提升」。周末终于抽时间读了两篇文章，又加上最近和一些大佬的交流，感觉自己对RLHF的认知终于回到了比较客观的位置。

先说结论：

RLHF不擅长推理、事实等固定答案的优化，擅长自由度更高的生成
现阶段的RLHF并不完美，因为RM只是人类的代理
如果纯换成SFT可以吗？实验证实好像也行
RLHF确实是一条靠谱的AGI路径（个人观点）

RLHF的擅长&不擅长

首先，RLHF非常擅长让模型生成大多数人更喜欢的结果，这点大家都体验到了。之前InstructGPT[1]那个非常惊艳的结果，是在API prompt分布上测试的（如下图），大部分是开放性问题，而且模型对齐之后blabla说一大堆，看起来确实不错的样子。就像我以前答历史政治题，即使不会，也要写几百字展示求生欲。

RLHF，对齐了，又没完全对齐？

然而，RLHF的上限取决于预训练模型本身的能力，对于多项选择这种需要推理、知识和输出格式固定的任务，预训练后的GPT-4[2]能到73.7%，RLHF之后只到了74%，单独看很多任务还有下降。

所以模型的尺寸、涌现能力还是有很大的必要去提升，OpenAI也证实到：

The model’s capabilities on exams appear to stem primarily from the pre-training process and are not significantly affected by RLHF.

虽然RLHF没能给GPT4带来能力本身的提升，但却承担了在对抗问题和敏感问题的下效果优化：

RLHF，对齐了，又没完全对齐？

尤其在内容安全上，是GPT4报告中唯一给出了大概技术方案的部分。OpenAI参考Deepmind和Anthropic的方案，使用了Rule-based RM。具体的做法如下：

把预训练后的GPT4当作分类器
输入prompt、模型答案、人工写的规则（多项选择）
输出分类结果，比如是理想的拒答、不理想拒答、包含不合法内容、安全的非拒绝回答

这个阶段训练的核心是让模型在拒答的同时不误杀，所以需要准备合适的prompt，在合理拒答时给予奖励，在成功回答迷惑性问题的同时也给予奖励。

对于「为什么这类任务需要RLHF来做，SFT不行吗？」的问题，我也没有明确答案，但在InstructGPT的介绍中，SFT其实是Alignment的第一个阶段。两者是相辅相成的，RL如果没有SFT的模型，是很难训的（先学会走再跑起来）。而SFT的语料收集难度较高，RL则可以较低成本闭环迭代。

RLHF并没有真的对齐

最近符尧大佬推给我一篇文章，主要讲RL的过度优化[3]，看了之后收获良多。

RL其实跟其他算法一样，给定一个目标，它就会一直优化。在RLHF中，我们给的RM只是人类偏好的一个代理，并不能完全代表人类偏好（OpenAI摘要任务[4]中RM只有75%左右的准确率）。而InstructGPT本身的人工标注一致率也就73-78%左右。

当我们用RL去拟合一个没那么准的RM的时候，就会发生过度优化的情况。OpenAI实验的方法，是用InstructGPT那份真实的数据去训一个Gold RM，再用Gold RM生成数据去训练一个Proxy RM（下图Synthetic部分）：

RLHF，对齐了，又没完全对齐？

从结果可以看到，虽然Proxy RM的分数会一直上升（虚线），但真实效果，也就是Gold RM会饱和甚至下降（实线）：

RLHF，对齐了，又没完全对齐？

所以由于RM的效果限制，现阶段的RLHF还不太完美，只是Human Feedback的一个降级方案。

换成SFT好像也可以？

纯用SFT不用RL可以吗？，这个问题已经困扰我很久了。

在过优化的论文[5]中，作者还做了这样一个实验：用RM给模型生成的N条结果打分，然后取分数最高的进行精调，发现这种方法的收敛速度更快，同时对比RL反而效果更好一点：

RLHF，对齐了，又没完全对齐？

但这里有些存疑，因为作者在3.5节说的是RL到后面效果会更好些：

However, we do observe that RL initially has a larger proxy-gold gap (i.e requires more proxy RM increase to match BoN), but then peaks at a higher gold RM score than BoN.

另外作者在实验中只使用了3B以下级别的模型，得到的结论是否在大模型上生效也有待确认。

对于这个问题，目前我的观点是短期不用太纠结，两者相辅相成，哪个好用哪个。但长期看RL还是实现Alignment的一条靠谱路径，首先OpenAI作为先河已经确定在走这个路径且有一定效果，另外真正放到应用角度说，举个不一定恰当的栗子，比如以后家里有了机器人保姆，你说今天想吃川菜，结果它做的巨辣，你是希望骂它一句说太辣了下次少点辣椒，还是手把手自己做一遍让它学明白（狗头。

RL真正发挥价值是在拿到真实反馈、像人一样实时学习的时候，而就现在的技术，还是很难做到。回到上面的栗子，你骂了机器人，但现在的RL只能让它知道这次做的不好，如何让它理解语义，知道是放辣椒那步做的不好，或许是一个优化方向。

总结

最近对RLHF的认知更加客观具体了一些，欢迎大家在留言区一起讨论。

同时在读GPT4报告和过优化这两篇论文的过程中，发现OpenAI是真的可怕，在我们还忙着追赶的时候，他们已经在研究Scaling law，试图掌控训练过程了，比如他们已经成功预测了GPT4的loss（下图）和在部分任务上的效果，也预测了真实RM分数跟KL散度的关系。

RLHF，对齐了，又没完全对齐？

这个能力我觉得比GPT4还可怕，意味着他们已经玩明白了，训出更好的模型只是资源投入的问题，而且还能估出天花板。天花板比人高，那AGI就有戏可以继续搞，没人高，那这条路径就有问题，可以在小模型上尝试其他花样，再重新估算scale曲线预测下最终大模型上的效果，低成本快速迭代。

2023 年 4 月
一	二	三	四	五	六	日
	1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

RLHF，对齐了，又没完全对齐？

RLHF的擅长&不擅长

RLHF并没有真的对齐

换成SFT好像也可以？

总结

test

test

文心AIGC

test

test