8.2 RLHF:为什么需要人类反馈参与训练

基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)是使 ChatGPT 等产品取得突破性体验的关键技术。它解决了 SFT 无法解决的一个核心问题:“好的回答”很难用标准答案定义,但人类很容易判断哪个回答更好。

8.2.1 SFT 的局限

SFT 依赖于高质量的“标准答案”。但对于开放性问题(如“解释量子纠缠”或“写一首关于秋天的诗”),不存在唯一正确的答案。不同的回答风格、详细程度、结构方式都可能是“好的”,而最终的质量判断涉及到微妙的、难以量化的人类偏好。

RLHF 的核心思想是:既然好坏难以用规则定义,就让人类直接来评判,然后让模型学习那些被人类偏好的回答模式。

8.2.2 三阶段流程

RLHF 通常分三个阶段:

第一阶段:SFT——先通过监督微调获得一个基本能对话的模型。

第二阶段:训练奖励模型——收集大量的模型回答对(对同一个问题生成两个回答),让人类标注者标注哪个更好。然后训练一个奖励模型(Reward Model,RM),学习预测人类偏好的分数。奖励模型通常基于与目标模型相同架构的 Transformer,输出一个标量分数。

第三阶段:强化学习优化——使用近端策略优化(Proximal Policy Optimization,PPO)算法,以奖励模型的分数作为奖励信号,优化语言模型的生成策略。同时添加 KL 散度约束,防止模型偏离 SFT 模型太远(避免“奖励黑客”——找到奖励模型的漏洞来获得高分而非真正提升质量)。

8.2.3 RLHF 的挑战

RLHF 虽然有效,但在实践中面临多重挑战:

复杂的训练流水线:需要同时管理多个模型(策略模型、参考模型、奖励模型、价值模型),显存和工程开销巨大。

奖励模型的偏差:奖励模型可能学到人类标注中的偏见或表面模式(如“更长的回答得分更高”),而非真正的质量判断。

训练不稳定性:PPO 的超参数调优困难,训练过程中容易出现奖励崩塌或模式坍塌。

这些挑战推动了更简化的对齐方法的研究——DPO 正是其中最成功的代表。

最后更新于