8.2 RLHF：为什么需要人类反馈参与训练

基于人类反馈的强化学习（Reinforcement Learning from Human Feedback，RLHF）是使 ChatGPT 等产品取得突破性体验的关键技术。它解决了 SFT 无法解决的一个核心问题：“好的回答”很难用标准答案定义，但人类很容易判断哪个回答更好。

8.2.1 SFT 的局限

SFT 依赖于高质量的“标准答案”。但对于开放性问题（如“解释量子纠缠”或“写一首关于秋天的诗”），不存在唯一正确的答案。不同的回答风格、详细程度、结构方式都可能是“好的”，而最终的质量判断涉及到微妙的、难以量化的人类偏好。

RLHF 的核心思想是：既然好坏难以用规则定义，就让人类直接来评判，然后让模型学习那些被人类偏好的回答模式。

8.2.2 三阶段流程

RLHF 通常分三个阶段：

第一阶段：SFT——先通过监督微调获得一个基本能对话的模型。

第二阶段：训练奖励模型——收集大量的模型回答对（对同一个问题生成两个回答），让人类标注者标注哪个更好。然后训练一个奖励模型（Reward Model，RM），学习预测人类偏好的分数。奖励模型通常基于与目标模型相同架构的 Transformer，输出一个标量分数。

第三阶段：强化学习优化——使用近端策略优化（Proximal Policy Optimization，PPO）算法，以奖励模型的分数作为奖励信号，优化语言模型的生成策略。同时添加 KL 散度约束，防止模型偏离 SFT 模型太远（避免“奖励黑客”——找到奖励模型的漏洞来获得高分而非真正提升质量）。

8.2.3 RLHF 的挑战

RLHF 虽然有效，但在实践中面临多重挑战：

复杂的训练流水线：需要同时管理多个模型（策略模型、参考模型、奖励模型、价值模型），显存和工程开销巨大。

奖励模型的偏差：奖励模型可能学到人类标注中的偏见或表面模式（如“更长的回答得分更高”），而非真正的质量判断。

训练不稳定性：PPO 的超参数调优困难，训练过程中容易出现奖励崩塌或模式坍塌。

这些挑战推动了更简化的对齐方法的研究——DPO 正是其中最成功的代表。

上一页8.1 监督微调：教模型“怎么回答”下一页8.3 DPO 与新型对齐：从复杂到简洁的演化

最后更新于1天前

hashtag8.2.1 SFT 的局限

hashtag8.2.2 三阶段流程

hashtag8.2.3 RLHF 的挑战

8.2.1 SFT 的局限

8.2.2 三阶段流程

8.2.3 RLHF 的挑战