8.3 DPO 与新型对齐：从复杂到简洁的演化

直接偏好优化（Direct Preference Optimization，DPO）的出现代表了对齐技术从复杂到简洁的重要演化。

8.3.1 DPO 的核心洞察

DPO 的关键洞察是：RLHF 中的奖励模型可以被数学上“吸收”到语言模型的优化目标中，从而完全省去奖励模型的训练和 PPO 优化的过程。

DPO 证明了一个数学等价关系：在 RLHF 的 KL 约束优化问题中，最优策略可以用语言模型的对数概率比来表示。基于此，DPO 直接在偏好数据上最小化以下损失：

$\mathcal{L}_{\text{DPO}} = -\log \sigma\left(\beta \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)}\right)$

其中 $y_w$ 是人类偏好的回答，$y_l$ 是不被偏好的回答，$\pi_\theta$ 是正在训练的模型，$\pi_{\text{ref}}$ 是参考模型（通常是SFT后的模型），$\beta$ 控制偏离参考模型的程度。

8.3.2 DPO 的优势

简化训练流水线：不需要单独训练奖励模型，不需要 PPO 的复杂采样和价值估计——只需要一个分类损失函数。

训练稳定：避免了 PPO 的超参数敏感性和奖励模型偏差问题。

成本更低：DPO 的计算成本通常只有 RLHF 的 1/3 到 1/5。

8.3.3 更多对齐方法

DPO 之后，研究者提出了多种变体和替代方案：

GRPO（Group Relative Policy Optimization）：DeepSeek 等模型采用的方法，使用组内相对排名作为奖励信号
KTO（Kahneman-Tversky Optimization）：不需要成对的偏好数据，只需“好/坏”的二元标注
ORPO（Odds Ratio Preference Optimization）：将 SFT 和偏好优化合并为一个阶段
Constitutional AI：Anthropic 提出的方法，用 AI 自身来生成和评估回答，减少对人工标注的依赖

这些方法共同推动了对齐技术向更高效、更自动化的方向发展。

上一页8.2 RLHF：为什么需要人类反馈参与训练下一页8.4 参数高效微调：为什么不必更新所有参数

最后更新于1天前

hashtag8.3.1 DPO 的核心洞察

hashtag8.3.2 DPO 的优势

hashtag8.3.3 更多对齐方法

8.3.1 DPO 的核心洞察

8.3.2 DPO 的优势

8.3.3 更多对齐方法