8.3 DPO 与新型对齐:从复杂到简洁的演化

直接偏好优化(Direct Preference Optimization,DPO)的出现代表了对齐技术从复杂到简洁的重要演化。

8.3.1 DPO 的核心洞察

DPO 的关键洞察是:RLHF 中的奖励模型可以被数学上“吸收”到语言模型的优化目标中,从而完全省去奖励模型的训练和 PPO 优化的过程。

DPO 证明了一个数学等价关系:在 RLHF 的 KL 约束优化问题中,最优策略可以用语言模型的对数概率比来表示。基于此,DPO 直接在偏好数据上最小化以下损失:

LDPO=logσ(βlogπθ(ywx)πref(ywx)βlogπθ(ylx)πref(ylx))\mathcal{L}_{\text{DPO}} = -\log \sigma\left(\beta \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)}\right)

其中 $y_w$ 是人类偏好的回答,$y_l$ 是不被偏好的回答,$\pi_\theta$ 是正在训练的模型,$\pi_{\text{ref}}$ 是参考模型(通常是SFT后的模型),$\beta$ 控制偏离参考模型的程度。

8.3.2 DPO 的优势

简化训练流水线:不需要单独训练奖励模型,不需要 PPO 的复杂采样和价值估计——只需要一个分类损失函数。

训练稳定:避免了 PPO 的超参数敏感性和奖励模型偏差问题。

成本更低:DPO 的计算成本通常只有 RLHF 的 1/3 到 1/5。

8.3.3 更多对齐方法

DPO 之后,研究者提出了多种变体和替代方案:

  • GRPO(Group Relative Policy Optimization):DeepSeek 等模型采用的方法,使用组内相对排名作为奖励信号

  • KTO(Kahneman-Tversky Optimization):不需要成对的偏好数据,只需“好/坏”的二元标注

  • ORPO(Odds Ratio Preference Optimization):将 SFT 和偏好优化合并为一个阶段

  • Constitutional AI:Anthropic 提出的方法,用 AI 自身来生成和评估回答,减少对人工标注的依赖

这些方法共同推动了对齐技术向更高效、更自动化的方向发展。

最后更新于