8.3 DPO 与新型对齐:从复杂到简洁的演化
直接偏好优化(Direct Preference Optimization,DPO)的出现代表了对齐技术从复杂到简洁的重要演化。
8.3.1 DPO 的核心洞察
DPO 的关键洞察是:RLHF 中的奖励模型可以被数学上“吸收”到语言模型的优化目标中,从而完全省去奖励模型的训练和 PPO 优化的过程。
DPO 证明了一个数学等价关系:在 RLHF 的 KL 约束优化问题中,最优策略可以用语言模型的对数概率比来表示。基于此,DPO 直接在偏好数据上最小化以下损失:
LDPO=−logσ(βlogπref(yw∣x)πθ(yw∣x)−βlogπref(yl∣x)πθ(yl∣x))
其中 $y_w$ 是人类偏好的回答,$y_l$ 是不被偏好的回答,$\pi_\theta$ 是正在训练的模型,$\pi_{\text{ref}}$ 是参考模型(通常是SFT后的模型),$\beta$ 控制偏离参考模型的程度。
8.3.2 DPO 的优势
简化训练流水线:不需要单独训练奖励模型,不需要 PPO 的复杂采样和价值估计——只需要一个分类损失函数。
训练稳定:避免了 PPO 的超参数敏感性和奖励模型偏差问题。
成本更低:DPO 的计算成本通常只有 RLHF 的 1/3 到 1/5。
8.3.3 更多对齐方法
DPO 之后,研究者提出了多种变体和替代方案:
GRPO(Group Relative Policy Optimization):DeepSeek 等模型采用的方法,使用组内相对排名作为奖励信号
KTO(Kahneman-Tversky Optimization):不需要成对的偏好数据,只需“好/坏”的二元标注
ORPO(Odds Ratio Preference Optimization):将 SFT 和偏好优化合并为一个阶段
Constitutional AI:Anthropic 提出的方法,用 AI 自身来生成和评估回答,减少对人工标注的依赖
这些方法共同推动了对齐技术向更高效、更自动化的方向发展。
最后更新于
