本章小结

SFT 通过在指令-回答数据上训练,教会模型按人类期望的格式进行对话。数据质量远比数量重要。

RLHF 通过人类偏好标注训练奖励模型,再用 PPO 优化语言模型以生成更受人类偏好的回答。有效但流程复杂、训练不稳定。

DPO 数学上等价于 RLHF,但省去了奖励模型和 PPO,直接在偏好数据上优化,更简洁高效。GRPO、KTO、ORPO 等后续方法进一步拓展了对齐技术的设计空间。

**参数高效微调(LoRA 等)**利用微调更新的低秩特性,只训练极少量参数即可达到接近全参数微调的效果,大幅降低了微调的资源门槛。

至此,第二部分“训练篇”结束。下一部分将进入“推理与部署篇”,关注如何让训练好的模型高效地为用户服务。

最后更新于