本章小结

本章解析了 Transformer 训练过程中关键技术的底层逻辑。

交叉熵损失衡量模型预测与真实分布的差异,标签平滑通过软化目标分布防止过度自信。Adam 优化器通过自适应学习率解决了 SGD 在复杂损失地形上的局限,AdamW 进一步修正了权重衰减的实现。

学习率先预热再衰减不是经验调参而是针对 Transformer 训练动态的必要设计:预热阶段稳定优化器的矩估计和模型初始化,衰减阶段确保收敛到精细的最优点。现代策略包括余弦退火和“预热-稳定-衰减”三阶段方案。

正则化策略中,Dropout 防止神经元共适应(但超大模型通常省略),梯度裁剪防止异常梯度导致的训练崩溃,权重衰减保持参数在合理范围内。

批次大小和序列长度的选择是效率与质量的权衡:更大的批次提高吞吐量但可能影响泛化,序列打包和动态长度策略提升了训练效率。显存分析显示优化器状态是最大消耗者。

下一章将讨论如何将这些训练技术扩展到多 GPU 甚至多节点的大规模分布式训练场景。

最后更新于