第六章:训练技术的底层逻辑

确定了预训练目标和架构之后,如何让训练过程真正有效地收敛到良好的解,是一个充满技术细节的工程挑战。损失函数的选择、优化器的设计、学习率的调度和正则化策略——这些看起来“只是超参数调整”的工作,实际上包含着深刻的数学原理和丰富的工程经验。

本章将解析这些训练技术的底层逻辑,帮助读者理解为什么 Adam 成为了默认优化器、为什么学习率需要先预热再衰减、以及如何在批次大小和序列长度之间取得最佳平衡。

最后更新于