> For the complete documentation index, see [llms.txt](https://yeasy.gitbook.io/llm_internals/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://yeasy.gitbook.io/llm_internals/di-er-bu-fen-xun-lian-pian/07_distributed_training.md).

# 第七章：大规模分布式训练

当模型参数从数百万扩展到数千亿，单张 GPU 的显存和计算能力远远不够。大规模分布式训练是将 Transformer 从论文中的小模型变为拥有数千亿参数的大语言模型的关键工程技术。

本章系统介绍分布式训练的核心策略——数据并行、ZeRO 优化、张量并行、流水线并行、激活重计算、混合精度训练以及检查点管理与容错——解释每种技术解决的具体问题和背后的设计逻辑。
