# 第五章：预训练：为什么“预测下一个词”能学到知识

预训练（Pre-training）是现代大语言模型的基石。一个看似简单的任务——“预测下一个词”——为什么能让模型学会语法、语义、推理乃至世界知识？不同的预训练范式（自回归、掩码语言模型、编码器-解码器）的本质区别是什么？预训练数据的规模和质量如何影响模型能力？

本章将系统回答这些问题，揭示预训练策略背后的深层逻辑。
