预训练(Pre-training)是现代大语言模型的基石。一个看似简单的任务——“预测下一个词”——为什么能让模型学会语法、语义、推理乃至世界知识?不同的预训练范式(自回归、掩码语言模型、编码器-解码器)的本质区别是什么?预训练数据的规模和质量如何影响模型能力?
本章将系统回答这些问题,揭示预训练策略背后的深层逻辑。
最后更新于1天前