10.5 剪枝与知识蒸馏:模型瘦身的两条路

10.5.1 剪枝

剪枝(Pruning)移除模型中对输出贡献小的参数或结构。非结构化剪枝将单个权重置零,结构化剪枝移除整个注意力头或 FFN 的通道。结构化剪枝对硬件更友好,但精度损失可能更大。

SparseGPT 等方法可以在不重新训练的情况下对大语言模型进行 50% 以上的非结构化剪枝,精度损失极小。

10.5.2 知识蒸馏

知识蒸馏(Knowledge Distillation)用大模型(教师)的输出概率分布来训练小模型(学生)。学生模型不仅学习正确答案,还学习教师模型在错误选项上的概率分布——这些“暗知识”(Dark Knowledge)包含了丰富的类间关系信息。

DistilBERT 是知识蒸馏的经典案例:用 BERT-Base 蒸馏出参数量减少 40%、速度提升 60% 的小模型,同时保留了 97% 的性能。

最后更新于