剪枝(Pruning)移除模型中对输出贡献小的参数或结构。非结构化剪枝将单个权重置零,结构化剪枝移除整个注意力头或 FFN 的通道。结构化剪枝对硬件更友好,但精度损失可能更大。
SparseGPT 等方法可以在不重新训练的情况下对大语言模型进行 50% 以上的非结构化剪枝,精度损失极小。
知识蒸馏(Knowledge Distillation)用大模型(教师)的输出概率分布来训练小模型(学生)。学生模型不仅学习正确答案,还学习教师模型在错误选项上的概率分布——这些“暗知识”(Dark Knowledge)包含了丰富的类间关系信息。
DistilBERT 是知识蒸馏的经典案例:用 BERT-Base 蒸馏出参数量减少 40%、速度提升 60% 的小模型,同时保留了 97% 的性能。
最后更新于1天前