推理瓶颈的第一性分析揭示生成阶段是访存密集型的——GPU 大部分时间在等待数据加载。
KV 缓存避免了重复计算之前词元的 Key/Value,GQA 通过让多个查询头共享 KV 头来减小缓存大小。Flash Attention 通过 IO 感知的分块算法避免在 HBM 中存储完整的 $n \times n$ 注意力矩阵。
模型量化(INT8/INT4)通过减少每个参数的位宽来降低访存瓶颈。剪枝和蒸馏分别通过删减参数和压缩模型来减小体积。
投机解码通过“先猜后验”打破了逐词元生成的瓶颈,实现无损的 2-3 倍加速。
下一章将讨论如何将这些优化技术整合到完整的推理引擎和生产部署方案中。
最后更新于1天前