投机解码(Speculative Decoding)打破了自回归解码“每步只生成一个词元”的限制。它使用一个小的草稿模型快速猜测多个后续词元,然后用大的目标模型并行验证所有猜测。
关键数学保证是:验证过程可以做到与原始自回归解码产生完全相同的分布——即投机解码是“无损”的加速。
大语言模型中大量的词元实际上是“容易预测”的(如常见词组、语法词、标点等)。对于这些位置,小模型的猜测通常与大模型一致,因此可以一次性通过多个词元的验证。
只有在小模型猜错的位置,才需要回退并使用大模型的预测。统计上,一次投机解码步骤通常能接受 3-5 个词元,将吞吐量提升 2-3 倍。
投机解码已成为生产标准技术。vLLM、TensorRT-LLM 和 SGLang 等推理框架都原生支持该技术,并提供了草稿模型选择和自适应控制策略。
最后更新于1天前