9.1 自回归解码:逐词生成的机制

自回归解码是 Transformer 解码器生成文本的基本过程:每次生成一个词元,然后将它加入已有序列中,作为生成下一个词元的上下文。 这一过程重复进行,直到生成结束标记或达到最大长度。

9.1.1 解码流程

以生成“人工智能正在改变世界”为例:

  1. 输入起始标记 <s>,模型输出词汇表上的概率分布,选择“人工”

  2. 输入 <s> 人工,模型输出概率分布,选择“智能”

  3. 输入 <s> 人工 智能,模型输出概率分布,选择“正在”

  4. ...以此类推

每一步,模型处理当前的完整序列,但由于有 KV 缓存(参见第十章),实际只需计算新增词元的注意力,而非重新计算整个序列。

9.1.2 解码的核心问题

在每一步,模型输出一个在整个词汇表(通常数万到数十万词元)上的概率分布。如何从这个分布中选择下一个词元是解码策略的核心问题。选择方式的不同直接导致了贪心搜索、束搜索和各种采样策略的区分。

关键权衡在于**质量(选择最可能的词元)多样性(探索更多可能性)**之间的平衡。

最后更新于