自回归解码是 Transformer 解码器生成文本的基本过程:每次生成一个词元,然后将它加入已有序列中,作为生成下一个词元的上下文。 这一过程重复进行,直到生成结束标记或达到最大长度。
以生成“人工智能正在改变世界”为例:
输入起始标记 <s>,模型输出词汇表上的概率分布,选择“人工”
<s>
输入 <s> 人工,模型输出概率分布,选择“智能”
<s> 人工
输入 <s> 人工 智能,模型输出概率分布,选择“正在”
<s> 人工 智能
...以此类推
每一步,模型处理当前的完整序列,但由于有 KV 缓存(参见第十章),实际只需计算新增词元的注意力,而非重新计算整个序列。
在每一步,模型输出一个在整个词汇表(通常数万到数十万词元)上的概率分布。如何从这个分布中选择下一个词元是解码策略的核心问题。选择方式的不同直接导致了贪心搜索、束搜索和各种采样策略的区分。
关键权衡在于**质量(选择最可能的词元)与多样性(探索更多可能性)**之间的平衡。
最后更新于1天前