本章小结
自回归解码通过逐步生成词元来构建完整文本,核心问题是如何从模型输出的概率分布中选择词元。
贪心搜索简单高效但容易陷入局部最优;束搜索通过多路探索改善全局最优性,但在开放式任务中过于保守。
温度控制分布的尖锐程度(模型的“创造力”水平),Top-k 限制候选范围但阈值固定,**Top-p(Nucleus 采样)**通过自适应阈值在多样性和质量之间取得了最佳平衡。实际应用中这些策略常组合使用。
约束解码通过在解码过程中施加语法规则,确保输出满足结构化格式要求(如合法 JSON),是 LLM 与外部系统集成的关键技术。
推理时计算扩展是解码策略的最新演进方向。思维链(CoT)通过让模型生成中间推理步骤来提升复杂任务的准确率;长思维链训练(如 o1 和 DeepSeek-R1)通过强化学习让模型自主学会深度推理和自我纠错;Best-of-N 采样和过程奖励模型(PRM)则通过多路生成与逐步验证进一步提升答案质量。推理时扩展与训练时扩展互补,为不同难度的任务提供了灵活的计算分配策略。
下一章将讨论推理阶段的性能优化——如何让模型更快、更省资源地生成高质量文本。
最后更新于
