本章小结
本章深入探讨了大语言模型的基础知识,特别是上下文窗口的工作原理。这些是上下文工程的技术基础。
关键概念清单
Transformer
大模型的基础架构,基于自注意力机制
自回归生成
逐个预测下一个 Token 的生成方式
上下文窗口
模型一次能处理的最大 Token 序列长度
Token
模型处理文本的基本单位
KV 缓存
存储生成过程中 Key-Value 向量的内存结构
分词器
将文本转换为 Token 序列的组件
核心观点
自注意力是关键:Transformer 的自注意力机制使每个 Token 能够感知整个上下文,这是大模型理解长文本的基础
上下文窗口是有限资源:
技术限制:$O(n^2)$ 计算复杂度、KV 缓存内存占用
实际限制:有效上下文长度通常小于声称值
经济限制:更长的上下文意味着更高的成本
Token 管理至关重要:
不同语言的 Token 效率不同
精确的 Token 计数影响容量规划和成本估算
需要系统性的 Token 管理策略
模型选择需要权衡:
上下文长度 vs 成本
能力 vs 延迟
通用 vs 专业
常见误区
误区一:上下文窗口越大越好 正解:有效利用比单纯扩大更重要;过长的上下文可能导致"大海捞针"问题
误区二:填满上下文窗口可以获得最佳效果 正解:过度填充会稀释重要信息,增加成本和延迟
误区三:Token 估算可以用简单公式 正解:应使用官方分词器精确计数,特别是在容量紧张时
实践建议
了解模型特性:熟悉所用模型的实际上下文能力,而非仅看官方数字
建立 Token 预算:为不同组件分配明确的 Token 预算
优先优化上下文:在扩大上下文之前,先优化现有内容的质量和密度
监控实际使用:建立 Token 使用监控,持续优化
保持灵活:根据任务复杂度动态调整上下文规模
预告
下一章将介绍上下文工程的理论框架,包括信息环境设计原则和四大核心策略(写入、选择、压缩、隔离)。这些策略将为后续的技术实践提供方法论指导。
Last updated
