本章小结
本章探讨了上下文工程的压缩策略,涵盖信息密度原理、摘要技术、对话历史管理和优化方法。
关键概念清单
概念
定义
信息密度
单位 Token 中包含的有效信息量
抽取式压缩
从原文中选择关键内容
生成式压缩
使用 LLM 生成精简表述
递进式摘要
分层次逐步压缩长文档
滑动窗口
只保留最近 N 轮对话的策略
上下文预算
为不同组成部分分配 Token 配额
核心观点
压缩是必要的优化:
控制 Token 用量和成本
提高上下文利用效率
改善响应延迟
压缩方法各有适用场景:
抽取式:需要精确引用
生成式:需要流畅表达
信息提取:需要结构化数据
对话历史需要专门管理:
结合滑动窗口和压缩
保留关键信息点
分层次管理不同时间距离的内容
上下文优化是系统工程:
预算分配
格式优化
缓存复用
持续监控
常见误区
误区一:压缩就是截断 正解:压缩是提炼精华,需要保留关键信息
误区二:压缩率越高越好 正解:需要在压缩率和信息完整性之间平衡
误区三:一次压缩永久使用 正解:不同任务可能需要不同的压缩版本
实践建议
建立 Token 预算:明确各部分的 Token 分配
优化最大消耗点:通常是检索内容和对话历史
组合多种策略:摘要 + 提取 + 窗口管理
监控优化效果:对比压缩前后的任务效果和成本
保留原始信息:压缩结果可能需要回溯验证
预告
下一章将讨论隔离策略——如何通过结构化组织提升上下文的清晰度和有效性,包括 XML 标签、指令分层和多任务隔离技术。
Last updated
