本章小结
本章深入探讨了上下文工程的选择策略,重点介绍了 RAG 技术体系。
关键概念清单
RAG
检索增强生成,结合信息检索与语言模型生成
分块
将大文档切分为小片段的过程
嵌入
将文本转换为数值向量的过程
语义搜索
基于语义相似度的信息检索
重排序
对初步检索结果进行二次排序优化
混合检索
结合语义检索和关键词检索
核心观点
RAG 是上下文选择的核心方法:
弥补模型知识局限
提供时效和准确的信息
知识来源可追溯
分块质量决定检索效果:
保持语义完整性
大小适中(200-1000 Token 常见)
根据内容类型选择策略
嵌入是语义搜索的基础:
选择适合领域的嵌入模型
查询增强提升检索效果
注意多语言和长尾问题
重排序显著提升相关性:
两阶段架构:召回 + 精排
交叉编码器效果最佳
平衡效果与成本
混合检索已成标准:
结合语义与关键词优势
RRF 是常用融合方法
配合查询转换更强大
常见误区
误区一:语义检索可以解决所有问题 正解:关键词检索对专有名词更有效,应混合使用
误区二:分块越小越精确 正解:太小会丢失上下文,需要平衡
误区三:检索到就能用好 正解:还需要通过提示词引导模型正确利用
实践建议
从基础 RAG 开始:先实现基本流程,再逐步优化
关注分块策略:这是影响最大的环节之一
引入混合检索:可快速提升效果
添加重排序:在基础效果稳定后引入
持续评估迭代:收集失败案例,针对性优化
检索系统核心指标一览
性能
端到端延迟 (P99)
< 2s
包含检索、排序、生成全流程
检索延迟 (P99)
< 200ms
仅检索环节耗时
吞吐量 (QPS)
视场景定
系统每秒处理请求数
质量
Recall@K
> 85%
前 K 个结果中包含正确答案的比例
MRR (平均倒数排名)
> 0.7
正确答案在结果列表中的排名优劣
准确率 (Precision)
> 90%
检索结果的有效性(信噪比)
成本
单次查询成本
$0.001 - $0.01
包含 Embedding、存储和 LLM 生成成本
索引构建成本
视数据量
初始向量化和存储的费用
预告
下一章将讨论压缩策略——如何在有限的上下文空间中容纳更多有效信息,包括摘要、信息提取和对话历史管理技术。
Last updated
