本章小结

本章深入探讨了上下文工程的选择策略,重点介绍了 RAG 技术体系。

关键概念清单

概念
定义

RAG

检索增强生成,结合信息检索与语言模型生成

分块

将大文档切分为小片段的过程

嵌入

将文本转换为数值向量的过程

语义搜索

基于语义相似度的信息检索

重排序

对初步检索结果进行二次排序优化

混合检索

结合语义检索和关键词检索

核心观点

  1. RAG 是上下文选择的核心方法

    • 弥补模型知识局限

    • 提供时效和准确的信息

    • 知识来源可追溯

  2. 分块质量决定检索效果

    • 保持语义完整性

    • 大小适中(200-1000 Token 常见)

    • 根据内容类型选择策略

  3. 嵌入是语义搜索的基础

    • 选择适合领域的嵌入模型

    • 查询增强提升检索效果

    • 注意多语言和长尾问题

  4. 重排序显著提升相关性

    • 两阶段架构:召回 + 精排

    • 交叉编码器效果最佳

    • 平衡效果与成本

  5. 混合检索已成标准

    • 结合语义与关键词优势

    • RRF 是常用融合方法

    • 配合查询转换更强大

常见误区

  • 误区一:语义检索可以解决所有问题 正解:关键词检索对专有名词更有效,应混合使用

  • 误区二:分块越小越精确 正解:太小会丢失上下文,需要平衡

  • 误区三:检索到就能用好 正解:还需要通过提示词引导模型正确利用

实践建议

  1. 从基础 RAG 开始:先实现基本流程,再逐步优化

  2. 关注分块策略:这是影响最大的环节之一

  3. 引入混合检索:可快速提升效果

  4. 添加重排序:在基础效果稳定后引入

  5. 持续评估迭代:收集失败案例,针对性优化

检索系统核心指标一览

指标维度
指标名称
典型目标值
说明

性能

端到端延迟 (P99)

< 2s

包含检索、排序、生成全流程

检索延迟 (P99)

< 200ms

仅检索环节耗时

吞吐量 (QPS)

视场景定

系统每秒处理请求数

质量

Recall@K

> 85%

前 K 个结果中包含正确答案的比例

MRR (平均倒数排名)

> 0.7

正确答案在结果列表中的排名优劣

准确率 (Precision)

> 90%

检索结果的有效性(信噪比)

成本

单次查询成本

$0.001 - $0.01

包含 Embedding、存储和 LLM 生成成本

索引构建成本

视数据量

初始向量化和存储的费用

预告

下一章将讨论压缩策略——如何在有限的上下文空间中容纳更多有效信息,包括摘要、信息提取和对话历史管理技术。

Last updated