附录 A：术语表

本术语表收录了上下文工程领域的核心术语及其定义。

术语列表

A

Agentic RAG（自主型 RAG） 智能体自主决定检索时机、策略和内容的检索增强生成模式。

ANN（近似最近邻） Approximate Nearest Neighbor，向量搜索中用于快速查找相似向量的算法。

C

Chain of Thought (CoT) 一种提示策略，引导模型在给出最终答案前生成推理步骤。

Chunking（分块） 将大文档切分为小片段的过程，是 RAG 系统的关键步骤。

Compaction（紧凑化） 当上下文接近上限时，将历史记录压缩为摘要的技术，类似“垃圾回收”机制。

Context Engineering（上下文工程） 设计、组织、优化和管理大语言模型信息环境的系统性工程学科。

Context Window（上下文窗口） 大语言模型一次能处理的最大 Token 序列长度。

Cross-Encoder（交叉编码器） 将查询和文档同时输入模型进行相关性评分的重排序技术。

D

DLP（数据防泄漏） Data Loss Prevention，一类用于识别、拦截或审计敏感数据外泄的数据安全技术与流程，常用于对 LLM 请求/响应与日志做脱敏与拦截。

E

Embedding（嵌入） 将文本转换为数值向量的过程，使语义相似的文本在向量空间中距离相近。

Episodic Memory（情景记忆） 存储具体事件和经历的记忆类型。

F

Fine-tuning（微调） 在预训练模型基础上，使用特定领域数据进行进一步训练及优化。

Few-shot Learning（少样本学习） 通过在提示词中提供少量示例，让模型学习并执行特定任务。

Function Calling（函数调用） 模型生成结构化函数调用请求的能力，用于与外部工具交互。

G

Grounding（基座/接地） 将模型的生成内容限制在特定事实源或知识库范围内，以减少幻觉。

Graph RAG（图检索增强生成） 结合知识图谱进行检索和推理的 RAG 变体。

H

Hallucination（幻觉） 模型生成与事实不符或缺乏依据的内容的现象。

HNSW Hierarchical Navigable Small World，分层可导航小世界图，一种高效的近似最近邻（ANN）向量索引算法。

HyDE（假设文档嵌入） Hypothetical Document Embedding，一种先用 LLM 生成假设答案再用其嵌入向量检索的技术。

Hybrid Search（混合检索） 结合语义检索和关键词检索的混合方法。

I

ICAE（上下文自动编码器） In-context Autoencoder，将长文本压缩为软提示词的技术。

IVF（倒排文件索引） Inverted File Index，一种基于聚类的近似最近邻索引方法，常与 PQ 组合为 IVF-PQ。

K

KV Cache Key-Value 缓存，存储生成过程中 Token 的键值向量以避免重复计算。

L

LLM（大语言模型） Large Language Model，基于 Transformer 架构的大规模预训练语言模型。

Lost in the Middle（中段迷失） 大模型在处理长上下文时，容易忽略位于输入中间部分信息的现象。

M

MTEB（大规模文本嵌入基准） Massive Text Embedding Benchmark，用于评测与对比嵌入模型能力的公开基准与排行榜体系。

MCP（Model Context Protocol） Anthropic 提出的 AI 模型与外部工具交互的标准协议。

Memory Architecture（记忆架构） 组织和管理 AI 系统记忆的多层次结构设计。

MMR（最大边际相关性） Maximal Marginal Relevance，一种在“相关性”和“多样性”之间权衡的结果选择策略，常用于检索结果去重与多样化。

N

NIAH（大海捞针） Needle in a Haystack，一种评估大模型长上下文能力的测试方法，检测模型能否从大量无关信息中提取关键事实。

Needle in a Haystack（大海捞针） 一种评估大模型长上下文能力的测试方法，检测模型能否从大量无关信息中提取关键事实。

P

PQ（乘积量化） Product Quantization，一种向量有损压缩与近似距离计算方法，常用于降低内存占用并加速相似度搜索。

Prompt Chaining（提示链） 将复杂的任务分解为多个步骤，通过一系列关联的提示词依次引导模型完成。

Prompt Engineering（提示词工程） 设计和优化输入给模型的文本指令的技术，是上下文工程的子集。

R

RAG（检索增强生成） Retrieval-Augmented Generation，结合信息检索与语言模型生成的技术。

RULER（长上下文评测基准） 一类面向长上下文能力的评测基准集合，通常覆盖检索、聚合、跟踪等多种长上下文任务类型。

ReAct Reason + Act，结合推理和行动的智能体运行模式。

Reranking（重排序） 对初步检索结果进行二次排序以优化相关性的技术。

RRF（倒数排名融合） Reciprocal Rank Fusion，融合多个检索结果排序的算法。

S

Semantic Memory（语义记忆） 存储抽象事实和概念的记忆类型。

Semantic Search（语义搜索） 基于语义相似度而非关键词匹配的信息检索方法。

System Prompt（系统提示词） 定义模型基本角色和行为的核心指令。

SLO（服务等级目标） Service Level Objective，用于定义系统可量化目标的工程指标（如 P95 延迟、错误率、可用性），常与告警与发布门禁联动。

T

TTFT（首字延迟） Time To First Token，从请求发出到生成首个 Token 的时间，用于衡量端到端“体感延迟”与流式输出体验。

Token 大语言模型处理文本的基本单位。

Tokenizer（分词器） 将文本转换为 Token 序列的组件。

Transformer 现代大语言模型的基础架构，基于自注意力机制。

V

Vector Database（向量数据库） 专门优化用于存储和检索高维向量的数据库系统。

W

Working Memory（工作记忆） 对应上下文窗口，存储当前任务即时信息的短期记忆。

Z

Zero-shot Learning（零样本学习） 模型在没有任何示例的情况下，仅凭指令完成任务的能力。

上一页本章小结下一页附录 B：工具与技术生态

最后更新于9天前

hashtag术语列表

hashtagA

hashtagC

hashtagD

hashtagE

hashtagF

hashtagG

hashtagH

hashtagI

hashtagK

hashtagL

hashtagM

hashtagN

hashtagP

hashtagR

hashtagS

hashtagT

hashtagV

hashtagW

hashtagZ

术语列表

A

C

D

E

F

G

H

I

K

L

M

N

P

R

S

T

V

W

Z