附录 B：工具与技术生态

本附录汇集上下文工程领域的常用工具、框架、数据集与测评基准。

开发框架

编排与构建

LangChain

简介：最流行的 LLM 应用开发框架之一，提供全面的 RAG 支持。

特点：

丰富的组件和集成
活跃的社区
详细的文档

官网：https://langchain.com

LlamaIndex

简介：专注于数据索引和检索的 LLM 框架。

特点：

多种索引结构
灵活的检索策略
支持 Graph RAG

官网：https://llamaindex.ai

Haystack

简介：端到端 NLP 框架，支持构建完整的 RAG 管道。

特点：

生产级就绪
可视化管道编辑
评估工具集成

官网：https://haystack.deepset.ai

智能体框架

LangGraph

简介：LangChain 体系下基于图的有状态多智能体编排框架。

特点：

精细的循环控制
强大的状态持久化能力

AutoGen

简介：微软推出的多智能体对话框架。

特点：

强大的代码执行能力
灵活的群聊模式

向量数据库

Pinecone

类型：全托管云服务

特点：开箱即用、免运维、快速启动

Weaviate

类型：开源/云服务

特点：功能丰富、GraphQL API、支持混合搜索

Milvus

类型：开源

特点：高性能、可扩展、适合大规模部署

Qdrant

类型：开源

特点：Rust 实现、高性能、轻量级

Chroma

类型：开源

特点：嵌入式、简单易用、适合原型开发

PostgreSQL：pgvector

类型：开源扩展

特点：与现有 PG 基础设施集成、生态成熟

Oracle 数据库 23ai

类型：商业/云服务

特点：原生 AI 向量搜索、企业级安全与高可用

MySQL：8.0+ / HeatWave

类型：开源/云服务

特点：全球最流行的开源数据库原生支持向量

嵌入模型

商业服务

服务类型

模型（示例）

特点

商用嵌入服务

通用嵌入模型

质量高、易集成

商用嵌入服务

多语言嵌入模型

多语言支持、覆盖面广

云厂商嵌入服务

平台内嵌入能力

便于与现有云生态集成

开源模型

模型类型

维度（常见量级）

特点

BGE 系列

千级

中文优秀、多语言

E5 系列

千级

指令式嵌入

sentence-transformers

变化

丰富选择

评估与基准

评估工具

RAGAS

简介：评估 RAG 系统质量的自动化框架。

指标：忠实度 (Faithfulness)、答案相关性 (Answer Relevancy)、上下文召回率 (Context Recall)。

TruLens

简介：RAG 应用的监控和评估平台，提供 RAG 三元组 (Triad) 可视化。

DeepEval

简介：LLM 应用的评估框架。

性能基准测试

Needle In A Haystack: 长上下文召回能力的标准测试套件。
Massive Text Embedding Benchmark (MTEB): 文本嵌入模型的权威排行榜。

公共数据集

RAG 训练与测试

MS MARCO: 微软的大规模阅读理解数据集，检索任务的黄金标准。
HotpotQA: 多跳推理问答数据集，用于测试复杂 RAG 能力。

长上下文

LongBench: 多任务长文本理解基准（包含了摘要、QA、代码补全）。

可观测性

LangSmith

LangChain 配套的追踪和监控平台。

Weights & Biases

机器学习实验跟踪，支持 LLM 应用。

Arize

模型监控和可观测性平台。

MCP 相关

MCP SDK

官方提供的 MCP 协议开发工具包。

预构建 MCP 服务

文件系统服务
数据库服务
网页爬取服务
各种 API 集成

选型建议

场景

推荐选择（示例组合）

快速原型

编排框架 + 轻量向量存储

生产部署

编排框架 + 生产级向量数据库

企业集成

融合数据库 (Oracle/PG/MySQL)

研究实验

开源模型 + 开源数据库

上一页附录 A：术语表下一页附录 C：参考资源

最后更新于3天前

hashtag开发框架

hashtag编排与构建

hashtagLangChain

hashtagLlamaIndex

hashtagHaystack

hashtag智能体框架

hashtagLangGraph

hashtagAutoGen

hashtag向量数据库

hashtagPinecone

hashtagWeaviate

hashtagMilvus

hashtagQdrant

hashtagChroma

hashtagPostgreSQL：pgvector

hashtagOracle 数据库 23ai

hashtagMySQL：8.0+ / HeatWave

hashtag嵌入模型

hashtag商业服务

hashtag开源模型

hashtag评估与基准

hashtag评估工具

hashtagRAGAS

hashtagTruLens

hashtagDeepEval

hashtag性能基准测试

hashtag公共数据集

hashtagRAG 训练与测试

hashtag长上下文

hashtag可观测性

hashtagLangSmith

hashtagWeights & Biases

hashtagArize

hashtagMCP 相关

hashtagMCP SDK

hashtag预构建 MCP 服务

hashtag选型建议

开发框架

编排与构建

LangChain

LlamaIndex

Haystack

智能体框架

LangGraph

AutoGen

向量数据库

Pinecone

Weaviate

Milvus

Qdrant

Chroma

PostgreSQL：pgvector

Oracle 数据库 23ai

MySQL：8.0+ / HeatWave

嵌入模型

商业服务

开源模型

评估与基准

评估工具

RAGAS

TruLens

DeepEval

性能基准测试

公共数据集

RAG 训练与测试

长上下文

可观测性

LangSmith

Weights & Biases

Arize

MCP 相关

MCP SDK

预构建 MCP 服务

选型建议