附录 B:工具与技术生态

本附录汇集上下文工程领域的常用工具、框架、数据集与测评基准。


开发框架

编排与构建

LangChain

简介:最流行的 LLM 应用开发框架之一,提供全面的 RAG 支持。

特点

  • 丰富的组件和集成

  • 活跃的社区

  • 详细的文档

官网:https://langchain.com

LlamaIndex

简介:专注于数据索引和检索的 LLM 框架。

特点

  • 多种索引结构

  • 灵活的检索策略

  • 支持 Graph RAG

官网:https://llamaindex.ai

Haystack

简介:端到端 NLP 框架,支持构建完整的 RAG 管道。

特点

  • 生产级就绪

  • 可视化管道编辑

  • 评估工具集成

官网:https://haystack.deepset.ai

智能体框架

LangGraph

简介:LangChain 体系下基于图的有状态多智能体编排框架。

特点

  • 精细的循环控制

  • 强大的状态持久化能力

AutoGen

简介:微软推出的多智能体对话框架。

特点

  • 强大的代码执行能力

  • 灵活的群聊模式


向量数据库

Pinecone

类型:全托管云服务

特点:开箱即用、免运维、快速启动

Weaviate

类型:开源/云服务

特点:功能丰富、GraphQL API、支持混合搜索

Milvus

类型:开源

特点:高性能、可扩展、适合大规模部署

Qdrant

类型:开源

特点:Rust 实现、高性能、轻量级

Chroma

类型:开源

特点:嵌入式、简单易用、适合原型开发

PostgreSQL (pgvector)

类型:开源扩展

特点:与现有 PG 基础设施集成、生态成熟

Oracle Database 23ai

类型:商业/云服务

特点:原生 AI 向量搜索、企业级安全与高可用

MySQL (8.0+ / HeatWave)

类型:开源/云服务

特点:全球最流行的开源数据库原生支持向量


嵌入模型

商业服务

服务
模型
特点

OpenAI

text-embedding-3

质量高、易集成

Cohere

Embed v3

多语言、长上下文

Google

Vertex Embeddings

多模态支持

开源模型

模型
维度
特点

BGE 系列

1024

中文优秀、多语言

E5 系列

1024

指令式嵌入

sentence-transformers

变化

丰富选择


评估与基准

评估工具

RAGAS

简介:评估 RAG 系统质量的自动化框架。

指标:忠实度 (Faithfulness)、答案相关性 (Answer Relevancy)、上下文召回率 (Context Recall)。

TruLens

简介:RAG 应用的监控和评估平台,提供 RAG 三元组 (Triad) 可视化。

DeepEval

简介:LLM 应用的评估框架。

性能基准测试

  • Needle In A Haystack: 长上下文召回能力的标准测试套件。

  • Massive Text Embedding Benchmark (MTEB): 文本嵌入模型的权威排行榜。


公共数据集

RAG 训练与测试

  • MS MARCO: 微软的大规模阅读理解数据集,检索任务的黄金标准。

  • HotpotQA: 多跳推理问答数据集,用于测试复杂 RAG 能力。

长上下文

  • LongBench: 多任务长文本理解基准(包含了摘要、QA、代码补全)。


可观测性

LangSmith

LangChain 配套的追踪和监控平台。

Weights & Biases

机器学习实验跟踪,支持 LLM 应用。

Arize

模型监控和可观测性平台。


MCP 相关

MCP SDK

官方提供的 MCP 协议开发工具包。

预构建 MCP 服务

  • 文件系统服务

  • 数据库服务

  • 网页爬取服务

  • 各种 API 集成


选型建议

场景
推荐选择

快速原型

LangChain + Chroma

生产部署

LlamaIndex/LangChain + Pinecone/Milvus

企业集成

融合数据库 (Oracle/PG/MySQL)

研究实验

开源模型 + 开源数据库

Last updated