第十一章:容错与可靠性工程
章引言
一个智能体系统的成功不仅取决于它在正常情况下的表现,更取决于它在异常情况下的表现。第十一章探讨如何设计和实现一个容错、可恢复的智能体系统。
现实中的故障场景
在生产环境中,Harness会面临各种故障:
工具调用失败
API超时
速率限制
权限错误
部分Server宕机
LLM服务故障
API不可用
上下文长度超限
配额耗尽
数据和资源故障
数据库连接丢失
内存溢出
磁盘空间不足
逻辑故障
LLM幻觉(Hallucination)
无限循环
死锁
核心问题
如何可观测? 我们如何知道系统正在做什么、是否出问题?
如何反馈? 当智能体做出危险决定时,人类如何介入?
如何容错? 一个模块故障时,系统如何继续工作?
如何防幻觉? 如何检测和防止LLM的错误输出?
本章结构
11.1:可观测性体系
11.2:反馈循环与人机协同设计
11.3:容错模式与系统级恢复
11.4:幻觉防护的工程实践
11.5:实战——为 MiniHarness 添加可靠性保障
与其他章节的关联
← 第10章的配置系统被用于控制容错策略
→ 这是最后的功能章节,为评估和未来方向做准备
可靠性的度量
在讨论具体技术前,我们需要定义目标:
指标
定义
生产目标
Availability
系统可用时间/总时间
99.9%
MTBF(平均故障间隔时间)
故障间隔时间
>1000小时
MTTR(平均恢复时间)
平均修复时间
<5分钟
Error Rate
失败的请求比例
<0.1%
P99延迟
99%的请求完成时间
<10秒
学习路径
建议按顺序学习:
11.1 建立可观测性基础
11.2 设计反馈机制
11.3 实现容错能力
11.4 防护幻觉
11.5 整合到MiniHarness
最后更新于
