8.7 框架性能基准评测
在选择智能体框架时,功能往往是第一考量,但随着应用从原型走向生产,性能 逐渐成为决定生死的关键。如今,模型推理速度已不再是唯一瓶颈,框架本身的运行时开销在端侧和高频场景下愈发凸显。
本节将从延迟、内存、Token 开销和并发能力四个维度,对主流框架进行基准评测对比。
8.7.1 评测维度与环境
框架性能对比高度依赖运行环境与任务形态。更建议把评测设计成可复现的基准套件,并在你的真实部署环境中跑:
延迟:端到端 TTFT、工具调用往返、队列等待。
内存:空闲占用、峰值占用、并发增长曲线。
Token 开销:系统提示词/协议头/中间消息的隐性膨胀。
并发能力:异步模型、批处理能力、背压与限流策略。
8.7.2 延迟分析
延迟主要来自三部分:模型推理、工具执行、以及框架编排开销。评测时建议拆分并分别记录:
模型层:请求排队、首字延迟、流式输出速度。
工具层:外部 API 延迟、重试/退避策略、并发限制。
编排层:状态序列化/反序列化、消息路由、检查点与恢复。
对实时交互应用,优先关注“最坏情况延迟(P95/P99)”与“中断/恢复”的用户体验。
8.7.3 内存占用
内存占用通常由:依赖库体积、索引/缓存常驻、并发会话状态、以及中间结果存储决定。端侧/Serverless 场景建议:
避免常驻大索引与大对象缓存
对工具结果做卸载(文件/对象存储)
对会话状态做裁剪与摘要
8.7.4 Token 开销
Token 开销常被低估:框架可能隐式注入系统提示词、协议头、路由说明、工具 Schema 与中间对话。建议把“实际发送的输入 Token”作为一等指标:
系统提示词是否可复用/可缓存
工具定义是否可按需加载
中间结果是否需要回填全文还是回填摘要/引用
8.7.5 并发与吞吐量
并发能力取决于框架是否支持异步执行、是否能批处理模型请求、以及是否能对工具调用做限流与背压。建议评测:
并发会话数从 1→N 时的吞吐量曲线
工具调用限流下的排队与超时
失败重试对系统稳定性的影响
8.7.6 选型建议矩阵
根据上述评测,给出选型建议:
图 8-1:框架选型象限图
实时交互 / 边缘侧:优先轻量、低状态的编排形态。
企业级业务流:优先图编排/状态机,强调可控性与可审计。
多智能体仿真 / 离线分析:可接受更高延迟以换取更强的协作与验证机制。
下一节: 本章小结
Last updated
