14.1 Token 消耗分析与优化策略
14.1.1 Token 消耗分析与优化策略
Token流向与成本模型
各模型的成本对比
模型
输入价格
输出价格
适用场景
平均成本/次
Token 优化的三层策略
第一层:输入优化(节省50-70%)
// ❌ 不好的做法:冗长的系统提示
const systemPrompt = `你是一个专业的客户支持代理...(2000字)`;
// ✅ 好的做法:结构化、精简的系统提示
const systemPrompt = `Role: Customer Support Agent
Capabilities: FAQ answering, ticket creation, account lookup
Constraints:
- Never access payment info (fields: ssn, card_number)
- Escalate if confidence < 0.5
- Max response: 500 chars`;
// 节省:~500 tokens第二层:输出优化(节省20-40%)
第三层:推理优化(节省10-30%)
Token成本监控与预算控制
14.1.2 推理延迟优化
延迟来源分析
并行化工具调用
连接池与复用
预热与缓存策略
14.1.3 性能基准测试方法
测试框架设计
性能指标收集
基准测试报告示例
最后更新于
