附录C：故障排查检查单

本附录提供一套可直接照着执行的排查清单，目标是先用最少命令把故障定位到层级，再进入对应章节深挖。排查顺序建议遵循从外到内：进程与配置、网关与渠道、模型与工具、会话与记忆。

C.1 启动失败检查

检查项：

运行时与依赖是否满足要求（Node、Docker 等）。
配置文件路径与语法是否正确（尤其是 JSON5 注释与尾逗号）。
- 典型报错: SyntaxError: JSON5: invalid character '}' at 12:4
端口是否被占用。
- 典型报错: EADDRINUSE: address already in use :::18789
密钥与令牌是否注入且有效。

常用命令示例：

# 体检与诊断（以实际 CLI 为准）

openclaw doctor

# 查看最近日志

openclaw logs --tail 200

# 端口占用

lsof -nP -iTCP -sTCP:LISTEN | head

关联阅读：

C.2 渠道异常检查

检查项：

渠道令牌与权限是否有效。
- 典型报错: [Telegram] Polling error: 401 Unauthorized
配对关系是否正确，是否存在未审批的配对请求。
- 典型报错: [Gateway] Connection rejected: device 9f8a not paired
路由是否命中目标 Agent，会话归属是否稳定。
渠道状态与日志是否一致。

常用命令示例：

openclaw channels status
openclaw logs --tail 200

关联阅读：

C.3 工具异常检查

检查项：

是否触发工具治理策略拒绝，或权限不足被拦截。
- 典型报错: ToolError: execute_bash denied by default policy
参数格式是否符合预期，是否缺字段或类型不匹配。
- 典型报错: SchemaValidationError: missing required property 'amount'
执行环境是否具备权限与网络访问条件（沙箱策略是否收紧）。
工具回执是否成功结构化回注，是否因上下文裁剪而丢失关键信息。
- 典型表现: 日志提示 Max context window exceeded, discarding output of tool 'search_web'

常用命令示例：

# 按 trace_id 回放工具链路

cat runtime.log | jq -c 'select(.trace_id=="t-...") | {ts,event,tool,err_type,cost_ms}'

关联阅读：

5.2 工具策略：允许、拒绝与分层策略
10.3 工具执行链路与结果回注

C.4 模型异常检查

检查项：

主模型是否限流、超时或认证失败。
- 典型报错: ProviderError: 429 Too Many Requests (OpenAI) 或 401 Invalid API Key
是否触发回退链路，回退是否有证据链。
- 典型表现: [WARN] Model gpt-5 timed out. Falling back to claude-sonnet-4-5
冷却或禁用状态是否生效，是否出现重试放大。
认证档案与密钥是否过期或被吊销。

常用命令示例：

# 统计错误分类占比

cat runtime.log | jq -r 'select(.stage=="model_call_end" and .err_type!="") | .err_type' | sort | uniq -c | sort -nr | head

关联阅读：

C.5 记忆与上下文异常检查

现象：“模型遗忘刚刚提到的信息”或“连续要求重复输入参数”。

检查项：

会话归属是否漂移（同一用户被分配到不同 sessionKey）。
- 诊断手段 ：用结构化日志按 sessionKey 和 traceId 回放链路。
上下文预算是否打满，导致近期信息被裁剪。
- 诊断手段 ：观察日志中的裁剪/压缩事件与占位符频率。
会话存储文件是否可读写，是否发生写入失败。
- 诊断手段 ：检查 ~/.openclaw/agents/<agentId>/sessions/sessions.json 的更新时间与权限。

常用命令示例：

openclaw status --deep
openclaw logs --follow --json
cat runtime.log | jq -c 'select(.sessionKey!="") | {ts,trace_id,sessionKey,event,err_type}' | tail

C.6 复验与完整流程

检查项：

修复后是否完成同场景复验，并回放关键 trace 做回归对比。
是否更新 Runbook、告警阈值与回退策略。
是否记录原因、处理动作、回滚点与证据链，便于复盘与审计。

关联阅读：

12.3 测试与调试：把扩展做成可回放的工程完整流程

上一页附录B：配置模板与样例下一页附录D：API 与 SDK 参考

最后更新于16小时前

hashtagC.1 启动失败检查

hashtagC.2 渠道异常检查

hashtagC.3 工具异常检查

hashtagC.4 模型异常检查

hashtagC.5 记忆与上下文异常检查

hashtagC.6 复验与完整流程

C.1 启动失败检查

C.2 渠道异常检查

C.3 工具异常检查

C.4 模型异常检查

C.5 记忆与上下文异常检查

C.6 复验与完整流程