# 5.5 局限性与最佳实践

Computer Use 是一项前沿技术，它既令人兴奋，也充满了初期的粗糙感。 作为开发者，需要清醒地认识到其能力边界，并采用最佳实践来规避风险。

## 5.5.1 当前的局限性

即使在今天，Computer Use 也绝非完美。

### 高延迟

由于涉及到大量的图像上传和处理，每一步操作的延迟通常在 **数秒** 级别。

* 人类：点击 -> (0.1s) -> 看到结果。
* Claude：截图 -> 上传(2s) -> 推理(2s) -> 下发指令(1s) -> 执行。
* **结论**：不适合玩游戏、实时抢票等对低延迟要求极高的任务。

### 视觉盲区

* **低对比度**：灰底上的浅灰字，Claude 可能看不清。
* **动态内容**：Claude 看到的是静态截图。它不知道那个加载圈是在转动还是卡住了。它也不知道鼠标悬停 (Hover) 才会显示的菜单在哪里，除非明确告诉它“把鼠标移到这里试试”。
* **分辨率限制**：如果屏幕是 4K，传输给 Claude 的图片可能会被压缩，导致小文字模糊不可读。

### 幻觉操作

Claude 偶尔会“以为”自己点击了，但其实没点中。或者它以为页面加载完了，其实还在白屏。这种“过度自信”会导致任务链断裂。

## 5.5.2 提示工程最佳实践

针对 Computer Use 的 Prompt 写法与普通对话完全不同。

### 坐标系校准

在 System Prompt 中明确说明：

> “当前屏幕分辨率为 1024x768。所有坐标必须在此范围内。请尽量点击按钮的中心位置。”

### 视觉引导

如果这是特定软件，通过 Few-Shot 告诉它按钮长什么样。

> “在这个软件中，'保存'通常是一个蓝色的软盘图标，位于右上角。请优先寻找蓝色图标。”

### 状态检查

强制 Claude 在行动前确认状态。

> **Bad**: “点击搜索框然后输入 'Python'。” **Good**: “点击搜索框。**在输入之前，请截图确认光标是否要在搜索框内闪烁**。确认无误后，再输入 'Python'。”

## 5.5.3 架构设计最佳实践

### 人机回环

对于关键操作（转账、删除资源、发送邮件），设计一个“确认断点”。 当 Claude 决定点击“发送”时，Agent 暂停，发消息给用户：“我准备发送这封邮件，内容如下... 批准吗？”

### 混合模式

不要执着于全视觉操作。**API 和 Computer Use 结合才是最佳方案。**

* **场景**: 在 CRM 里查找客户并打电话。
* **流程**:
  1. 用 **SQL Tool** 查客户 ID (API, 快且准)。
  2. 用 **Computer Use** 打开拨号软件，输入刚才查到的 ID (GUI, 解决无 API 问题)。 这种组合既利用了 API 的准确性，又利用了 Computer Use 的兼容性。

### 容错重试

UI 交互充满了不确定性（弹窗广告、网络延迟）。 编写一个健壮的 Loop：

```python
retries = 3
while retries > 0:
    try:
        agent.step()
        break
    except ToolError:
        agent.observe("Action failed, retrying...")
        retries -= 1
```

## 5.5.4 隐私与数据安全

### 截图脱敏

在将截图发送给 Claude API 之前，可以在本地运行一个轻量级 OCR 模型（如 Tesseract 或 PaddleOCR）。 如果检测到敏感关键词（“Password”, “Credit Card”），用黑色矩形遮盖该区域。

### 最小化窗口

只给 Claude 看它需要看的窗口。不要截全屏。 如果是 Web 任务，可以使用浏览器插件只截取 Viewport，而不是整个操作系统桌面。

## 5.5.5 什么时候该用，什么时候不该用？

| 场景              | 推荐指数  | 理由                                            |
| --------------- | ----- | --------------------------------------------- |
| **遗留 ERP 系统录入** | ⭐⭐⭐⭐⭐ | 没有 API，人工操作枯燥，由于界面固定，成功率高。                    |
| **跨应用数据搬运**     | ⭐⭐⭐⭐  | 连接 Slack 和 Notion 等 SaaS，作为 Glue Code (胶水代码)。 |
| **软件功能测试**      | ⭐⭐⭐⭐  | 模拟小白用户，发现 UI 逻辑漏洞。                            |
| **高频交易/抢票**     | ⭐     | 延迟太高，必败无疑。                                    |
| **平面设计/视频剪辑**   | ⭐⭐    | 对鼠标精度要求过高，且难以判断动态效果。                          |

***

Computer Use 只是 Claude 众多能力中的一种。为了让 Claude 真正胜任特定的工作岗位，需要给它装备更专业的知识体系——这就是 **Skills (技能)**。

➡️ [第六章：Skills 技能系统](/claude_guide/di-san-bu-fen-jin-jie-pian/06_skills.md)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://yeasy.gitbook.io/claude_guide/di-er-bu-fen-gong-ju-pian/05_computer_use/5.5_best_practices.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
