5.5 局限性与最佳实践

Computer Use 是一项前沿技术,它既令人兴奋,也充满了初期的粗糙感。 作为开发者,需要清醒地认识到其能力边界,并采用最佳实践来规避风险。

5.5.1 当前的局限性

即使在今天,Computer Use 也绝非完美。

高延迟

由于涉及到大量的图像上传和处理,每一步操作的延迟通常在 数秒 级别。

  • 人类:点击 -> (0.1s) -> 看到结果。

  • Claude:截图 -> 上传(2s) -> 推理(2s) -> 下发指令(1s) -> 执行。

  • 结论:不适合玩游戏、实时抢票等对低延迟要求极高的任务。

视觉盲区

  • 低对比度:灰底上的浅灰字,Claude 可能看不清。

  • 动态内容:Claude 看到的是静态截图。它不知道那个加载圈是在转动还是卡住了。它也不知道鼠标悬停 (Hover) 才会显示的菜单在哪里,除非明确告诉它“把鼠标移到这里试试”。

  • 分辨率限制:如果屏幕是 4K,传输给 Claude 的图片可能会被压缩,导致小文字模糊不可读。

幻觉操作

Claude 偶尔会“以为”自己点击了,但其实没点中。或者它以为页面加载完了,其实还在白屏。这种“过度自信”会导致任务链断裂。

5.5.2 提示工程最佳实践

针对 Computer Use 的 Prompt 写法与普通对话完全不同。

坐标系校准

在 System Prompt 中明确说明:

"当前屏幕分辨率为 1024x768。所有坐标必须在此范围内。请尽量点击按钮的中心位置。"

视觉引导

如果这是特定软件,通过 Few-Shot 告诉它按钮长什么样。

"在这个软件中,'保存'通常是一个蓝色的软盘图标,位于右上角。请优先寻找蓝色图标。"

状态检查

强制 Claude 在行动前确认状态。

Bad: "点击搜索框然后输入 'Python'。" Good: "点击搜索框。在输入之前,请截图确认光标是否要在搜索框内闪烁。确认无误后,再输入 'Python'。"

5.5.3 架构设计最佳实践

人机回环

对于关键操作(转账、删除资源、发送邮件),设计一个“确认断点”。 当 Claude 决定点击“发送”时,Agent 暂停,发消息给用户:“我准备发送这封邮件,内容如下... 批准吗?”

混合模式

不要执着于全视觉操作。API 和 Computer Use 结合才是最佳方案。

  • 场景: 在 CRM 里查找客户并打电话。

  • 流程:

    1. SQL Tool 查客户 ID (API, 快且准)。

    2. Computer Use 打开拨号软件,输入刚才查到的 ID (GUI, 解决无 API 问题)。 这种组合既利用了 API 的准确性,又利用了 Computer Use 的兼容性。

容错重试

UI 交互充满了不确定性(弹窗广告、网络延迟)。 编写一个健壮的 Loop:

5.5.4 隐私与数据安全

截图脱敏

在将截图发送给 Claude API 之前,可以在本地运行一个轻量级 OCR 模型(如 Tesseract 或 PaddleOCR)。 如果检测到敏感关键词("Password", "Credit Card"),用黑色矩形遮盖该区域。

最小化窗口

只给 Claude 看它需要看的窗口。不要截全屏。 如果是 Web 任务,可以使用浏览器插件只截取 Viewport,而不是整个操作系统桌面。

5.5.5 什么时候该用,什么时候不该用?

场景
推荐指数
理由

遗留 ERP 系统录入

⭐⭐⭐⭐⭐

没有 API,人工操作枯燥,由于界面固定,成功率高。

跨应用数据搬运

⭐⭐⭐⭐

连接 Slack 和 Notion 等 SaaS,作为 Glue Code (胶水代码)。

软件功能测试

⭐⭐⭐⭐

模拟小白用户,发现 UI 逻辑漏洞。

高频交易/抢票

延迟太高,必败无疑。

平面设计/视频剪辑

⭐⭐

对鼠标精度要求过高,且难以判断动态效果。


Computer Use 只是 Claude 众多能力中的一种。为了让 Claude 真正胜任特定的工作岗位,需要给它装备更专业的知识体系——这就是 Skills (技能)

➡️ 第六章:Skills 技能系统

最后更新于