5.5 局限性与最佳实践
Computer Use 是一项前沿技术,它既令人兴奋,也充满了初期的粗糙感。 作为开发者,需要清醒地认识到其能力边界,并采用最佳实践来规避风险。
5.5.1 当前的局限性
即使在今天,Computer Use 也绝非完美。
高延迟
由于涉及到大量的图像上传和处理,每一步操作的延迟通常在 数秒 级别。
人类:点击 -> (0.1s) -> 看到结果。
Claude:截图 -> 上传(2s) -> 推理(2s) -> 下发指令(1s) -> 执行。
结论:不适合玩游戏、实时抢票等对低延迟要求极高的任务。
视觉盲区
低对比度:灰底上的浅灰字,Claude 可能看不清。
动态内容:Claude 看到的是静态截图。它不知道那个加载圈是在转动还是卡住了。它也不知道鼠标悬停 (Hover) 才会显示的菜单在哪里,除非明确告诉它“把鼠标移到这里试试”。
分辨率限制:如果屏幕是 4K,传输给 Claude 的图片可能会被压缩,导致小文字模糊不可读。
幻觉操作
Claude 偶尔会“以为”自己点击了,但其实没点中。或者它以为页面加载完了,其实还在白屏。这种“过度自信”会导致任务链断裂。
5.5.2 提示工程最佳实践
针对 Computer Use 的 Prompt 写法与普通对话完全不同。
坐标系校准
在 System Prompt 中明确说明:
"当前屏幕分辨率为 1024x768。所有坐标必须在此范围内。请尽量点击按钮的中心位置。"
视觉引导
如果这是特定软件,通过 Few-Shot 告诉它按钮长什么样。
"在这个软件中,'保存'通常是一个蓝色的软盘图标,位于右上角。请优先寻找蓝色图标。"
状态检查
强制 Claude 在行动前确认状态。
Bad: "点击搜索框然后输入 'Python'。" Good: "点击搜索框。在输入之前,请截图确认光标是否要在搜索框内闪烁。确认无误后,再输入 'Python'。"
5.5.3 架构设计最佳实践
人机回环
对于关键操作(转账、删除资源、发送邮件),设计一个“确认断点”。 当 Claude 决定点击“发送”时,Agent 暂停,发消息给用户:“我准备发送这封邮件,内容如下... 批准吗?”
混合模式
不要执着于全视觉操作。API 和 Computer Use 结合才是最佳方案。
场景: 在 CRM 里查找客户并打电话。
流程:
用 SQL Tool 查客户 ID (API, 快且准)。
用 Computer Use 打开拨号软件,输入刚才查到的 ID (GUI, 解决无 API 问题)。 这种组合既利用了 API 的准确性,又利用了 Computer Use 的兼容性。
容错重试
UI 交互充满了不确定性(弹窗广告、网络延迟)。 编写一个健壮的 Loop:
5.5.4 隐私与数据安全
截图脱敏
在将截图发送给 Claude API 之前,可以在本地运行一个轻量级 OCR 模型(如 Tesseract 或 PaddleOCR)。 如果检测到敏感关键词("Password", "Credit Card"),用黑色矩形遮盖该区域。
最小化窗口
只给 Claude 看它需要看的窗口。不要截全屏。 如果是 Web 任务,可以使用浏览器插件只截取 Viewport,而不是整个操作系统桌面。
5.5.5 什么时候该用,什么时候不该用?
遗留 ERP 系统录入
⭐⭐⭐⭐⭐
没有 API,人工操作枯燥,由于界面固定,成功率高。
跨应用数据搬运
⭐⭐⭐⭐
连接 Slack 和 Notion 等 SaaS,作为 Glue Code (胶水代码)。
软件功能测试
⭐⭐⭐⭐
模拟小白用户,发现 UI 逻辑漏洞。
高频交易/抢票
⭐
延迟太高,必败无疑。
平面设计/视频剪辑
⭐⭐
对鼠标精度要求过高,且难以判断动态效果。
Computer Use 只是 Claude 众多能力中的一种。为了让 Claude 真正胜任特定的工作岗位,需要给它装备更专业的知识体系——这就是 Skills (技能)。
最后更新于
