5.1 Computer Use 能力概述

2024 年 10 月,Anthropic 发布了一项震撼业界的功能:Computer Use (计算机操控)。 如果说 LLM 之前的能力是“大脑”(思考)和“嘴巴”(说话),那么 Computer Use 就赋予了它“眼睛”和“双手”。

Claude 现在可以像人类一样,看着屏幕,移动鼠标,点击按钮,敲击键盘。这标志着 AI 从“辅助生成内容”迈向了“自主执行任务”的新纪元。

5.1.1 什么是 Computer Use?

简单来说,Computer Use 是一种允许 AI 模型通过视觉反馈回路与计算机图形界面 (GUI) 进行交互的技术。

Claude 收到的不再仅仅是文本 Prompt,而是当前屏幕的截图。它输出的不再仅仅是建议,而是具体的操作指令(如 click(x=500, y=200)type("Hello World"))。

核心能力矩阵

能力
描述
技术原理

视觉感知 (See)

识别图标、菜单、按钮、文本框,即便它们没有可访问性标签。

Vision-Language Model 像素级分析

精准操控 (Act)

移动光标、点击、双击、拖拽、滚动、键盘输入组合键。

映射到操作系统的底层 HID 事件

状态反馈 (Loop)

每次操作后,再次查看屏幕以确认结果(如“页面是否加载完成?”)。

ReAct 循环 (Observation -> Action)

跨应用协作 (Cross-App)

从 Excel 复制数据,粘贴到 CRM 网页,再打开 Slack 发通知。

操作系统级任务切换

5.1.2 为什么它很重要?

在 Computer Use 出现之前,自动化主要依赖 API 或 RPA (Robotic Process Automation)。但它们都有致命弱点:

  • API 的局限:世界上 99% 的软件(尤其是企业内部遗留系统、桌面软件)没有 API,或者 API 极其难用。

  • 传统 RPA 的脆弱:传统的按键精灵依赖固定的坐标或 DOM 选择器。一旦软件界面更新(比如按钮位置移了 5 像素),脚本就会崩溃。

Computer Use 是“反脆弱”的。 因为它像人一样是通过“看”来操作的。即使按钮从左边移到了右边,Claude 也能认出那是“登录”按钮并去点击它,而不需要重写代码。

5.1.3 适用场景

Computer Use 不是为了取代 API,而是为了填补 API 无法覆盖的最后一公里

遗留系统操作 (Legacy Systems)

很多银行、医院、制造业使用的软件是 20 年前开发的,没有任何接口。Claude 可以直接操作这些“古董”软件进行数据录入。

复杂的 GUI 工作流

比如“打开 Photoshop,把这张图根据内容裁剪一下,然后导出为 WebP”。这种涉及视觉判断和复杂软件操作的任务,以前是自动化的禁区。

软件测试 (QA)

让 Claude 扮演测试员:“打开我们的新网站,尝试注册一个账号,如果遇到报错就截图发给我。”它可以像真实用户一样进行端到端测试。

5.1.4 安全模型与风险

赋予 AI 控制电脑的权限是极度危险的。Anthropic 在设计之初就确立了严格的安全边界。

风险点

  • Prompt Injection: 如果 Claude 访问了一个恶意网页,网页上的隐藏文字可能会诱导它删除本地文件。

  • 误操作: AI 可能会点错按钮,比如误点了“发送给全员”而不是“保存草稿”。

防御机制

  • Docker 隔离:官方参考实现强制要求在 Docker 容器中运行。即使 Claude 删除了根目录,也只是删除了容器内的文件,不会影响宿主机。

  • 人机回环 (HITL):对于敏感操作,建议设置拦截机制,需人工批准才能执行。

  • 截图隐私:开发者应确保截图不包含敏感的 PII (个人身份信息),或者接受 Claude 会看到这些信息的风险。


了解 Computer Use 可以在屏幕上“指点江山”后,其大脑内部究竟是如何运转的?本节将拆解其神奇的“截图-思考-行动”循环。

➡️ 工作原理:ReAct 循环详解

最后更新于