5.1 Computer Use 能力概述

2024 年 10 月，Anthropic 发布了一项震撼业界的功能：Computer Use (计算机操控)。如果说 LLM 之前的能力是“大脑”（思考）和“嘴巴”（说话），那么 Computer Use 就赋予了它“眼睛”和“双手”。

Claude 现在可以像人类一样，看着屏幕，移动鼠标，点击按钮，敲击键盘。这标志着 AI 从“辅助生成内容”迈向了“自主执行任务”的新纪元。

5.1.1 什么是 Computer Use？

简单来说，Computer Use 是一种允许 AI 模型通过视觉反馈回路与计算机图形界面 (GUI) 进行交互的技术。

Claude 收到的不再仅仅是文本 Prompt，而是 当前屏幕的截图。它输出的不再仅仅是建议，而是具体的 操作指令（如 click(x=500, y=200) 或 type("Hello World")）。

核心能力矩阵

能力

描述

技术原理

视觉感知 (See)

识别图标、菜单、按钮、文本框，即便它们没有可访问性标签。

Vision-Language Model 像素级分析

精准操控 (Act)

移动光标、点击、双击、拖拽、滚动、键盘输入组合键。

映射到操作系统的底层 HID 事件

状态反馈 (Loop)

每次操作后，再次查看屏幕以确认结果（如“页面是否加载完成？”）。

ReAct 循环 (Observation -> Action)

跨应用协作 (Cross-App)

从 Excel 复制数据，粘贴到 CRM 网页，再打开 Slack 发通知。

操作系统级任务切换

5.1.2 为什么它很重要？

在 Computer Use 出现之前，自动化主要依赖 API 或 RPA (Robotic Process Automation)。但它们都有致命弱点：

API 的局限：世界上 99% 的软件（尤其是企业内部遗留系统、桌面软件）没有 API，或者 API 极其难用。
传统 RPA 的脆弱：传统的按键精灵依赖固定的坐标或 DOM 选择器。一旦软件界面更新（比如按钮位置移了 5 像素），脚本就会崩溃。

Computer Use 是“反脆弱”的。 因为它像人一样是通过“看”来操作的。即使按钮从左边移到了右边，Claude 也能认出那是“登录”按钮并去点击它，而不需要重写代码。

5.1.3 适用场景

Computer Use 不是为了取代 API，而是为了填补 API 无法覆盖的 最后一公里。

遗留系统操作

很多银行、医院、制造业使用的软件是 20 年前开发的，没有任何接口。Claude 可以直接操作这些“古董”软件进行数据录入。

复杂的 GUI 工作流

比如“打开 Photoshop，把这张图根据内容裁剪一下，然后导出为 WebP”。这种涉及视觉判断和复杂软件操作的任务，以前是自动化的禁区。

软件测试

让 Claude 扮演测试员：“打开我们的新网站，尝试注册一个账号，如果遇到报错就截图发给我。”它可以像真实用户一样进行端到端测试。

5.1.4 安全模型与风险

赋予 AI 控制电脑的权限是极度危险的。Anthropic 在设计之初就确立了严格的安全边界。

风险点

Prompt Injection: 如果 Claude 访问了一个恶意网页，网页上的隐藏文字可能会诱导它删除本地文件。
误操作: AI 可能会点错按钮，比如误点了“发送给全员”而不是“保存草稿”。

防御机制

Docker 隔离：官方参考实现强制要求在 Docker 容器中运行。即使 Claude 删除了根目录，也只是删除了容器内的文件，不会影响宿主机。
人机回环 (HITL)：对于敏感操作，建议设置拦截机制，需人工批准才能执行。
截图隐私：开发者应确保截图不包含敏感的 PII (个人身份信息)，或者接受 Claude 会看到这些信息的风险。

了解 Computer Use 可以在屏幕上“指点江山”后，其大脑内部究竟是如何运转的？本节将拆解其神奇的“截图-思考-行动”循环。

➡️ 工作原理：ReAct 循环详解

上一页第五章 Computer Use 计算机操控下一页5.2 工作原理：截图、识别、行动

最后更新于46分钟前

hashtag5.1.1 什么是 Computer Use？

hashtag核心能力矩阵

hashtag5.1.2 为什么它很重要？

hashtag5.1.3 适用场景

hashtag遗留系统操作

hashtag复杂的 GUI 工作流

hashtag软件测试

hashtag5.1.4 安全模型与风险

hashtag风险点

hashtag防御机制