# 5.1 Computer Use 能力概述：AI 的“阿凡达”时刻

2024 年 10 月 22 日，Anthropic 发布了一项震撼业界的功能：**Computer Use (计算机操控)**，首先在公测阶段推出。 如果说 LLM 之前的能力是“大脑”（思考）和“嘴巴”（说话），那么 Computer Use 就赋予了它“眼睛”和“双手”。

Claude 现在可以像人类一样，看着屏幕，移动鼠标，点击按钮，敲击键盘。这标志着 AI 从“辅助生成内容”迈向了“自主执行任务”的新纪元。

## 5.1.1 什么是 Computer Use？

简单来说，Computer Use 是一种允许 AI 模型通过视觉反馈回路与计算机图形界面 (GUI) 进行交互的技术。

Claude 收到的不再仅仅是文本 Prompt，而是 **当前屏幕的截图**。它输出的不再仅仅是建议，而是具体的 **操作指令**（如 `click(x=500, y=200)` 或 `type("Hello World")`）。

### 核心能力矩阵

| 能力                    | 描述                                     | 技术原理                             |
| --------------------- | -------------------------------------- | -------------------------------- |
| **视觉感知 (See)**        | 识别图标、菜单、按钮、文本框，即便它们没有可访问性标签。           | Vision-Language Model 像素级分析      |
| **精准操控 (Act)**        | 移动光标、点击、双击、拖拽、滚动、键盘输入组合键。              | 映射到操作系统的底层 HID 事件                |
| **状态反馈 (Loop)**       | 每次操作后，再次查看屏幕以确认结果（如“页面是否加载完成？”）。       | ReAct 循环 (Observation -> Action) |
| **跨应用协作 (Cross-App)** | 从 Excel 复制数据，粘贴到 CRM 网页，再打开 Slack 发通知。 | 操作系统级任务切换                        |

## 5.1.2 为什么它很重要？

在 Computer Use 出现之前，自动化主要依赖 API 或 RPA (Robotic Process Automation)。但它们都有致命弱点：

* **API 的局限**：世界上 99% 的软件（尤其是企业内部遗留系统、桌面软件）没有 API，或者 API 极其难用。
* **传统 RPA 的脆弱**：传统的按键精灵依赖固定的坐标或 DOM 选择器。一旦软件界面更新（比如按钮位置移了 5 像素），脚本就会崩溃。

**Computer Use 是“反脆弱”的。** 因为它像人一样是通过“看”来操作的。即使按钮从左边移到了右边，Claude 也能认出那是“登录”按钮并去点击它，而不需要重写代码。

## 5.1.3 适用场景

Computer Use 不是为了取代 API，而是为了填补 API 无法覆盖的 **最后一公里**。

### 遗留系统操作

很多银行、医院、制造业使用的软件是 20 年前开发的，没有任何接口。Claude 可以直接操作这些“古董”软件进行数据录入。

### 复杂的 GUI 工作流

比如“打开 Photoshop，把这张图根据内容裁剪一下，然后导出为 WebP”。这种涉及视觉判断和复杂软件操作的任务，以前是自动化的禁区。

### 软件测试

让 Claude 扮演测试员：“打开我们的新网站，尝试注册一个账号，如果遇到报错就截图发给我。”它可以像真实用户一样进行端到端测试。

## 5.1.4 安全模型与风险

赋予 AI 控制电脑的权限是极度危险的。Anthropic 在设计之初就确立了严格的安全边界。

### 风险点

* **Prompt Injection**: 如果 Claude 访问了一个恶意网页，网页上的隐藏文字可能会诱导它删除本地文件。
* **误操作**: AI 可能会点错按钮，比如误点了“发送给全员”而不是“保存草稿”。

### 防御机制

* **受信任沙箱隔离**：官方参考实现建议运行在受信任的隔离环境中，Docker 容器是常见的参考实现之一，虚拟机等其他沙箱方案也可以满足隔离要求。
* **人机回环 (HITL)**：对于敏感操作，建议设置拦截机制，需人工批准才能执行。
* **截图隐私**：开发者应确保截图不包含敏感的 PII (个人身份信息)，或者接受 Claude 会看到这些信息的风险。

***

了解 Computer Use 可以在屏幕上“指点江山”后，其大脑内部究竟是如何运转的？本节将拆解其神奇的“截图-思考-行动”循环。

➡️ [工作原理：ReAct 循环详解](/claude_guide/di-er-bu-fen-gong-ju-pian/05_computer_use/5.2_loop.md)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://yeasy.gitbook.io/claude_guide/di-er-bu-fen-gong-ju-pian/05_computer_use/5.1_overview.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
