电脑操作智能体:AI 如何学会使用您的桌面
电脑操作智能体究竟是什么#
关于电脑操作智能体,最让我惊讶的是前提有多简单:截一张屏、搞清楚屏幕上是什么、点一下。就这么多。没有 API、没有 DOM 访问、没有应用特定连接器。就是一个模型看着像素、发送鼠标事件。
电脑操作智能体通过截图感知屏幕,使用视觉模型识别 UI 元素,并在任意操作系统上的任意应用中执行动作(点击、键入、滚动、键盘快捷键)。它与软件交互的方式,和一位人类操作员一样:打开应用、找到按钮、点击、填写表单字段、Tab 到下一项、提交。
传统自动化工具需要关于应用内部结构的先验知识:XPath 选择器、DOM 访问、API 集成、自定义连接器。电脑操作智能体跳过了这一切。它们从所看到的东西工作,就像把键盘鼠标递给一位承包人一样。
截至 2025 年,85% 的组织已在至少一个工作流中集成了 AI 智能体,但电脑操作具体来说仍处于早期生产部署阶段(G2 Enterprise AI Agents Report,2025 年 8 月)。这项技术能用,伴随着在实际中真正重要的局限。在基于它构建之前,两者都值得了解。
电脑操作智能体的工作原理:感知—动作循环#
第 1 步:捕获(智能体在两次截图之间是盲的)#
智能体截取当前屏幕状态的一张截图。那张截图就是它对世界的唯一视图;它没有直接访问应用底层代码、DOM 或数据模型的通道。
截图通常在决策点捕获:动作执行之前,以及执行之后(以验证结果)。部分实现将显示视为连续视频流以实现更反应式的控制,但“每次动作一张截图”的模型在当前大多数智能体中占主导。一个现实含义:智能体无法检测到在两次捕获之间出现又消失的提示条。它看不到的东西,就无法对其做出反应。
第 2 步:接地(把像素变成意图)#
“接地”(grounding)是智能体把截图映射到对界面理解的过程:这是什么应用?哪些 UI 元素可见?我要交互的元素在哪里?
基于坐标的接地是常见做法:模型识别按钮、输入框或链接的像素坐标,然后智能体用这些坐标指挥输入。在元素位置偏移几像素之前一切正常,一旦偏移,点击就会错过。
更高级的接地方式(部分框架使用)还会识别元素的语义角色。不只是“在(450,320)有一个按钮”,而是“那个按钮提交这个表单”。语义接地对微小布局变化更具韧性,但也更难做对。
第 3 步:规划(模型质量真正体现的地方)#
在对当前状态完成接地后,智能体在给定屏幕状态与任务目标下推理下一步:正确的下一个动作是什么?
对于简单任务(“点击提交按钮”),规划是平凡的。对于带分支逻辑或错误状态的工作流(“研究这家公司、填写联系表单,然后把结果导出到这份电子表格”),规划层必须追踪任务状态、处理意外屏幕,并判断某件事是出错了还是只是和预期不同。这是 Claude Sonnet 在复杂任务上胜过 GPT-4o 的一步,也是模型间基准差距开始显现的地方。
第 4 步:执行(输入事件发送到操作系统)#
智能体通过向操作系统发送输入事件来执行规划好的动作:
- 鼠标动作: 移动到坐标、左键点击、右键点击、双击、拖动
- 键盘动作: 键入文本、按下组合键(Ctrl+C、Alt+Tab、Enter)、按住修饰键
- 滚动: 在指定坐标上下滚动
这些动作通过操作系统的输入层进行,这意味着它们在任意应用中都能工作:浏览器、桌面应用、遗留企业软件——任何接受键盘鼠标输入的东西。无需任何应用特定集成。
第 5 步:验证(大多数人在演示里跳过的一步)#
在执行动作后,智能体再截一张图并检查预期的变化是否发生。按钮点击是否跳到下一页?表单提交是否显示确认?数据是否出现在正确的单元格中?
没有这一步,智能体就无法判断任何操作是否真正奏效。错失目标的点击,与命中目标的点击,在未经检查之前看起来是一样的。这正是朴素实现跳过验证后在生产中默默失败的原因:它们完成了动作循环,却从未确认循环做了它应做的事。
电脑操作智能体与传统自动化工具#
Selenium 和 UiPath 需要什么,而电脑操作智能体不需要#
传统自动化工具(Selenium、UiPath、Playwright、RPA 系统)通过应用的底层结构与之交互:
- 网页自动化(Selenium、Playwright): 需要 DOM 访问。自动化脚本通过 CSS 选择器、XPath 或元素属性识别元素。当应用的 HTML 结构变化时,自动化就会失败。
- RPA 工具(UiPath、Automation Anywhere): 可以使用基于图像的检测或元素选择器。元素选择器方法需要了解应用的可访问性树或内部结构。
- API 集成: 要求应用提供 API,并要求集成代码被编写与维护。
电脑操作智能体什么都不需要。它们看到屏幕并与之交互。这使它们适用于没有 API 的应用、API 设计出现之前的遗留企业软件、过于复杂或频繁变化以至于无法依赖选择器式自动化的网页界面,以及跨多工具却没有统一集成层的跨应用工作流。
这是一个真正有用的特性。企业环境里有大量没有 API、也不太可能会有 API 的软件。
何时您仍然想要 API 或专门的集成#
电脑操作带有真实成本。API 集成更快、更可靠、更可审计,运行起来也便宜得多:无需在每一步都进行截图捕获和视觉模型推理。如果您要自动化的对象存在一个维护良好的 API,就使用它。当可以直接集成时却转向电脑操作,就像让人透过窗户看着屏幕按按钮来操作一台机器——而不是使用它的控制面板。
对于您能控制或理解 DOM 结构的、具体的网页工作流,基于选择器的网页自动化(Playwright、Puppeteer)也比基于截图的电脑操作更快、更可靠。
只有在替代方案不存在或不现实时,才使用电脑操作。
权衡:灵活性与可靠性#
电脑操作智能体可以在任何带图形界面的应用上工作,而无需定制集成。这种灵活性以可靠性为代价,代价并不小。
一个在页面加载之间移动了几像素的按钮会让基于像素坐标的点击失败。一个比预期停留更久的加载动画会让智能体在过时的屏幕状态上动作。工作流中途出现的意外对话框要求智能体识别、处理、并在继续前关闭。这些不是边缘情形;在真实应用中它们经常出现。
实际上,电脑操作智能体在稳定界面中定义良好的工作流上、并配合每一步显式验证时,表现良好。对于不稳定的界面或对可靠性要求极高的工作流,请为验证与恢复逻辑投入大量工程时间。
2026 年的主要电脑操作智能体#
Claude computer use 与 Cowork#
Anthropic 于 2024 年底为 Claude 推出了电脑操作能力。Claude Sonnet 4.5 在 2025 年的 OSWorld 基准上取得 61.4% 的分数,相较 42.2% 有所提升(OSWorld / Anthropic,2025)。仍低于人类,但已是实打实的代际提升。
Cowork 是 Anthropic 的桌面智能体,于 2026 年 1 月 12 日作为研究预览发布。它在底层电脑操作能力之上构建了一个产品层:插件系统、MCP 连接器、权限模型和技能市场——这使它能以治理良好的方式被部署给知识工作者,而无需您自行搭建这些治理能力。关于 Cowork 作为商业工具的更深入观察,参见 Anthropic Cowork:是什么,企业如何使用。
OpenAI Operator 与 ChatGPT agent#
OpenAI 通过 Operator(一款专用的网页浏览智能体)以及 ChatGPT agent 界面的原生能力交付了电脑操作。GPT-5.4 于 2026 年 3 月 5 日发布,是 OpenAI 首款内置电脑操作能力、并接受浏览器、桌面应用与文件管理的虚拟机控制训练的前沿模型(OpenAI,2026 年 3 月)。OpenAI 将电脑操作视为核心模型能力,而不是附加项。
Google Gemini computer use#
截至 2026 年初,Gemini 2.5 Computer Use 在 WebVoyager 上取得 88.9%,在 AndroidWorld 上取得 69.7%(Google / OSWorld,2026)。在基于浏览器的任务上这些数字很强。OS 级控制成熟度较低。Google 的实现与 Chrome 紧密集成,这在网页工作流上给了它具体优势。
基准数字如何对比#
| 模型 / 系统 | WebVoyager | AndroidWorld | OSWorld |
|---|---|---|---|
| Google Gemini 2.5 | 88.9% | 69.7% | 未发布 |
| Claude Sonnet 4.5 | -- | -- | 61.4% |
| 人类基线 | -- | -- | 约 72% |
阅读这些数字时要记住几点:
这些基准衡量的不是同一件事。WebVoyager 测试网页浏览器导航,AndroidWorld 测试移动应用控制,OSWorld 测试通用操作系统级任务完成。在 WebVoyager 上表现强,并不能预测 OSWorld 表现,反之亦然。
这些也是受控基准条件,并非生产工作流。真实任务有更多波动、更多意外状态,以及基准无法捕捉的失败模式。把数字当作方向性信号。
OSWorld 的差距才是对桌面自动化最重要的:所有当前系统都低于人类。Claude Sonnet 4.5 的 61.4% 意味着大约每 10 个任务有 4 个失败或需要干预。这不是一个要绕开的缺陷;而是一个要围绕其设计的约束。
Cowork 的定位:桌面智能体与原始电脑操作#
Cowork 在电脑操作之上增加了什么#
通过 API 的原始电脑操作给您感知—动作循环:截图进、动作出。它是一块构建基石。有用,但您必须自行构建系统的其他部分。
Cowork 增加了产品层:
- 插件: 为特定岗位功能打包的技能与工作流(财务、法务、HR、销售、工程)
- MCP 连接器: 与云服务(Salesforce、Google Drive、DocuSign、FactSet)的结构化集成,让智能体获得真实数据,而不是仅依赖其能从屏幕读到的内容
- 权限模型: 文件夹作用域沙箱、连接器访问控制、管理员托管的插件市场
- 技能与斜杠命令: 命名化的工作流模板能被一致地触发,而不是向通用电脑操作能力临时下达指令
如果您要构建一个治理良好的企业级部署,Cowork 开箱即给您这种治理。用原始 API 访问,您要从零写起。
插件、技能与 MCP 连接器#
Cowork 的插件系统意味着您不必为常见岗位功能从零开始。财务插件包含为常见财务任务预置的技能。法务插件包含合同审查与合规工作流。您在起点之上定制,而不是从零构建。
MCP 连接器之所以重要,是因为从屏幕抓取读取数据比从结构化 API 读取更慢、更脆弱、也更容易出错。Salesforce MCP 连接器让智能体获得准确、结构化的 CRM 数据。通过抓取 Salesforce UI 读取同样的数据会引入延迟、坐标脆弱性与布局变动风险。存在 MCP 连接器的地方,就应该使用。
虚拟机沙箱为何对企业使用重要#
Cowork 可选在沙箱化虚拟机中运行浏览器自动化,将智能体的浏览器操作与您的本地会话隔离。您个人浏览器中的 Cookie、保存的密码和会话数据,对在沙箱中运行的智能体不可访问。
IT 团队几乎总会问某种版本的问题:“如果智能体正在控制浏览器,它能访问我的个人账户吗?”有沙箱隔离时,答案是明确有界的。没有时,答案就复杂了。
电脑操作智能体今天能做什么、不能做什么#
它们表现良好的任务#
当任务具备以下特征时,电脑操作智能体可靠性较高:
- 稳定界面。 UI 不频繁变化且元素位置一致的应用。
- 完成标准明确。 “完成”在视觉上无歧义的任务:出现确认页、创建记录、字段被填入。
- 错误状态宽容。 错误动作可以被撤销或在造成不可逆副作用之前被捕获的工作流。
- 中等复杂度。 多步骤但不深度分支:5-15 个离散步骤,分支有限。
在生产中可靠工作的事情:填写标准化表单(报销单、接诊表、数据录入)、从网页中把结构化数据提取到电子表格、在一致的网页 UI 中导航以导出报告、在没有共同 API 的工具之间转移数据。
它们仍会出错的任务#
- 高度可变的界面。 重度依赖状态渲染的单页应用、A/B 测试的 UI,或在不同账户类型间渲染不同的应用。
- 高风险不可逆动作。 群发邮件、执行金融交易、删除记录。这些必须在智能体继续之前得到人类确认,没有例外。
- CAPTCHA 与机器人检测。 多数当前实现无法可靠地解决 CAPTCHA。激进反爬网站可能完全拦截智能体驱动的会话。
- 动态内容。 初次渲染后异步加载内容的页面要求智能体等待并重新捕获后再行动。时机不佳的捕获会在过时状态上产生动作。
- 无验证的长自主链。 30+ 步且没有中间检查点的任务会累积错误。每一步都有小的失败概率;在 30 步上复合,总体失败率就会很高。
可靠性差距与应对方式#
OSWorld 上 61% 的成功率,对于多数企业工作流来说不足以作为完全自主系统部署。这并不意味着电脑操作没用;它意味着您必须围绕失败率设计,而不是假装它不存在。
收紧范围。 “导航到这个具体的报告页并导出为 CSV” 比 “研究这家公司并总结它近期的新闻” 可靠得多。具体性直接转化为可靠性。
在每一关键步骤后加入验证。 智能体应在继续前确认预期状态。失败时重试或升级,而不是继续。
不可逆动作前要求人类确认。 金融交易、对外通信、删除记录。无例外。
显式构建回退路径。 在定义数量的失败尝试之后,智能体应升级给人类。在失败上循环或默默失败都是不可接受的结果。
常见问题#
电脑操作智能体与浏览器自动化工具有什么区别?
浏览器自动化工具(Selenium、Playwright)通过 HTML 结构与网页应用交互;它们需要 DOM 访问、CSS 选择器或 XPath 来识别元素。电脑操作智能体通过截图与像素坐标动作交互,就像一位看着屏幕的人那样。在您有良好选择器可用的网页任务上,电脑操作更慢也更不可靠,但它能在任何应用中工作(桌面应用、遗留软件、复杂网页应用),无需集成代码。
Claude computer use 如何看到并与屏幕交互?
Claude 对当前屏幕状态截图,使用视觉模型识别 UI 元素及其坐标,推理下一步应采取什么动作,并发送鼠标与键盘事件执行。在每次动作后,它再截一张图以验证结果。循环持续到任务完成或出现意外情况。
电脑操作智能体能处理基于 API 的智能体处理不了的哪些任务?
涉及没有 API 的软件,或 API 未暴露所需具体功能的软件。遗留企业应用、桌面软件、高度定制的 SaaS 配置,以及跨多个未打通工具的跨应用工作流是主要情况。电脑操作也能处理 UI 变动频繁、基于选择器的自动化不可靠的应用中的工作流。
Claude Cowork 是电脑操作智能体吗?
Cowork 将电脑操作作为其底层能力之一,但它是一个产品层,而不是原始电脑操作 API。Cowork 在基础电脑操作能力之上添加了插件、用于结构化数据访问的 MCP 连接器、权限模型、技能系统和沙箱化浏览器隔离。实际差别很重要:Cowork 可以在企业环境中以治理与可审计性部署。原始 API 访问要求您自行构建这些。
电脑操作在生产中的可靠性现状如何?
Claude Sonnet 4.5 在 2025 年 OSWorld 上取得 61.4%(人类基线约 72%)。Google Gemini 2.5 在 WebVoyager 浏览器基准上取得 88.9%。真实世界可靠性因任务类型差异很大:稳定界面中定义良好、范围有限的任务比动态 UI 中复杂、开放式的任务表现好得多。在任何生产部署中都要构建验证循环与人类升级路径。它们不是可选项。
