跳转至

Computer Use 与 GUI Agent(2024)

8.2.4 Computer Use 与 GUI Agent(2024)

时间范围:2024.01-2024.10,重点是从 Web Agent、OS Agent 到通用 Computer Use API 的成型过程。
本节位置:上一阶段的核心是 Function Calling、LangGraph、AutoGen、MCP 等框架与协议,把 Agent 的”工具调用”标准化;本阶段的核心转变,是 Agent 不再只调用结构化 API,而是开始像人一样看屏幕、点按钮、敲键盘;下一阶段则进入 OpenAI Operator、企业级 Agent Builder、长任务执行与可靠性评估的生产化竞争。


时代背景

2024 年初,LLM Agent 已经能写代码、调用搜索、访问数据库,但它仍然被困在“有 API 才能行动”的世界里。现实企业系统恰恰相反:大量流程存在于网页后台、Windows 客户端、OA、财务软件、CRM、ERP、低代码平台中,很多没有稳定 API,或者 API 权限申请成本很高。传统 RPA 能点按钮,但依赖坐标、XPath、录制脚本,页面稍微变化就失效;LLM Agent 能理解任务,却缺少可靠的视觉感知和动作落地能力。GUI Agent 正是在这两者之间出现:用多模态模型理解屏幕,用 Agent 循环规划步骤,再用鼠标、键盘、浏览器或操作系统接口执行动作。

这个阶段能突破,主要因为三个条件同时成熟:第一,GPT-4V、Claude 3.5 Sonnet 等多模态模型开始具备可用的界面理解能力;第二,Playwright、浏览器自动化、Accessibility Tree、截图标注等工程工具已经足够成熟;第三,Agent 框架从 ReAct 走向有状态执行,能够记录观察、动作、失败重试和中间状态。GUI Agent 的意义不只是“让模型点网页”,而是把数字世界中原本无法 API 化的长尾软件,第一次纳入了 LLM Agent 的可操作范围。


关键突破

WebVoyager(2024)

一句话定位:WebVoyager 是 2024 年 Web Agent 从“网页文本解析”走向“真实网站多模态交互”的代表性工作。

核心贡献

WebVoyager 承接的是早期 Web Agent 的核心痛点:过去很多系统只在静态网页快照或简化模拟环境中评估,输入也往往只依赖 HTML 或文本,这和真实网站差距很大。真实网站有弹窗、懒加载、复杂布局、广告、登录态和动态组件,光看 DOM 很容易被噪声淹没。

它的关键思路是把网页当成“人看到的界面”,让 Large Multimodal Model 同时利用截图和文本信息,在真实网站上完成端到端任务。论文构建了覆盖 15 个常用网站的真实任务 benchmark,并用 GPT-4V 的多模态能力评估开放式 Web Agent 结果。WebVoyager 在其 benchmark 上达到 59.1% 任务成功率,明显高于 text-only 设置,也说明“视觉输入”不是装饰,而是 Web Agent 能否进入真实场景的关键变量。(arXiv)

工程师视角

如果你在 2024 年做网页自动化,这个工作会改变你的默认设计。过去你可能优先写爬虫、解析 DOM、找 XPath;WebVoyager 之后,合理的工程架构变成“截图 + DOM 摘要 + Action Space + 执行器”。也就是说,不再假设模型必须读完整 HTML,而是把页面压缩成模型可理解的观察:当前截图、候选元素、历史动作、任务目标。常见坑也很清晰:视觉模型能判断“下一步应该点登录按钮”,但未必能稳定映射到准确坐标,所以动作空间要尽量离散化,比如 CLICK(selector)、TYPE(selector, text)、SCROLL,而不是直接让模型输出任意像素点。

📄 原始论文:He et al., 2024, arXiv:2401.13919。(arXiv)

SeeAct(2024)

一句话定位:SeeAct 把 GUI Agent 的核心矛盾讲清楚了:多模态模型会“想”,但难在把想法精确落到页面元素上。

核心贡献

SeeAct 的洞见非常工程化:Web Agent 可以拆成两个阶段。第一阶段是 Action Generation,模型根据任务、网页截图和历史步骤生成“下一步该做什么”的自然语言计划;第二阶段是 Action Grounding,把这个计划映射到具体 HTML 元素和操作类型,例如 CLICK、TYPE、SELECT。SeeAct 在在线网站评估中展示了 GPT-4V 作为通用 Web Agent 的潜力,但也指出 grounding 仍然是主要瓶颈:如果人工提供理想 grounding,任务完成率可以显著提高;现实中自动 grounding 仍有明显差距。(arXiv)

工程师视角

SeeAct 对工程实践最大的影响,是让大家不再把 GUI Agent 简单写成一个 Prompt:“看图,然后告诉我点击哪里”。更稳的做法是拆层:Planner 负责语义决策,Grounder 负责元素定位,Executor 负责调用浏览器或系统 API,Verifier 负责检查执行后状态。这个拆分在生产里很重要,因为失败原因不同,修复策略也不同:如果 Planner 错了,要改任务提示和上下文;如果 Grounder 错了,要改元素候选生成、视觉标注或坐标映射;如果 Executor 错了,要处理页面加载、权限、超时和重试。

📄 原始论文:Zheng et al., 2024, arXiv:2401.01614。(arXiv)

OS-Copilot / UFO(2024)

一句话定位:OS-Copilot 和 UFO 把 Agent 的活动边界从浏览器扩展到操作系统和桌面软件。

核心贡献

OS-Copilot 解决的是“Agent 只能在单一网站或单一工具内行动”的问题。它提出构建 generalist computer agent,让 Agent 能接口化地使用操作系统中的网页、终端、文件、多媒体和第三方应用,并用 FRIDAY 展示自我积累技能的能力。论文报告 FRIDAY 在 GAIA benchmark 上相较此前方法有 35% 提升,并展示了在 Excel、PowerPoint 等软件中的自改进能力。(arXiv)

UFO 则更聚焦 Windows OS。它利用 GPT-Vision 观察 Windows 应用的 GUI 和控件信息,采用 dual-agent framework 分析界面与任务,并通过 control interaction module 把动作自动落到具体控件上。论文在 9 个常用 Windows 应用上测试,强调这是面向 Windows OS 任务完成的 UI Agent。需要注意,OS-Copilot 的 arXiv 编号是 2402.07456;UFO 才是 Zhang et al., 2024, arXiv:2402.07939。(arXiv)

工程师视角

这类工作对企业场景非常关键。很多国内政企、金融、财税、制造业系统不是现代 SaaS,而是历史悠久的 Windows 客户端、浏览器控件、远程桌面和混合内网系统。过去要自动化这些流程,只能写 RPA 脚本;OS-Copilot / UFO 提供了新的架构想象:用 LLM 负责理解需求和异常分支,用视觉与控件树负责定位,用可审计的执行器完成操作。选型建议是:读写财务、审批、交易类系统时,不能直接让 Agent 全自动执行,必须加入 sandbox、权限隔离、操作日志和 Human-in-the-Loop;但在测试、数据录入、报表生成、内部知识检索这类低风险流程中,GUI Agent 已经具备较高探索价值。

📄 原始论文:Wu et al., 2024, arXiv:2402.07456。(arXiv)
📄 原始论文:Zhang et al., 2024, arXiv:2402.07939。(arXiv)

Claude Computer Use(2024.10)

一句话定位:Claude Computer Use 是 GUI Agent 从论文原型走向开发者 API 的标志性事件。

核心贡献

2024 年 10 月 22 日,Anthropic 发布 upgraded Claude 3.5 Sonnet,并把 computer use 作为 public beta 开放给开发者。官方描述很直接:开发者可以让 Claude 像人一样看屏幕、移动光标、点击按钮、输入文本;Anthropic 也明确承认该能力仍处在实验阶段,可能笨拙且容易出错。(Anthropic)

从工程形态看,Claude Computer Use 不只是“多模态输入”,而是把模型输出变成可执行的电脑动作。AWS Bedrock 的说明把它拆成三类工具:Computer tool 负责截图、鼠标和键盘动作;Text editor tool 负责查看、创建、替换文件;Bash tool 负责执行终端命令。这意味着 Agent 不再需要每个软件都有专门插件,而是可以通过通用桌面交互层进入浏览器、编辑器、终端和业务系统。(Amazon Web Services, Inc.)

工程师视角

Claude Computer Use 改变的是应用开发边界。过去你做 Agent 产品,第一步是问:“目标系统有没有 API?”现在可以多问一句:“能不能在受控桌面里让 Agent 操作?”这让软件测试、后台运营、低频管理任务、跨系统录入有了新的自动化路径。但生产约束也更强:必须运行在隔离虚拟机或容器桌面中,所有点击和输入都要记录,可逆操作优先,涉及支付、删除、审批、发信等动作必须人工确认。对工程团队来说,Computer Use 不是替代 API,而是补齐 API 不存在、API 太贵、API 覆盖不足时的最后一公里。


阶段总结

timeline
    title Computer Use 与 GUI Agent(2024)
    2024-01 : SeeAct 提出 Action Generation + Action Grounding,指出 grounding 是 Web Agent 核心瓶颈
    2024-01 : WebVoyager 在真实网站上验证多模态 Web Agent 的端到端能力
    2024-02 : UFO 聚焦 Windows 应用,探索 UI-Focused desktop agent
    2024-02 : OS-Copilot / FRIDAY 探索跨文件、终端、网页、多应用的通用 Computer Agent
    2024-10 : Claude Computer Use public beta 发布,Computer Use 进入开发者 API 阶段

本阶段核心主题:2024 年的关键不是 Agent “更会聊天”,而是 Agent 开始获得数字世界中的身体。WebVoyager 和 SeeAct 证明视觉对真实网页自动化不可或缺;OS-Copilot 和 UFO 把范围扩展到操作系统;Claude Computer Use 则把这些研究方向包装成可调用 API,推动 GUI Agent 从 demo 走向产品原型。


历史意义与遗留问题

这个阶段解决了什么

第一,GUI Agent 打破了“只能调用 API 才能行动”的限制,让 LLM Agent 可以进入真实软件界面。第二,它把 RPA 的脆弱脚本升级成“理解任务 + 观察界面 + 动态决策”的闭环系统。第三,它确立了后续 GUI Agent 的基本工程分层:Observation、Planning、Grounding、Execution、Verification。

留下了什么新问题

最大遗留问题是可靠性。模型看得懂页面,不代表点得准;能完成一次 demo,不代表能在 1000 个用户环境中稳定运行。Grounding、状态验证、权限控制、异常恢复、审计日志,成为下一阶段的核心工程问题。更深层的问题是安全:GUI Agent 操作的是用户真实账号、真实文件和真实业务系统,一旦被 Prompt Injection、恶意网页或错误目标诱导,风险远高于普通聊天机器人。因此,2024 年的 Computer Use 是 Agent 生产化的入口,但不是终点;它把行业带入了下一阶段:如何让能操作电脑的 Agent 变得可信、可控、可回滚。


Sources: