跳转至

Agentic AI 走向生产(2024-2025)

8.2.5 Agentic AI 走向生产(2024-2025)

时间范围:2024-2025
阶段位置:前一阶段解决了“Agent 如何调用工具、如何在浏览器和 GUI 中行动”的问题;本阶段的核心转变,是 Agent 从 Demo、论文和开源实验,进入面向真实用户、真实企业流程、真实成本约束的生产化落地;下一阶段将进一步走向“长任务自治、跨组织协作、个人 AI 工作代理”。

时代背景

到 2024 年,LLM Agent 已经不再缺“想法”:ReAct 证明了推理与行动循环可行,Function Calling 让工具调用从 Prompt Hack 变成结构化协议,LangGraph、AutoGen、CrewAI 等框架也让开发者能快速搭出多 Agent 原型。但真正的问题是:这些 Agent 仍然“不够可靠”。它们可以演示订票、查资料、改代码,却经常卡在登录、权限、异常页面、工具报错、上下文丢失、任务中断等细节上。工程上看,瓶颈已经从“模型会不会调用工具”变成“它能否在复杂环境中稳定完成任务”。

这一阶段的突破来自三个条件同时成熟:第一,多模态模型能看懂网页截图、GUI 元素和文件内容;第二,推理模型与 extended thinking 提升了长链路任务的规划能力;第三,云厂商和模型厂商开始补齐部署、权限、监控、评估、数据连接器等生产基础设施。于是 Agentic AI 的竞争焦点,从“谁的模型更聪明”转向“谁能把模型变成可控、可观测、可治理的工作系统”。

关键突破

OpenAI Operator(2025)

一句话定位:Operator 标志着通用 Web Agent 从实验室 Demo 进入官方产品形态,是“模型直接操作人类软件界面”的一次商业化试水。

核心贡献

OpenAI 在 2025 年 1 月发布 Operator 研究预览,定位为一个可以使用自己浏览器执行任务的 Agent,能够看网页、点击、输入、滚动,并处理表单填写、购物、创建内容等重复性浏览器任务;它最初面向美国 ChatGPT Pro 用户开放。其背后的 Computer-Using Agent(CUA)结合 GPT-4o 的视觉能力和强化学习得到的推理能力,被训练为理解并操作 GUI,而不是依赖站点专门开放 API。OpenAI 官方给出的关键点是:CUA 能通过截图“看见”界面,并通过鼠标键盘动作“操作”界面,从而绕开每个网站都要单独接 API 的传统集成成本。(OpenAI)

这件事的重要性不在于 Operator 当时已经完美可靠,而在于它改变了 Agent 的产品边界。过去工程师做自动化,通常要写 API 适配器、爬虫、RPA 脚本或 Selenium 流程;Operator 展示的是另一条路线:让模型直接使用人类已有的软件界面。OpenAI 公布的 CUA 评测中,它在 OSWorld、WebArena、WebVoyager 等环境取得了面向电脑/网页操作的较高成功率,但官方也明确强调它仍处在早期阶段、有局限。(OpenAI)

工程师视角

如果你在 2025 年做 Agent 应用,Operator 给你的启发不是“以后不用写工具了”,而是要重新划分自动化接口的优先级。高频、强一致、涉及钱和权限的流程,仍应优先走 API;低频、长尾、没有 API 或 API 集成成本过高的流程,可以考虑 GUI Agent。但这也带来新的工程问题:如何做人类确认、如何防止误点击、如何处理验证码和登录态、如何记录可审计轨迹、如何在失败时安全回滚。Operator 把 Agent 从“聊天窗口”推向“真实软件操作层”,也把安全、权限和审计推到了工程设计的中心。

Google Vertex AI Agent Builder / Gemini Agent(2024-2025)

一句话定位:Google 的路线代表云厂商视角的 Agent 生产化:不是只给一个 Agent 产品,而是把模型、RAG、工具、部署、监控、企业数据治理打包成平台能力。

核心贡献

Google Cloud 在 2024 年 4 月发布 Vertex AI Agent Builder,目标是帮助开发者构建和部署 enterprise-ready 的生成式 AI 体验与 Agent。它把 Vertex AI Search、Conversation、RAG API、向量搜索、函数调用、扩展工具和企业安全控制整合在一起,支持从无代码控制台到 LangChain on Vertex AI 的多种开发方式。官方特别强调 grounding:企业 Agent 不能只靠模型参数回答,而要连接企业内部数据、搜索、合同、知识库和业务系统。(Google Cloud)

到 2025 年,Google 进一步把 Agent 平台化。Google 在 Cloud Next 2025 发布 Agent Development Kit(ADK),这是一个面向多 Agent 应用的开源框架,覆盖构建、交互、评估和部署;同时,Vertex AI Agent Engine 被描述为托管运行时,用于把自定义 Agent 部署到生产环境,并提供测试、发布和可靠性能力。(Google 开发者博客)

Google 在消费端也推进 Gemini Agent / Agent Mode 与 Project Mariner。I/O 2025 上,Google 宣布 Agent Mode 作为 Gemini App 中的实验功能,用户只需描述目标,Gemini 就可以代表用户完成任务;同时 Project Mariner 的 computer use 能力被推进到 Gemini API,并计划给开发者使用。(blog.google)

工程师视角

Google 这条路线对企业工程师尤其重要。企业不是缺一个“会聊天的 Agent”,而是缺一个能接 IAM、审计、VPC、数据权限、RAG、监控、发布流程的 Agent 平台。Vertex AI Agent Builder 的价值,是把 Agent 从单个 Python 脚本提升为企业应用生命周期管理对象。对于中国开发者,这也解释了为什么腾讯元器、百度 AgentBuilder、Dify、阿里云百炼 / Model Studio 这类平台会迅速出现:真正的大规模落地,往往不是靠单模型能力,而是靠“模型 + 数据连接 + 工作流 + 权限 + 评估 + 发布”的平台化组合。腾讯元器定位为零代码智能体创建与分发平台,Dify 则把自身定义为用于构建 agentic workflow、连接工具和数据源、部署 AI 应用的平台。(腾讯元器)

Claude 4 Extended Thinking + Agentic Task(2025)

一句话定位:Claude 4 系列把 Agent 能力的重点从“能调用工具”推进到“能长时间保持目标、跨工具推理、持续执行复杂任务”。

核心贡献

Anthropic 在 2025 年 5 月发布 Claude Opus 4 和 Claude Sonnet 4,明确把 coding、advanced reasoning 和 AI agents 作为核心定位。官方强调 Claude 4 支持 extended thinking with tool use:模型可以在 extended thinking 过程中调用工具,例如 Web Search,从而在推理和工具使用之间交替;同时支持并行工具调用、更好的指令遵循,以及在开发者提供本地文件访问时改进记忆能力。(Anthropic)

Claude 4 对 Agent 生产化的关键贡献,是把“长任务执行”放到模型能力中心。Anthropic 称 Claude Opus 4 能在复杂、长时间任务和 Agent workflow 上保持持续表现,并在需要数千步骤的任务中连续工作数小时;同时 Claude Code 正式 GA,支持 GitHub Actions 后台任务、VS Code 和 JetBrains 集成。对工程师来说,这意味着 Agent 不再只是同步聊天里的临时工具调用,而开始进入异步代码修改、后台执行、跨文件重构、持续上下文维护这些真实研发场景。(Anthropic)

工程师视角

Claude 4 改变的是开发 Agent 的“时间尺度”。早期 Agent 更像一次函数调用:输入任务,调用工具,返回结果。Claude 4 之后,工程师开始考虑“任务会不会跑 30 分钟、2 小时甚至更久”。这要求系统具备 checkpoint、任务队列、状态持久化、人工审批、日志追踪和中断恢复能力。换句话说,模型变强以后,瓶颈会转移到系统架构:你不能只写一个 while loop 让 Agent 自己跑,而要像设计分布式任务系统一样设计 Agent runtime。

GAIA / SWE-bench / τ-Bench:可靠性成为核心议题(2024-2025)

一句话定位:这些 benchmark 把 Agent 评估从“回答是否聪明”推进到“任务是否真的完成、状态是否正确、行为是否稳定”。

核心贡献

GAIA 提出了一组面向通用 AI Assistant 的现实问题,要求系统具备推理、多模态处理、网页浏览和工具使用能力。论文显示,人在 GAIA 上能达到 92% 准确率,而带插件的 GPT-4 只有 15%,这揭示了一个关键事实:LLM 在很多专业考试上表现优秀,并不等于它能稳定完成普通人日常会做的综合任务。(arXiv)

SWE-bench 则把评估拉到真实软件工程场景:它包含 2294 个来自真实 GitHub issue 和 pull request 的问题,要求模型根据 issue 修改代码并通过测试。这个 benchmark 的意义在于,它不评估“写一段函数”的能力,而评估模型能否理解代码库、跨文件修改、运行测试、定位错误并生成可合并 patch。(arXiv)

τ-Bench 进一步贴近客服、零售、航空等真实业务 Agent 场景。它模拟用户与工具 Agent 的动态多轮对话,Agent 需要遵守业务规则、调用 API 工具,并让最终数据库状态与标注目标状态一致。论文还提出 pass^k 来评估多次运行的一致性,并指出即使是当时先进的 function calling agent,在部分任务上的成功率和一致性仍然不足。(arXiv)

工程师视角

这些 benchmark 让工程团队意识到:Agent 不能只看单次 demo,而要看端到端任务成功率、重试后的稳定性、工具调用正确率、最终状态一致性和违规动作率。一个客服 Agent 回答得很礼貌没有意义,关键是它有没有正确改订单;一个代码 Agent 解释得很清楚没有意义,关键是 patch 有没有通过测试;一个浏览器 Agent 看起来会点击没有意义,关键是它有没有在正确页面、正确账户、正确权限下完成动作。2024-2025 年之后,Agent 项目的验收口径开始从“生成质量”转向“任务完成质量”。

阶段总结

timeline
    title Agentic AI 走向生产(2024-2025)
    2024 : Vertex AI Agent Builder 发布,Agent 平台化开始
         : τ-Bench 提出,关注工具-用户-业务规则交互
    2025 : OpenAI Operator 发布,Web Agent 进入官方产品形态
         : Google ADK 与 Vertex AI Agent Engine 推进企业级 Agent 开发部署
         : Claude 4 发布,强化 extended thinking、工具使用与长任务执行

本阶段核心主题:Agentic AI 的主线从“模型能不能行动”变成“行动是否可靠、可控、可评估”。真正进入生产的 Agent,不只是 LLM 加工具,而是模型、工具、权限、状态、评估、监控、人工审批共同组成的复合系统。

历史意义与遗留问题

这个阶段解决了三个写进教科书的问题。第一,Agent 产品化路径被验证:Operator、Gemini Agent、Claude Code 证明大模型可以从对话框走向真实任务执行。第二,企业 Agent 平台雏形形成:Vertex AI Agent Builder、ADK、Agent Engine 说明云厂商开始把 Agent 当作生产基础设施,而不是应用层玩具。第三,Agent 评估标准开始成熟:GAIA、SWE-bench、τ-Bench 把行业注意力从“模型分数”拉回“任务成功率”。

但它也留下了更难的问题。Agent 一旦能行动,就必须面对权限边界、错误恢复、数据泄露、成本失控和责任归属。更关键的是,2025 年的 Agent 仍然缺少稳定的长期记忆、跨天任务管理、可证明的安全约束和足够高的一致性。下一阶段的核心竞争,不会只是更长上下文或更强模型,而是谁能构建真正可信赖的 Agent runtime:它能记住目标、解释动作、接受监督、失败可恢复,并在复杂组织流程中长期运行。


Sources: