跳转至

LLM Agent 萌芽期(2022-2023)

8.2.2 LLM Agent 萌芽期(2022-2023)

时代背景

2022 年以前,AI 自动化主要有两条路线:一条是 RPA / 规则引擎,稳定但只能处理流程固定的任务;另一条是强化学习 Agent,在游戏、机器人仿真等封闭环境中表现突出,但迁移到真实业务系统成本极高。ChatGPT 在 2022 年 11 月发布后,开发者第一次看到一个通用语言模型可以稳定理解自然语言任务、补全步骤、解释错误,并以对话方式持续迭代;GPT-4 在 2023 年 3 月发布后,模型在复杂指令理解、代码生成和多步骤推理上的可用性进一步提高。这个阶段的核心瓶颈不再是“模型能不能回答问题”,而是“模型能不能把回答变成行动”:访问网页、调用 API、读写文件、选择工具、观察结果并继续修正。LLM Agent 的萌芽,本质上就是把 LLM 从 Chatbot 推向 Controller:它不再只是生成文本,而是成为调度外部工具和执行环境的中枢。(OpenAI)


关键突破

ReAct(2022)

一句话定位:ReAct 是 LLM Agent 范式的开山之作,它把 Chain-of-Thought 的“思考”与工具/环境交互的“行动”合并成一个循环。

核心贡献

ReAct 解决的是早期 CoT 的一个关键痛点:模型可以写出看似合理的推理链,但如果中间事实错了,后续推理会沿着错误一路扩散。ReAct 的做法不是让模型一次性想完,而是让它交替生成 Thought、Action、Observation:先推理当前该做什么,再调用外部环境获取证据,然后根据观察结果继续更新计划。论文在 HotpotQA、FEVER、ALFWorld、WebShop 等任务上验证了这种范式,并指出 ReAct 可以通过 Wikipedia API 等外部信息源缓解幻觉和错误传播问题。(arXiv)

技术上,ReAct 的创新并不复杂,但工程意义极大:它把 Agent 的执行轨迹显式化了。过去 Prompt 只是输入输出;ReAct 之后,开发者开始关心中间过程:模型为什么调用这个工具?参数是什么?工具返回后模型如何调整?这直接影响了后来 LangChain Agent、LangGraph、AutoGen 等框架的基本抽象。

工程师视角

如果你是 2022 年的工程师,ReAct 改变的是调试方式。你不再只看最终答案,而是看完整轨迹:哪一步 Thought 偏了、哪个 Action 参数错了、Observation 有没有被正确吸收。它也让“工具调用”从 Prompt Hack 变成可设计的工作流。常见实践是给模型少量示例,让它学习“遇到不确定事实先查工具,而不是硬编”;这也是后来生产级 Agent 可观测性、Trace、Step Replay 的源头。

📄 原始论文:Yao et al., 2022, arXiv:2210.03629。(arXiv)


Toolformer(2023)

一句话定位:Toolformer 证明了模型不仅可以被提示去调用工具,还可以通过自监督数据学习“何时调用、调用什么、如何使用结果”。

核心贡献

ReAct 更偏 Prompting 范式:人通过示例教模型怎么思考和行动。Toolformer 进一步提出一个训练问题:能否让语言模型自己学会插入 API 调用?它关注的是 LLM 的结构性短板,例如算术、事实查询、翻译、日历查询等任务,传统小工具往往比大模型更可靠。Toolformer 用少量工具调用示例引导模型在大规模文本中自动标注潜在 API 调用位置,再通过筛选保留能降低语言建模损失的调用样本,最终训练模型学会调用 calculator、search engine、QA system、translation system、calendar 等工具。(arXiv)

这项工作的历史意义在于,它把“工具使用”从手写规则推进到模型能力的一部分。它隐含了一个重要判断:未来的强模型不一定要把所有能力都压进参数里,而应学会在合适时机调用外部系统。这个判断后来影响了 Function Calling、Tool Use、MCP 等协议化方向。

工程师视角

Toolformer 给工程师的启发是:工具调用质量不只取决于工具本身,还取决于模型是否理解工具边界。生产中最常见的问题不是“有没有搜索工具”,而是模型在不该搜时乱搜、该搜时不搜、参数拼错、拿到结果后不会用。Toolformer 提醒我们,工具描述、调用样例、返回格式、失败反馈都应该被当成训练数据或高质量 Prompt 资产管理,而不是随手写在系统提示词里。

📄 原始论文:Schick et al., 2023, arXiv:2302.04761。(arXiv)


AutoGPT(2023.03)

一句话定位:AutoGPT 是第一个让大众和开发者同时感受到“自主 Agent”想象力的开源项目。

核心贡献

AutoGPT 于 2023 年 3 月 30 日发布,它的核心思路很直接:用户给一个高层目标,系统让 GPT-4 自己拆解任务、生成子目标、调用工具、保存记忆,并循环推进。与 ReAct 和 Toolformer 主要停留在论文实验不同,AutoGPT 把 Agent 做成了一个能跑的开源应用:Web 搜索、文件读写、代码执行、长期记忆、任务队列,这些能力被包装成“给它一个目标,它自己干活”的体验。IBM 对 AutoGPT 的介绍也指出,它区别于需要用户连续提示的 ChatGPT,目标是自动化原本需要多轮人工提示的项目。(ibm.com)

但 AutoGPT 的真正价值不在于它当时有多可靠,而在于它暴露了 Agent 的核心工程难题:循环失控、目标漂移、工具误用、成本不可控、上下文不断膨胀、缺少人工审批。它一边把 GitHub 社区热情推到高点,一边也让工程界意识到:只靠一个 while loop 加 GPT-4,并不能得到可靠的生产系统。关于其迅速获得超过 10 万 GitHub stars 的说法,公开资料多用“数周到数月内”描述,具体天数不同来源表述不一,应避免写成严格事实。(Rentelligence)

工程师视角

AutoGPT 改变的是产品原型方式。以前做 AI 应用,多数是“用户问、模型答”;AutoGPT 之后,很多团队开始尝试“用户给目标、系统执行任务”。但它也给工程师上了一课:Agent 必须有边界。生产环境不能让模型无限循环调用付费 API,也不能让它未经确认写文件、发邮件、下单或改数据库。因此,后来的 Human-in-the-Loop、权限系统、执行预算、最大步数、工具白名单,本质上都是对 AutoGPT 式自主性的工程约束。


HuggingGPT / TaskMatrix.AI(2023)

一句话定位:HuggingGPT 和 TaskMatrix.AI 把 LLM Agent 从“自己执行任务”推进到“调度一组专用模型/API 共同完成任务”。

核心贡献

HuggingGPT 的问题意识是:单个 LLM 即使很强,也不可能擅长所有模态和专业任务;但 Hugging Face 社区已经有大量视觉、语音、文本、生成类模型。它让 ChatGPT 扮演控制器:理解用户请求,规划子任务,根据模型描述选择 Hugging Face 上的专用模型,执行后汇总结果。这是早期“LLM as Controller”的典型方案,也预示了后来的多模态 Agent 和模型路由系统。需要注意,HuggingGPT 的准确 arXiv 编号是 2303.17580。(arXiv)

TaskMatrix.AI 则更像一篇生态蓝图论文。它提出用 foundation model 作为“大脑”,连接大量 API、模型和系统作为“工具层”,完成数字世界甚至物理世界中的复杂任务。与 HuggingGPT 偏模型社区调度不同,TaskMatrix.AI 更强调 API 生态、任务规划、接口匹配和执行反馈。它指出基础模型能生成高层方案,但专业任务仍需要外部系统补足,这正是后来 MCP、插件系统、企业工具连接器的思想源头之一。(arXiv)

工程师视角

这两项工作改变的是系统架构想象。工程师开始把 LLM 放在“编排层”,而不是“能力层”的唯一来源。一个企业 Agent 不必让模型自己会 OCR、SQL、图片生成、代码执行、权限判断;更合理的方式是让 LLM 做任务拆解和工具选择,把确定性、专业性、可审计性要求高的部分交给专用服务。对中国开发者尤其相关的是,这种架构天然适合国内多模型、多云、多 API 的环境:可以用 Qwen、DeepSeek、Kimi 等模型做不同任务路由,也可以把企业内部系统、钉钉/飞书、知识库、数据库封装成工具接入。

📄 原始论文:Shen et al., 2023, arXiv:2303.17580;Liang et al., 2023, arXiv:2303.16434。(arXiv)


阶段总结

timeline
    title LLM Agent 萌芽期(2022-2023)
    2022 : ReAct 提出 Thought-Action-Observation 循环
    2023 : Toolformer 探索模型自监督学习工具调用
    2023 : AutoGPT 引爆开源自主 Agent 热潮
    2023 : HuggingGPT / TaskMatrix.AI 探索 LLM 调度模型与 API 生态

本阶段核心主题:LLM Agent 的关键转变,是把大模型从“生成答案的模型”变成“驱动行动的控制器”。ReAct 解决了推理与行动如何交替,Toolformer 讨论工具调用能否内化为模型能力,AutoGPT 证明了自主循环的产品想象力,而 HuggingGPT / TaskMatrix.AI 则把 Agent 推向工具生态和多模型编排。


历史意义与遗留问题

这个阶段解决了三个写进教科书的问题。第一,Agent 的最小闭环被定义出来:理解目标、规划步骤、调用工具、观察结果、继续迭代。第二,工具不再是外围脚本,而成为 LLM 能力边界的一部分。第三,LLM 在系统架构中的角色发生变化:它可以是 Controller、Planner、Router,而不只是 Chatbot。

但它也留下了下一阶段必须解决的新问题:Agent 执行过程不稳定,容易循环、幻觉和越权;工具接口缺少统一协议,不同框架各自定义格式;多 Agent 和多工具系统缺少可靠的状态管理、权限控制与可观测性。因此,2023-2024 年的主线自然转向框架化和协议化:LangChain、OpenAI Function Calling、LangGraph、AutoGen、CrewAI、MCP 等开始出现,目标不是再证明 Agent “能动起来”,而是让它“可控、可测、可上线”。


Sources: