前 LLM Agent 时代（约1960s-2022）

8.2.1 前 LLM Agent 时代（约 1960s-2022）

本节在整体演进史中的位置：上一节 8.1 讲的是大模型能力如何从语言建模走向通用智能接口；本节切换到 Agent 视角：在 LLM 出现之前，业界已经长期尝试让机器”感知环境、制定计划、执行动作”。本阶段的核心结论是：前 LLM Agent 并不缺执行能力，缺的是开放世界中的语言理解、泛化推理与自我纠错能力，这正好引出 2022-2023 年 ReAct、Toolformer、AutoGPT 等 LLM Agent 的萌芽。

时代背景

在 LLM Agent 之前，AI Agent 的主战场不是聊天窗口，而是三个相对封闭的环境：实验室机器人、棋类/游戏环境、企业软件流程。它们共同面对的问题是：如何让机器在明确目标下选择动作。早期算力弱、数据少、感知能力有限，因此最自然的方案是把专家知识写成规则，把环境抽象成符号状态，再用搜索或规划算法求解。后来 GPU、深度学习和大规模仿真环境成熟，强化学习开始把“手写规则”替换为“从交互中学习策略”。企业侧则走向另一条路线：RPA 不追求智能推理，而是把人类在 ERP、CRM、Excel、网页后台里的重复点击和录入固化为可审计脚本。这个阶段的底层逻辑很清楚：只要环境足够封闭，Agent 可以很强；一旦进入开放语言、开放网页、开放业务流程，脆弱性就会暴露。

关键突破

符号 AI 与专家系统（1960s-1980s）

一句话定位：专家系统是第一代可落地的“知识驱动 Agent”，把专家经验从人脑搬进规则库。

核心贡献：DENDRAL 被广泛视为早期专家系统代表，它把有机化学家的质谱分析经验编码成启发式规则，用于辅助推断未知分子结构；MYCIN 则把感染病诊疗知识写成约 350 条生产规则，并引入 certainty factor 处理不确定性。它们解决的是早期 AI 的一个核心痛点：通用推理太难，不如先把问题限定在一个专业领域，用高质量领域知识换取可靠输出。(Massachusetts Institute of Technology)

工程师视角：如果你是当时的工程师，日常工作会从“写通用智能程序”变成“和专家一起做知识工程”：访谈专家、抽取规则、维护规则冲突、补充异常 case。这很像今天做企业知识库或工作流自动化时的 SOP 建模，只不过当时没有 Embedding、没有 LLM，所有知识都要人工结构化。

📄 代表文献：Lindsay, Buchanan, Feigenbaum & Lederberg, 1993, Artificial Intelligence 61, “DENDRAL: a case study of the first expert system for scientific hypothesis formation”。

Shakey 与 STRIPS（1966-1972 / 1971）

一句话定位：Shakey 是早期“感知-规划-行动”Agent 的原型，STRIPS 则奠定了经典自动规划的工程表达方式。

核心贡献：Shakey 由 SRI 在 1966-1972 年开发，被 Computer History Museum 描述为第一台能对自身行动进行推理的移动机器人；它能在房间、箱子、斜坡等简化环境中感知、规划并移动。STRIPS 的关键价值是把世界状态表示为谓词，把动作表示为前置条件和效果，然后搜索一组动作序列使目标成立。(CHM)

工程师视角：这改变了“机器人编程”的抽象层级。你不再只写 move_forward()、turn_left() 这种底层指令，而是描述“当前状态、目标状态、动作约束”，由规划器生成执行序列。今天 LangGraph、工作流编排、Agent planning 中的 State / Action / Transition，其实都能看到这条思想脉络。

📄 原始论文：Fikes & Nilsson, 1971, Artificial Intelligence, “STRIPS: A New Approach to the Application of Theorem Proving to Problem Solving”。

Deep Blue 到深度强化学习 Agent（1997-2015）

一句话定位：游戏成为 Agent 研究的理想沙盒，因为状态、动作、奖励都足够清晰。

核心贡献：Deep Blue 在 1997 年击败 Garry Kasparov，代表搜索、评估函数、专家调参在棋类封闭环境中的巅峰；但它仍然严重依赖手工特征和领域工程。2015 年 DeepMind 的 DQN 进一步推进到“从像素输入直接学习动作策略”，在 Atari 游戏上展示了端到端强化学习 Agent 的可行性。(ibm.com)

工程师视角：这时工程重点从“写规则”转向“搭训练环境”：定义 observation、action space、reward、episode reset、并行采样和模型评估。Agent 不再只是执行器，而变成一个可以通过 trial-and-error 优化策略的系统。但代价也很明显：奖励设计稍有偏差，Agent 就会学到投机行为；环境一变，泛化能力急剧下降。

AlphaGo / AlphaZero / OpenAI Five（2016-2019）

一句话定位：强化学习 Agent 在封闭复杂环境中达到超人水平，但也暴露出对仿真、算力和明确奖励的强依赖。

核心贡献：AlphaGo 将深度神经网络、监督学习、人类棋谱、自我博弈强化学习和 Monte Carlo Tree Search 结合，解决了围棋巨大搜索空间下传统暴力搜索难以奏效的问题。AlphaZero 进一步弱化人类先验，仅依赖规则和自我博弈，在国际象棋、日本将棋、围棋中达到超人水平。OpenAI Five 则把多智能体强化学习推到 Dota 2 这种长时序、不完全信息、连续动作空间的复杂环境中，并在 2019 年击败世界冠军队伍 OG。(Nature)

工程师视角：这类系统让大家看到 Agent 可以通过大规模自我博弈形成策略，但它并不适合直接迁移到企业应用。原因很现实：企业流程没有无限可重置的仿真环境，奖励函数也不像“赢棋/输棋”那样清晰。你很难让一个采购 Agent 试错一百万次，因为每次错误都可能造成真实损失。

📄 原始论文：Silver et al., 2017, arXiv:1712.01815。
📄 原始论文：OpenAI et al., 2019, arXiv:1912.06680。

RPA：企业软件里的“低智能 Agent”（2012-2022）

一句话定位：RPA 是前 LLM 时代企业侧最成功的自动化 Agent 形态，核心不是推理，而是稳定复现人类操作。

核心贡献：Blue Prism 称其在 2012 年提出 Robotic Process Automation 这一术语；Gartner 对 RPA 的描述也很典型：通过编排 UI 交互来模拟人类完成交易步骤。它解决的是企业系统割裂、API 不完善、人工重复录入成本高的问题。RPA 不要求系统理解业务语义，只要流程稳定、页面结构稳定、异常分支少，就能快速产生 ROI。(SS&C Blue Prism)

工程师视角：RPA 把自动化从研发团队下放到业务团队：财务对账、发票录入、报表下载、HR 信息同步，都可以由“软件机器人”执行。但它的坑也很典型：页面按钮位置变了、验证码出现了、字段含义变了，Bot 就会失效。因此中国企业在 2018 年后推动 RPA+AI，常把 OCR、IDP、NLP 与 RPA 结合，用来处理票据、合同、客服工单等半结构化场景；来也、弘玑 Cyclone 等国产厂商也在 2021-2022 年进入 Gartner RPA 相关评价体系。(Laiye)

阶段总结

timeline
    title 前 LLM Agent 时代（约 1960s-2022）
    1960s : DENDRAL 等专家系统兴起，知识工程成为主线
    1971 : STRIPS 提出状态-动作-目标的自动规划范式
    1997 : Deep Blue 击败 Kasparov，搜索与专家特征达到棋类巅峰
    2015 : DQN 展示从高维感知输入到动作策略的端到端强化学习
    2016 : AlphaGo 结合深度网络、自我博弈与树搜索击败顶级围棋选手
    2019 : OpenAI Five 在 Dota 2 中验证大规模多 Agent 强化学习
    2012-2022 : RPA 在企业流程自动化中规模化落地

本阶段核心主题：前 LLM Agent 的成功都建立在“封闭世界假设”上：规则清晰、状态可枚举、奖励可定义、异常可穷举。符号 AI 证明了知识可以驱动行动，强化学习证明了策略可以从交互中学习，RPA 证明了自动化可以在企业流程中产生商业价值。但三者共同的短板是：面对开放语言、模糊目标、跨系统协作和动态异常时，系统缺少真正的语义理解与泛化能力。

历史意义与遗留问题

这个阶段解决了三个写进教科书的问题：第一，Agent 不只是模型输出，而是目标、状态、动作和反馈组成的闭环；第二，在封闭环境中，搜索、规划、规则和强化学习都能达到极高可靠性；第三，企业自动化不必等待 AGI，RPA 证明“低智能、高确定性”的自动化也能创造巨大价值。

但它也留下了下一阶段必须解决的问题：规则系统维护成本高，强化学习依赖昂贵仿真和清晰奖励，RPA 缺少语义理解与异常恢复能力。2022 年之后，LLM 的出现提供了新的接口层：用自然语言理解任务，用工具调用连接外部系统，用 ReAct 把推理和行动串起来。也正是这些能力，使 Agent 从“封闭环境里的策略机器”开始走向“开放任务中的协作执行者”。

Sources: