跳转至

首页

学习路线图(配技能树图)

  • 通用技能主干(所有读者必过)
  • 入门阶段:LLM API 调用 → Prompt 工程 → RAG 基础
  • 进阶阶段:Function Calling / MCP → 单 Agent → Multi-Agent
  • 生产阶段:可观测性 → 成本优化 → 安全加固
  • 技能树节点说明:每节点标注预计学习时长与前置依赖
  • 通道一:工程实战快速通道(6–8 周)
  • 适合人群
    • 有 Python 基础、想尽快做出可运行 AI 产品的开发者
    • 在职工程师、产品经理、想转型 AI 应用方向的从业者
    • 参加黑客松 / 快速验证 MVP 的创业者
  • 阅读策略:优先「动手实验」节,理论部分速读后直接跑代码
  • 推荐学习路径(按周)
    • Week 1:Module 0 环境搭建 → Module 1.1 LLM 核心概念 → Module 1.3 主流 API 接入【动手:统一调用层】
    • Week 2:Module 1.2 Prompt Engineering【动手一\~三】→ Module 2.4【动手:本地知识库问答】
    • Week 3:Module 2.5 Advanced RAG【动手】→ Module 3.3【动手:接入搜索/数据库工具】
    • Week 4:Module 4.2 ReAct 实战 → Module 4.5【动手:LangGraph 有状态 Agent】
    • Week 5:Module 5.4【动手:双 Agent 代码生成审查系统】→ Module 6.1–6.3 流式输出 / 成本控制 / 缓存
    • Week 6:Module 6.6【动手:生产级 Agent 监控服务】→ Module 7 任选 1 个垂直项目完整跑通
    • Week 7–8:Module 7.5【动手:Docker + 云端部署全流程】
  • 可跳过节点(不影响主线动手实验)
    • Module 1.2.2–1.2.3 LoRA / QLoRA 数学原理精讲(了解结论即可)
    • Module 4.3 ToT / GoT 高级规划策略(生产中低频)
    • Module 8 技术演进史全文(可在学完后作背景阅读)
    • Module 9 面试题真题(实战通道暂不强制)
  • 里程碑检验
    • ✅ Week 2 结束:能独立搭建一个本地 RAG 问答系统
    • ✅ Week 4 结束:能用 LangGraph 跑通一个带工具调用的 ReAct Agent
    • ✅ Week 8 结束:有一个完整部署到云端、可公开访问的 AI Agent 项目
  • 通道二:求职面试深度通道(10–12 周)
  • 适合人群
    • 准备冲击大厂 / AI 独角兽 AI 工程师 / 算法工程师岗位的求职者
    • 已有工程经验、想系统补齐原理深度与面试表达的候选人
    • 在校研究生、想打通「学术 → 工程」链路的同学
  • 阅读策略:理论精读 + 动手实验 + 面试题集三线并进,每章留复盘时间
  • 推荐学习路径(按周)
    • Week 1–2:Module 1 全文精读(含 LoRA 原理)+ Module 9 面试题集:Prompt / LLM 原理类 全部手写答案
    • Week 3–4:Module 2 全文精读(含 RAGAS 评估体系)+ Module 9 面试题集:RAG 设计与优化类 全部手写答案
    • Week 5:Module 3 全文精读 + Module 9 面试题集:工具调用类 + 独立实现 MCP Server 动手三
    • Week 6–7:Module 4–5 全文精读(含记忆系统 / Multi-Agent 原理)+ Module 9 面试题集:Agent 架构 + 多 Agent 设计类 全部手写答案
    • Week 8:Module 6 全文精读(含安全与可观测性)+ Module 9 面试题集:工程落地类 全部手写答案
    • Week 9:Module 7 完成全部四个垂直项目(可选其中最相关的两个深做)
    • Week 10:Module 8.1–8.3 技术演进史精读 + Module 9 面试题集:技术演进与视野类 准备开放题叙述框架
    • Week 11–12:附录框架对比表背诵 + 模拟面试 2 轮(含系统设计题)
  • 面试题集使用方法(见 Module 9 面试题真题)
    • 第一遍:合上资料独立作答,限时 10 分钟 / 题
    • 第二遍:对照参考答案找差距,标注「会答但说不清楚」的知识点
    • 第三遍:对着镜头或搭档口头复述,模拟真实面试节奏
    • 高频重点标注:标注 ⭐ 的为近两年真实出现题目
  • 里程碑检验
    • ✅ Week 4 结束:能清晰口述 RAG 全流程并回答「向量检索丢失关键词怎么补救」类深度追问
    • ✅ Week 8 结束:能独立完成 45 分钟系统设计题(如「设计支持千万用户的 LLM 网关架构」)
    • ✅ Week 12 结束:能用 STAR 格式讲清楚至少 2 个完整 AI Agent 项目经历
  • 通道选择快速决策
  • 「我想 3 个月内上线一个 AI 产品」→ 工程实战快速通道
  • 「我在准备 3 个月后的大厂面试」→ 求职面试深度通道
  • 「我是在职工程师,边学边用」→ 工程通道主线 + Module 9 面试题选做
  • 「我是研究生 / 转行选手,时间充裕」→ 深度通道全量学习

环境搭建(Python / Node.js / API Keys)

  • Python 环境:pyenv + uv 包管理器配置
  • Node.js 环境:nvm + pnpm 配置
  • API Keys 获取与安全管理(.env + python-dotenv)
  • 推荐 IDE 插件清单(VS Code / Cursor + Claude Code 接入)

如何使用本资料

  • 理论 + 动手实验的配合方式说明
  • 代码仓库结构说明(monorepo 约定)
  • 本地运行 / Colab 运行两种模式切换指南

Module 1:大模型基础与 API 实战

1.1 LLM 核心概念(Token、Temperature、上下文窗口)

  • Tokenization 原理:BPE 算法与 tiktoken 实战计数
  • Temperature / Top-p / Top-k 采样策略对比与适用场景
  • 上下文窗口管理:滑动窗口与摘要压缩策略
  • 主流模型上下文长度与价格横向对比表(2026 最新版)

1.2 大模型微调实战(LoRA / QLoRA)

1.2.1 微调技术全景与选型决策

  • 为什么需要微调:Prompt Engineering / RAG / 微调 三路线适用边界对比
  • 决策维度:任务数据量 / 更新频率 / 推理成本 / 隐私要求
  • 参数高效微调(PEFT)演进路线
  • Adapter Tuning → Prefix Tuning → P-Tuning v2
  • LoRA → QLoRA → DoRA → LoRA+ 各方法核心差异一览
  • 何时选全参数微调 vs PEFT:显存墙与效果天花板的权衡

1.2.2 LoRA 原理精讲

  • 低秩分解数学直觉:为何 ΔW = BA 能近似全量更新(Hu et al., 2021, arXiv:2106.09685)
  • 关键超参解析:rank(r)/ alpha / dropout / target_modules
  • rank 选择经验:r=8 vs r=64 对不同任务的效果影响实验
  • LoRA 权重合并:训练后如何 merge 回基座模型实现零推理开销

1.2.3 QLoRA 原理精讲

  • NF4 量化:为何用 Normal Float 4-bit 而非 INT4(Dettmers et al., 2023, arXiv:2305.14314)
  • 双重量化(Double Quantization)与分页优化器
  • 显存节省量化:70B 模型在单张 A100 上可训练的原理
  • QLoRA vs LoRA 效果与速度 Benchmark 对比解读

1.2.4 数据工程:微调数据的准备与质量控制

  • 数据格式规范:Alpaca / ShareGPT / ChatML 三种主流格式对比
  • 数据量经验法则:百条精标 vs 万条弱标的质量 - 数量权衡
  • 数据清洗流水线
  • 去重:MinHash 近似去重防止过拟合
  • 质量过滤:困惑度过滤 + LLM 自动评分筛选低质样本
  • 数据增强:Self-Instruct 范式用 LLM 自动扩充指令数据
  • 合成数据:用 GPT-4 / Claude 生成高质量训练对的最佳实践

1.2.5 【动手一】用 QLoRA 微调 Qwen2.5-7B 指令模型

  • 环境搭建:transformers + peft + bitsandbytes + trl 版本锁定
  • 数据准备:构建 500 条客服对话数据集(含清洗脚本)
  • 训练配置:BitsAndBytesConfig + LoraConfig 参数详解
  • SFTTrainer 启动训练:单卡 / 多卡(DeepSpeed ZeRO-2)两种模式
  • 训练监控:Loss 曲线解读 + 过拟合早停策略
  • 模型导出:GGUF / ONNX 格式转换供 Ollama 本地部署

1.2.6 【动手二】微调效果评估与对比实验

  • 基线对比:原始基座 vs Prompt Engineering vs 微调后 三方横评
  • 自动评估:ROUGE / BERTScore / LLM-as-Judge 三种指标应用
  • 消融实验:rank 大小 / 训练轮次 / 数据量 对效果的影响曲线
  • 过拟合诊断:训练集 vs 验证集 Loss 分叉点检测与处理

1.2.7 【动手三】基于 Unsloth 的高效微调加速实战

  • Unsloth 核心优化:手写 Triton Kernel 使训练提速 2x、显存减半
  • 一键启动脚本:Llama-3 / Qwen2.5 / Mistral 通用微调模板
  • Colab 免费 T4 实战:15GB 显存跑通 7B 模型微调全流程

1.2.8 生产化部署考量

  • 多 LoRA 适配器动态切换:vLLM LoRA 热加载服务化方案
  • 持续微调(Continual Fine-tuning):新数据增量更新防灾难遗忘
  • 微调 vs RAG 动态决策:高频更新知识用 RAG、稳定风格用微调

1.3 Prompt Engineering 实战

  • 零样本 / 少样本
  • 零样本设计原则:角色设定 + 任务描述 + 输出格式三件套
  • 少样本示例选择策略:多样性 vs 相似性权衡
  • CoT(Chain of Thought)
  • 标准 CoT vs Zero-shot CoT("Let's think step by step")
  • Self-Consistency:多路 CoT 投票提升准确率
  • CoT 在数学推理 / 代码生成 / 逻辑判断上的对比实验
  • 【动手】参考《大模型基础实战-动手实践》
  • 【动手一】流式输出 + 实时思维链可视化
  • 【动手二】构建一个提示词调试器
  • 【动手三】多语言翻译质量评估器
  • 【动手四】自动化 Prompt 优化器(DSPy 入门)

1.4 主流 API 对比接入

  • 对比维度:能力、速率限制、价格、延迟、多模态支持
  • 接入清单:OpenAI / Claude / Gemini / DeepSeek / 通义千问
  • 【动手】统一封装多模型调用层
  • 基于 LiteLLM 实现统一接口与 Fallback 路由
  • 异步并发调用封装(asyncio + httpx)
  • 单元测试:Mock API 与 Cost 计算校验

Module 2:RAG(检索增强生成)

2.1 RAG 架构全景

  • Naive RAG → Advanced RAG → Modular RAG 演进路线
  • 离线阶段:文档解析 → 切块 → 向量化 → 索引
  • 在线阶段:查询理解 → 检索 → 重排 → 生成

2.2 Embedding 与向量数据库

  • Embedding 模型选型:text-embedding-3 / BGE / GTE 对比
  • 向量数据库横向对比:Chroma / Qdrant / Milvus / PGVector
  • 索引类型:HNSW vs IVF-Flat 的原理与选型建议
  • 多租户隔离与权限控制设计模式

2.3 检索策略(稠密/稀疏/混合)

  • 稠密检索:语义向量相似度(cosine / dot product)
  • 稀疏检索:BM25 关键词匹配原理与 Elasticsearch 实战
  • 混合检索:RRF 融合算法 + 权重调优策略

2.4 【动手】从零搭建本地知识库问答系统

  • 文档解析:PDF / Word / 网页的结构化提取(pypdf / markitdown)
  • 智能切块策略:固定大小 vs 语义切块 vs 章节切块对比实验
  • 本地 Embedding + Qdrant 向量库 + LLM 问答链路打通
  • 简单 Web 界面封装(Chainlit 或 Streamlit)

2.5 【动手】Advanced RAG:重排序 + 查询改写

  • 查询改写:HyDE(假设文档嵌入)与 Multi-Query 策略
  • 重排序:Cross-Encoder(BGE-Reranker)接入实战
  • 上下文压缩:LLMLingua / 摘要压缩减少无关内容
  • 对比实验:改造前后的检索准确率与端到端效果变化

2.6 RAG 评估体系(RAGAS 框架)

  • 四大核心指标:Faithfulness / Answer Relevancy / Context Precision / Context Recall 含义与计算方式
  • 构建黄金评估数据集:人工标注 vs LLM 自动生成 QA 对
  • CI 集成:每次改动自动跑 RAGAS 回归防止效果退化

Module 3:Function Calling / MCP 与工具使用

3.1 Function Calling 原理与协议

  • JSON Schema 工具定义规范与参数设计最佳实践
  • 并行工具调用(Parallel Tool Use)与串行调用的选择
  • Structured Output 与 Function Calling 的关系与区别

3.2 MCP 协议详解

  • MCP 架构:Host / Client / Server 三层模型
  • Transport 层:stdio vs HTTP+SSE 两种通信方式
  • 能力类型:Tools / Resources / Prompts 三类能力注册
  • 【动手】参考《搭建mcp_server》
  • 【动手一】:文件系统操作 MCP Server
  • 【动手二】:数据库查询 MCP Server
  • 【动手三】:代码执行沙箱 MCP Server

3.3 【动手】给 LLM 接入搜索 / 计算器 / 数据库工具

  • 搜索工具:接入 Tavily / Brave Search API
  • 代码执行工具:沙箱环境(E2B / Modal)安全执行
  • 数据库工具:Text-to-SQL 生成 + 执行 + 结果解释链路

3.4 工具可靠性与错误处理

  • 工具调用失败重试策略(指数退避 + 最大重试次数)
  • 参数验证:Pydantic 强校验 + 错误信息反馈给 LLM
  • 工具调用超时与熔断机制设计

Module 4:AI Agent 核心架构

4.1 Agent 定义:感知-规划-行动循环

  • 与传统 RPA / 规则引擎的核心区别
  • Agent 的四大核心能力:记忆、工具、规划、行动
  • Agent 可靠性问题现状:任务完成率 benchmark 解读

4.2 ReAct 范式实战

  • Thought → Action → Observation 循环机制详解
  • 从零实现一个 ReAct Agent(不依赖框架)
  • ReAct 常见失败模式:幻觉行动、死循环、过早停止

4.3 Planning 策略(ToT / GoT / Plan-and-Execute)

  • Tree of Thought:广度优先搜索与最优路径选择
  • Plan-and-Execute:先规划全局再逐步执行的分离架构
  • 动态重规划:执行结果反馈触发计划调整

4.4 记忆系统设计

  • 短期记忆(对话上下文)
  • 滑动窗口裁剪 vs 摘要压缩 vs 重要性保留策略
  • 多轮对话状态追踪与实体提取
  • 长期记忆(向量存储)
  • 记忆写入时机:何时值得记?记什么粒度?
  • 记忆检索:时间衰减权重 + 相关性混合排序
  • 外部记忆(数据库)
  • 结构化记忆:用户画像 / 任务状态存 PostgreSQL
  • 图记忆:知识图谱存 Neo4j 表达实体关系

4.5 【动手】用 LangGraph 构建有状态 Agent

  • LangGraph 核心概念:State / Node / Edge / Graph
  • 条件边(Conditional Edge)实现动态路由
  • Checkpoint 持久化:中断恢复与人工审批节点
  • 可视化调试:LangGraph Studio 本地调试工作流

Module 5:Multi-Agent 系统

5.1 多 Agent 协作模式(层级 / 对等 / 流水线)

  • 层级模式:Supervisor Agent 分发与汇总子 Agent 结果
  • 对等模式:Agent 间直接通信与共识机制
  • 流水线模式:有向无环图(DAG)任务依赖编排
  • 模式选型决策树:任务类型 → 推荐架构

5.2 AutoGen 框架实战

  • ConversableAgent 与 GroupChat 核心抽象
  • 代码执行沙箱(Docker executor)安全配置
  • Human-in-the-Loop:动态插入人工反馈节点

5.3 CrewAI 角色分工实战

  • Agent / Task / Crew 三层抽象建模
  • 角色设计最佳实践:goal + backstory 对输出质量的影响
  • Process 类型:Sequential vs Hierarchical 对比

5.4 【动手】搭建代码生成+审查的双 Agent 系统

  • Coder Agent:根据需求生成代码 + 自动运行测试
  • Reviewer Agent:静态分析 + 安全扫描 + 风格检查
  • 协作循环:Reviewer 意见反馈 → Coder 迭代修改
  • 终止条件设计:通过率阈值 vs 最大轮次保护

Module 6:生产级落地关键技术

6.1 流式输出与用户体验

  • SSE(Server-Sent Events)服务端实现(FastAPI)
  • 前端流式渲染:React + ReadableStream 接入
  • 中间过程透出:Tool Call 状态实时展示给用户

6.2 成本控制与 Token 优化

  • 请求层:Prompt 压缩 + 动态截断 + 摘要替换
  • 模型层:任务路由(复杂 → 强模型,简单 → 弱模型)
  • 监控层:按 User / Feature / Session 维度统计成本

6.3 缓存策略(Prompt Cache / Semantic Cache)

  • Prompt Cache:Claude / OpenAI 官方缓存机制原理与命中率优化
  • Semantic Cache:GPTCache / Zep 语义相似度缓存实战
  • 缓存失效策略:TTL vs 内容变更触发失效

6.4 安全与对齐(Prompt Injection 防御)

  • 攻击类型:直接注入 / 间接注入 / 越狱技巧分类
  • 防御策略:输入净化 + 特权提示隔离 + 输出验证
  • 【动手】构建一个 Prompt Injection 检测分类器

6.5 可观测性(LangSmith / LangFuse)

  • Trace 采集:完整 Agent 执行链路的 Span 记录
  • 核心指标:延迟 P99 / Token 消耗 / 工具调用成功率
  • 告警配置:异常延迟与错误率阈值触发告警

6.6 【动手】构建带监控的生产级 Agent 服务

  • 服务框架:FastAPI + 异步任务队列(Celery / ARQ)
  • 接入 LangFuse:一行代码埋点全链路 Trace
  • Grafana Dashboard:核心指标可视化大盘
  • 压测与容量规划:Locust 模拟并发 + 瓶颈定位

Module 7:垂直场景实战项目

项目一:AI 选股分析师(基于 TradingAgents)

7.1.1 项目背景与架构解读

  • TradingAgents 论文核心思想(AAAI 2025 Workshop)
  • 五类角色分工:基本面/情绪/新闻/技术分析师 + 研究员/交易员/风控经理
  • LangGraph 有状态图在本项目中的应用拆解

7.1.2 项目结构与快速开始

  • 安装配置:pip install tradingagents + API Keys 配置
  • 数据源接入:Yahoo Finance / FinnHub / Reddit API
  • 多 LLM 后端切换:OpenAI / Claude / DeepSeek / 本地 Ollama

7.1.3 核心模块精读与改造

  • Analyst Team 源码解读:工具注册与并发分析机制
  • Bull vs Bear 辩论机制:对等 Agent 博弈实现原理
  • Risk Management 三种风险偏好(激进/中性/保守)实现
  • Structured Output:Pydantic Schema 约束决策输出

7.1.4 动手实验

  • 实验一:分析 NVDA / TSLA 并解读五级评级输出
  • 实验二:接入 A 股数据源(东方财富 / AKShare)
  • 实验三:开启 Checkpoint 实现中断续跑
  • 实验四:替换 DeepSeek 为主模型对比分析质量

7.1.5 延伸思考

  • 如何评估 Agent 选股决策的质量(回测框架接入)
  • 生产化改造:定时任务 + 结果推送 + 决策日志

项目二:企业知识库智能问答

7.2.1 需求分析:多文档格式、权限隔离、引用溯源

7.2.2 文档处理流水线

  • 多格式解析:PDF / Word / PPT / 网页(markitdown)
  • 增量更新:文档变更检测与向量库差量同步

7.2.3 高质量检索层

  • 混合检索(BM25 + 向量)+ BGE-Reranker 重排
  • 权限过滤:基于 Metadata 的多租户数据隔离

7.2.4 生成与引用

  • 带段落级引用的回答生成(角注格式)
  • 置信度评估:无答案时主动拒答而非编造

7.2.5 评估与上线

  • RAGAS 评估 + 人工抽样复核双轨制
  • Chainlit 前端 + FastAPI 后端生产部署

项目三:数据分析 Agent(Text-to-SQL)

7.3.1 架构设计:NL → SQL → 执行 → 可视化完整链路

7.3.2 Schema 感知

  • 数据库元数据注入:表结构 + 字段注释 + 样例数据
  • 大规模 Schema(100+ 表)的动态检索策略

7.3.3 SQL 可靠性提升

  • 自我修正循环:执行报错 → 反馈给 LLM → 重写
  • 只读沙箱防护 + 慢查询检测

7.3.4 结果可视化

  • LLM 自动推断图表类型(柱状 / 折线 / 饼图)
  • 用 Plotly 渲染 + 摘要文字解读图表含义

项目四:自动化工作流 Agent

7.4.1 场景定义:邮件 → 任务提取 → 系统写入 → 通知

7.4.2 工具集集成

  • 通信工具:Gmail / Slack MCP Server 接入
  • 任务管理:Notion / Jira API 写入工具封装

7.4.3 触发与调度

  • 事件触发:Webhook 监听 vs 定时轮询两种模式
  • 任务队列:Celery + Redis 实现异步 Agent 调度

7.4.4 人工审批节点

  • LangGraph 中断点设计:高风险操作前暂停等待
  • 审批界面:Slack Bot 一键 Approve / Reject

项目五:AI Agent 云端生产部署全流程

7.5.1 部署架构选型与决策框架

  • 三种部署模型横向对比
  • 长驻容器(ECS / EC2):适合有状态 Agent、长任务、高并发
  • Serverless 函数(Lambda / 函数计算):适合事件触发、低频调用、成本敏感
  • 容器编排(K8s / ECS Fargate):适合弹性伸缩、多服务协作的生产级场景
  • AI Agent 的部署特殊性分析
  • 冷启动敏感:LLM 调用链路长,Lambda 冷启动代价评估
  • 执行时长限制:Lambda 15min 上限 vs Agent 长任务的冲突与解法
  • 状态持久化:无状态函数如何承载有状态 Agent(Checkpoint 外化策略)
  • 本节目标架构:以项目二「企业知识库问答」为载体,完整演示从本地到云端全链路

7.5.2 Docker 容器化

  • Dockerfile 最佳实践
  • 基础镜像选型:python:3.11-slim vs nvidia/cuda(GPU 推理场景)
  • 多阶段构建:builder 层安装依赖,runtime 层精简体积
  • 依赖锁定:uv pip compile 生成 requirements.lock 保证构建确定性
  • 非 root 用户运行:安全加固的最小权限原则
  • 环境变量与密钥管理
  • .env 文件本地开发 vs 云端 Secrets Manager 生产注入的双轨策略
  • ARG vs ENV 指令区别:构建期参数与运行期变量的正确用法
  • docker-compose 本地联调
  • 服务编排:FastAPI Agent 服务 + Qdrant 向量库 + Redis 缓存 三服务联动
  • Volume 挂载:向量索引数据持久化到宿主机目录
  • 健康检查(healthcheck):依赖服务就绪后再启动 Agent 服务
  • 【动手】构建并本地运行知识库问答 Agent 容器
  • 构建镜像:docker build + 镜像体积优化(目标 < 500MB)
  • 本地冒烟测试:curl 验证 /chat 接口全链路可用
  • 镜像推送:docker push 到 ECR(AWS)/ ACR(阿里云)私有仓库

7.5.3 AWS Lambda 无服务器部署

  • Lambda 容器镜像部署模式(区别于 ZIP 包部署)
  • 为何选容器镜像:AI Agent 依赖包普遍超过 250MB ZIP 限制
  • Lambda Web Adapter:让 FastAPI 应用无需改造直接运行在 Lambda 上
  • 冷启动优化专题
  • Provisioned Concurrency:预热实例彻底消除冷启动(成本权衡分析)
  • 镜像精简策略:移除 torch 训练依赖,仅保留推理依赖,体积从 3GB → 800MB
  • /tmp 目录缓存:将 Embedding 模型文件缓存到 /tmp 跨调用复用
  • 长任务处理方案(突破 15 分钟限制)
  • 方案一:Lambda 触发 → SQS 入队 → ECS Fargate 消费长任务
  • 方案二:Step Functions 编排多个 Lambda 函数接力执行 Agent 各阶段
  • API Gateway + Lambda 集成
  • HTTP API vs REST API 选型:AI 应用推荐 HTTP API(低延迟低成本)
  • 流式响应支持:Lambda Response Streaming 实现 SSE 流式输出
  • 自定义域名 + TLS 证书:ACM + Route53 配置生产域名
  • IAM 权限最小化配置
  • Lambda Execution Role 按需授权:仅开放 S3 读、Secrets Manager 读等必要权限
  • VPC 内网访问:Lambda 连接 RDS / ElastiCache 的私有子网配置
  • 【动手】将自动化工作流 Agent 部署到 Lambda
  • ECR 推送镜像 → Lambda 函数创建 → API Gateway 触发器配置
  • Secrets Manager 注入 OpenAI Key / Slack Token
  • CloudWatch Logs 验证执行日志与错误追踪
  • 压测验证:用 Artillery 模拟并发请求,观察 Lambda 自动扩容行为

7.5.4 阿里云函数计算(FC 3.0)部署

  • FC 3.0 核心概念映射(对照 AWS Lambda 快速上手)
  • 函数 / 触发器 / 层(Layer)与 Lambda 概念对照表
  • 自定义运行时(Custom Runtime):支持任意语言和框架的容器镜像部署
  • 国内场景特有优化
  • VPC 内网访问:函数计算连接 RDS / Redis / Qdrant(ECS 自建)走内网
  • OSS 触发器:文档上传 OSS → 自动触发知识库索引函数的事件驱动架构
  • 模型 API 路由:国内访问 OpenAI 的网络方案 vs 切换为通义千问 / DeepSeek
  • 函数层(Layer)管理依赖
  • 将 langchain / qdrant-client 等大依赖打包为 Layer 复用
  • Layer 版本管理与函数绑定:实现依赖独立升级
  • 定时触发器配置(对应项目一选股 Agent 定时运行场景)
  • Cron 表达式配置每日盘后自动触发 Agent 分析
  • 执行结果写入 OSS + 钉钉 Webhook 推送分析报告
  • 【动手】将企业知识库问答 Agent 部署到阿里云 FC
  • ACR 推送镜像 → FC 创建函数 → HTTP 触发器绑定自定义域名
  • 阿里云 KMS 密钥管理服务注入 API Key
  • SLS 日志服务:查询完整 Agent 执行 Trace
  • 弹性并发配置:预留实例数设置与按量付费的成本计算实战

7.5.5 CI/CD 自动化部署流水线

  • GitHub Actions 全流程
  • Lint + 单元测试(pytest)→ Docker Build → 推送 ECR/ACR → 部署触发
  • 多环境管理:dev / staging / prod 三套环境的分支策略(main / release)
  • OIDC 无密钥鉴权:GitHub Actions 直接获取 AWS/阿里云临时凭证,无需存储 AK/SK
  • 蓝绿部署与金丝雀发布
  • Lambda 别名(Alias)+ 流量权重:10% 流量灰度新版本
  • 自动回滚触发条件:错误率超阈值自动切回旧版本
  • 【动手】搭建从 git push 到自动上线的 5 分钟部署流水线
  • .github/workflows/deploy.yml 完整配置文件逐行解读
  • 部署通知:Slack 机器人推送「部署成功 / 失败」结果到研发频道

7.5.6 云端运行成本分析与优化

  • Lambda / FC 成本构成拆解:请求次数费 + 执行时长费 + 网络流量费
  • AI Agent 典型场景成本估算
  • 低频场景(1000次/天):Serverless 月成本估算
  • 高频场景(100万次/天):Serverless vs 长驻容器的盈亏平衡点计算
  • 降本策略清单
  • ARM 架构实例(Lambda Graviton2):同等性能成本降低 20%
  • Spot 实例:非关键任务使用 Spot 节省 60-70% 计算成本
  • LLM 调用成本:Prompt Cache 命中率优化 + 模型降级路由

Module 8:AI 大模型与 Agent 技术演进全景

8.1 大语言模型发展史:从统计模型到涌现智能

8.1.1 前深度学习时代(2000–2017)

  • N-gram 语言模型与 Word2Vec 词向量的奠基意义
  • Seq2Seq + Attention 机制的提出(Bahdanau et al., 2015, arXiv:1409.0473)
  • ELMo 动态词向量:迈向上下文感知表示(Peters et al., 2018, arXiv:1802.05365)

8.1.2 Transformer 革命(2017–2019)

  • "Attention Is All You Need":架构解析与历史地位(Vaswani et al., 2017, arXiv:1706.03762)
  • BERT:双向预训练范式开创"先预训练后微调"时代(Devlin et al., 2018, arXiv:1810.04805)
  • GPT-1/2:自回归生成路线的确立与"太危险不发布"风波(OpenAI Blog, 2019)

8.1.3 规模定律与涌现能力(2020–2022)

  • Scaling Laws:参数量 / 数据 / 算力的幂律关系(Kaplan et al., 2020, arXiv:2001.08361)
  • GPT-3(175B):少样本学习能力的震撼亮相(Brown et al., 2020, arXiv:2005.14165)
  • 涌现能力(Emergent Abilities)的发现与争议(Wei et al., 2022, arXiv:2206.07682)
  • Chinchilla 定律:重新校准最优训练算力分配比(Hoffmann et al., 2022, arXiv:2203.15556)

8.1.4 指令对齐与 RLHF 时代(2022–2023)

  • InstructGPT:RLHF 使模型"听话"的里程碑(Ouyang et al., 2022, arXiv:2203.02155)
  • ChatGPT 现象级发布:产品形态定义行业标准(2022.11)
  • GPT-4 技术报告:多模态与安全评估框架(OpenAI, 2023, arXiv:2303.08774)
  • Claude 系列:Constitutional AI 与无害性对齐新路线(Anthropic, Bai et al., 2022, arXiv:2212.08073)
  • LLaMA 开源震撼:Meta 释放可本地运行的强力底座(Touvron et al., 2023, arXiv:2302.13971)

8.1.5 开源生态爆发与长上下文竞赛(2023–2024)

  • Llama 2 / Mistral / Gemma / Qwen / DeepSeek:开源模型能力追平闭源的关键节点梳理
  • 长上下文竞赛:8K → 32K → 1M Token 背后的位置编码创新(RoPE / YaRN / ALiBi 对比)
  • MoE 架构复兴:Mixtral / DeepSeek-MoE 高效稀疏激活(Jiang et al., 2024, arXiv:2401.04088)
  • 多模态融合:GPT-4V / Gemini / LLaVA 打通视觉语言

8.1.6 推理模型范式(2024–2025)

  • OpenAI o1 / o3:慢思考(Slow Thinking)与测试时计算扩展(Test-Time Compute Scaling)
  • DeepSeek-R1:开源推理模型的突破与 GRPO 训练方法(DeepSeek, 2025, arXiv:2501.12948)
  • Claude 3.7 Sonnet:混合推理模式(快思/慢想可控切换)
  • 推理模型 vs 指令模型:适用场景的分野与成本权衡

8.2 AI Agent 发展史:从脚本自动化到自主决策系统

8.2.1 前 LLM Agent 时代(约 1960s–2022)

  • 符号 AI 与专家系统:规则驱动的"硬编码"自动化
  • 强化学习 Agent:AlphaGo / OpenAI Five 的封闭场景巅峰
  • RPA:流程固定时的工业级自动化方案与局限

8.2.2 LLM Agent 萌芽期(2022–2023)

  • ReAct:思维链与行动结合的 Agent 范式开山之作(Yao et al., 2022, arXiv:2210.03629)
  • Toolformer:模型自学习何时调用工具(Schick et al., 2023, arXiv:2302.04761)
  • AutoGPT(2023.03):第一个引发大众关注的开源 Agent,GitHub 瞬间破 10 万 Star 与其局限性复盘
  • HuggingGPT / TaskMatrix:工具调度编排的早期探索(Shen et al., 2023, arXiv:2303.04671)

8.2.3 框架与协议的规范化(2023–2024)

  • LangChain 生态崛起:Chain / Agent / Memory 抽象奠基
  • OpenAI Function Calling 发布(2023.06):工具调用从 Prompt Hack 走向原生协议
  • LangGraph(2024.01):有状态图执行引擎解决循环与分支
  • AutoGen(Microsoft, 2023):多 Agent 对话框架(Wu et al., 2023, arXiv:2308.08155)
  • CrewAI / Swarm(OpenAI):角色分工范式的工程化实践
  • MCP 协议(Anthropic, 2024.11):统一工具接入接口,结束"各自为战"时代

8.2.4 Computer Use 与 GUI Agent(2024)

  • Claude Computer Use(2024.10):直接操控桌面的开创性 API 发布
  • OS-Copilot / UFO(Microsoft):操作系统级 Agent 探索(Zhang et al., 2024, arXiv:2402.07939)
  • WebVoyager / SeeAct:纯视觉驱动网页自动化(He et al., 2024, arXiv:2401.13919)

8.2.5 Agentic AI 走向生产(2024–2025)

  • OpenAI Operator(2025.01):官方商业 Agent 产品落地
  • Google Vertex AI Agent Builder / Gemini Agent:企业级 Agent 平台的云厂商卡位战
  • Claude 4 系列 Extended Thinking + Agentic Task:长任务持久执行能力与中断恢复机制
  • Agent 可靠性成为核心议题:GAIA / SWE-Bench / τ-Bench 等 Agent Benchmark 解读

8.3 关键技术专题演进:六条技术支线的来世今生

8.3.1 上下文长度:从 512 Token 到无限流式记忆

  • 技术演进:绝对位置编码 → RoPE → ALiBi → 环形注意力
  • Mamba / SSM 架构:线性复杂度挑战 Transformer 权威(Gu & Dao, 2023, arXiv:2312.00752)
  • 大上下文不等于大利用率:Lost in the Middle 问题研究(Liu et al., 2023, arXiv:2307.03172)

8.3.2 RAG 技术演进:关键字检索到知识图谱增强

  • Naive RAG → Advanced RAG → Modular RAG 三代架构演进(Gao et al., 2023, arXiv:2312.10997)
  • GraphRAG(Microsoft, 2024):图结构知识增强推理(Edge et al., 2024, arXiv:2404.16130)
  • RAG vs 长上下文 vs 微调:三种知识注入路线的选型决策框架(成本 / 时效性 / 准确性三角权衡)

8.3.3 多模态:从 CLIP 到全模态统一模型

  • CLIP(2021)奠定视觉语言对齐基础(Radford et al., 2021, arXiv:2103.00020)
  • GPT-4o / Gemini 1.5:原生多模态 vs 后融合架构对比
  • 音视频 + 代码 + 结构数据的全模态大一统趋势研判

8.3.4 高效推理:从量化压缩到推理加速芯片生态

  • 量化技术:FP16 → INT8 → GPTQ → AWQ → 1-bit(BitNet)
  • 推测解码:草稿模型加速主模型生成吞吐
  • vLLM / TensorRT-LLM / SGLang:PagedAttention 等关键工程创新梳理

8.3.5 对齐技术:从 RLHF 到 DPO 到宪法 AI

  • RLHF → PPO → DPO → GRPO 训练范式演进与工程代价对比(Rafailov et al., 2023, arXiv:2305.18290 [DPO])
  • Constitutional AI(Anthropic):用原则替代人工偏好标注的新路线
  • 超级对齐:GPT-4 监督 GPT-4 的弱对强泛化研究(OpenAI, 2023, arXiv:2312.09390)

8.3.6 微调技术:从全参数到极低成本适配

  • Full Fine-Tuning → Adapter → Prefix Tuning → LoRA → QLoRA → DoRA 演进路线(Hu et al., 2021, arXiv:2106.09685 [LoRA])
  • 微调 vs RAG vs Prompt Engineering 三路线决策树(数据量 / 更新频率 / 成本 三维度)

8.4 各大厂商技术路线图与战略研判

  • OpenAI:从 GPT 到 AGI 的超级对齐与商业化并行路线
  • 核心押注:o 系列推理 + Operator Agent + 硬件自研
  • 开放策略转变:从 API 优先到生态闭环的战略摩擦
  • Anthropic:安全优先驱动的技术差异化
  • 核心押注:Extended Thinking + Computer Use + MCP 生态
  • Constitutional AI 与可解释性研究的长期战略布局
  • Google DeepMind:Gemini 生态与科学 AI 双线并进
  • 核心押注:原生多模态 + 长上下文 + AlphaFold 类科研 AI
  • 云端 + 端侧(Gemini Nano)的全栈部署战略
  • Meta:开源战略的战略意图与生态构建
  • LLaMA 系列开源路线:用生态遏制闭源垄断
  • FAIR 研究与产品落地的双轮驱动模式
  • 中国大模型阵营:DeepSeek / Qwen / Kimi / 文心的差异化路线
  • DeepSeek:极致成本效率(MoE + GRPO)震撼开源界
  • Qwen(阿里):多模态全栈 + 超长上下文的企业级路线
  • Kimi(月之暗面):长上下文垂直突破的产品化案例

8.5 未来演进路线图(2025–2030)

8.5.1 模型能力演进预判

  • 推理能力:Test-Time Compute Scaling 红利是否持续?
  • 世界模型:从文本预测走向因果推理与环境建模
  • 具身智能:LLM 赋能机器人控制的技术融合路径
  • 端侧大模型:1–7B 参数在手机 / 眼镜 / 汽车的部署前景

8.5.2 Agent 架构演进预判

  • 长任务持久化 Agent:多天连续执行任务的记忆与状态挑战
  • 自主学习 Agent:从执行任务到从经验中更新权重
  • Agent 互联网:跨组织 Agent 协作的身份认证与信任协议
  • 个人 AI:拥有完整用户上下文的长期陪伴型 Agent 形态

8.5.3 技术瓶颈与开放性挑战

  • 幻觉根治难题:检索增强 vs 不确定性量化 vs 神经符号融合三条路
  • 可靠性天花板:为何 Agent 任务完成率难以突破 80%?
  • 多模态推理鸿沟:视觉常识与空间推理的系统性缺陷
  • 评估体系缺失:现有 Benchmark 是否真正衡量了智能?

8.5.4 基础设施与生态演进预判

  • 推理芯片格局:NVIDIA H 系列 vs 谷歌 TPU vs Groq / Cerebras 等新架构的竞争格局
  • 推理经济学:Token 成本曲线(摩尔定律类比)与何时"AI 调用比人工更便宜"成为普遍现实
  • 开源 vs 闭源:能力差距收窄下的生态重塑

8.5.5 社会影响与监管格局

  • 欧盟 AI Act / 美国 EO / 中国《生成式 AI 管理办法》:三大监管框架对开发者的实际影响
  • AI 对劳动力市场的结构性冲击:哪些岗位先受影响?历史类比与差异分析
  • 负责任 AI 开发原则:开发者视角的伦理实践清单

Module 9:面试题真题

按题型分类整理的真实面试题目与详细解答,来源涵盖牛客 / 知乎 / Datawhale / 各大厂面经等。

原理题 — 28 题

Transformer / Attention / RoPE / KV Cache / LoRA / QLoRA / MoE / 解码策略 / RLHF / DPO / GRPO / 位置编码 / Tokenization / 词元化 / 涌现能力 / VLM / CLIP / ReAct / Function Calling / 记忆系统 / SFT / 缩放定律 / MHA-MQA-GQA / 评估体系 / Lost in the Middle / MoE

工程题 — 32 题

流式输出 / SSE vs WebSocket / 停止生成 / 长连接管理 / 熔断降级 / 模型切换 / 并发排队 / 削峰限流 / 成本控制 / 延迟排查 / 上下文爆炸 / 密钥安全 / 向量库一致性 / 大规模 RAG / RAG vs 微调 / 全链路压测 / 日志管理 / 消息防乱序 / 断点续打 / 模型量化 / 容器化部署 / K8s / GPU 调度 / 工具超时重试 / 评测体系 / Rerank / 向量距离度量 / 可观测性 / 非文本事件 / 多模型调度 / 缓存设计 / 长尾任务 / 兜底策略 / 跨服务透传 / 任务完成率 / Prompt Injection

设计题 — 20 题

微调方案设计 / Prompt 管理体系 / 可追溯 RAG / 采购审批 Agent / LLM 网关 / 内容审核系统 / 工具权限管理 / Deep Research 停止判断 / 企业知识库问答 / Text2SQL / 客服多 Agent / 运维 Agent / 低延迟 RAG / Agent 平台搭建 / 多模型服务网格 / 灾备切换 / 多语言 Prompt / 专项评估方案 / 退款处理 Agent / 成本优化

视野题 — 12 题

RAG vs 长上下文 / GRPO vs PPO / 开源 vs 闭源 / AGI 距离 / 具身智能 / Transformer vs SSM / 商业落地行业 / 多模态融合 / 创业公司技术栈 / 更强模型 vs 精巧架构 / 个性化隐私安全 / 数据瓶颈与合成数据

开放题 — 10 题

Agent 可信差距 / 学习路径建议 / Agent 工程师素质 / 最大瓶颈 / 个人知识管理 Agent / 颠覆性应用行业 / 合成数据角色 / RAG-微调-提示词决策 / 隐私安全实践 / Transformer 架构未来

附录

A. 主流框架横向对比

  • 对比维度:学习曲线 / 生产成熟度 / 社区活跃度 / 多 Agent 支持 / 可观测性集成 / License
  • 覆盖框架:LangChain / LangGraph / LlamaIndex / AutoGen / CrewAI / Semantic Kernel / Dify / Flowise

B. 学习资源导航

  • 必读论文清单(附 arXiv 链接 + 一句话摘要)
  • 优质开源项目推荐(附 GitHub Star 与适用场景)
  • 持续跟进渠道:Newsletter / X 账号 / Discord 社区

C. 术语表

  • 中英文对照索引(含首次出现章节标注)
  • 缩写速查:RAG / CoT / ReAct / MCP / RLHF / SFT …