首页

学习路线图（配技能树图）

通用技能主干（所有读者必过）
入门阶段：LLM API 调用 → Prompt 工程 → RAG 基础
进阶阶段：Function Calling / MCP → 单 Agent → Multi-Agent
生产阶段：可观测性 → 成本优化 → 安全加固
技能树节点说明：每节点标注预计学习时长与前置依赖
通道一：工程实战快速通道（6–8 周）
适合人群
- 有 Python 基础、想尽快做出可运行 AI 产品的开发者
- 在职工程师、产品经理、想转型 AI 应用方向的从业者
- 参加黑客松 / 快速验证 MVP 的创业者
阅读策略：优先「动手实验」节，理论部分速读后直接跑代码
推荐学习路径（按周）
- Week 1：Module 0 环境搭建 → Module 1.1 LLM 核心概念 → Module 1.3 主流 API 接入【动手：统一调用层】
- Week 2：Module 1.2 Prompt Engineering【动手一\~三】→ Module 2.4【动手：本地知识库问答】
- Week 3：Module 2.5 Advanced RAG【动手】→ Module 3.3【动手：接入搜索/数据库工具】
- Week 4：Module 4.2 ReAct 实战 → Module 4.5【动手：LangGraph 有状态 Agent】
- Week 5：Module 5.4【动手：双 Agent 代码生成审查系统】→ Module 6.1–6.3 流式输出 / 成本控制 / 缓存
- Week 6：Module 6.6【动手：生产级 Agent 监控服务】→ Module 7 任选 1 个垂直项目完整跑通
- Week 7–8：Module 7.5【动手：Docker + 云端部署全流程】
可跳过节点（不影响主线动手实验）
- Module 1.2.2–1.2.3 LoRA / QLoRA 数学原理精讲（了解结论即可）
- Module 4.3 ToT / GoT 高级规划策略（生产中低频）
- Module 8 技术演进史全文（可在学完后作背景阅读）
- Module 9 面试题真题（实战通道暂不强制）
里程碑检验
- ✅ Week 2 结束：能独立搭建一个本地 RAG 问答系统
- ✅ Week 4 结束：能用 LangGraph 跑通一个带工具调用的 ReAct Agent
- ✅ Week 8 结束：有一个完整部署到云端、可公开访问的 AI Agent 项目
通道二：求职面试深度通道（10–12 周）
适合人群
- 准备冲击大厂 / AI 独角兽 AI 工程师 / 算法工程师岗位的求职者
- 已有工程经验、想系统补齐原理深度与面试表达的候选人
- 在校研究生、想打通「学术 → 工程」链路的同学
阅读策略：理论精读 + 动手实验 + 面试题集三线并进，每章留复盘时间
推荐学习路径（按周）
- Week 1–2：Module 1 全文精读（含 LoRA 原理）+ Module 9 面试题集：Prompt / LLM 原理类全部手写答案
- Week 3–4：Module 2 全文精读（含 RAGAS 评估体系）+ Module 9 面试题集：RAG 设计与优化类全部手写答案
- Week 5：Module 3 全文精读 + Module 9 面试题集：工具调用类 + 独立实现 MCP Server 动手三
- Week 6–7：Module 4–5 全文精读（含记忆系统 / Multi-Agent 原理）+ Module 9 面试题集：Agent 架构 + 多 Agent 设计类全部手写答案
- Week 8：Module 6 全文精读（含安全与可观测性）+ Module 9 面试题集：工程落地类全部手写答案
- Week 9：Module 7 完成全部四个垂直项目（可选其中最相关的两个深做）
- Week 10：Module 8.1–8.3 技术演进史精读 + Module 9 面试题集：技术演进与视野类准备开放题叙述框架
- Week 11–12：附录框架对比表背诵 + 模拟面试 2 轮（含系统设计题）
面试题集使用方法（见 Module 9 面试题真题）
- 第一遍：合上资料独立作答，限时 10 分钟 / 题
- 第二遍：对照参考答案找差距，标注「会答但说不清楚」的知识点
- 第三遍：对着镜头或搭档口头复述，模拟真实面试节奏
- 高频重点标注：标注 ⭐ 的为近两年真实出现题目
里程碑检验
- ✅ Week 4 结束：能清晰口述 RAG 全流程并回答「向量检索丢失关键词怎么补救」类深度追问
- ✅ Week 8 结束：能独立完成 45 分钟系统设计题（如「设计支持千万用户的 LLM 网关架构」）
- ✅ Week 12 结束：能用 STAR 格式讲清楚至少 2 个完整 AI Agent 项目经历
通道选择快速决策
「我想 3 个月内上线一个 AI 产品」→ 工程实战快速通道
「我在准备 3 个月后的大厂面试」→ 求职面试深度通道
「我是在职工程师，边学边用」→ 工程通道主线 + Module 9 面试题选做
「我是研究生 / 转行选手，时间充裕」→ 深度通道全量学习

环境搭建（Python / Node.js / API Keys）

Python 环境：pyenv + uv 包管理器配置
Node.js 环境：nvm + pnpm 配置
API Keys 获取与安全管理（.env + python-dotenv）
推荐 IDE 插件清单（VS Code / Cursor + Claude Code 接入）

如何使用本资料

理论 + 动手实验的配合方式说明
代码仓库结构说明（monorepo 约定）
本地运行 / Colab 运行两种模式切换指南

Module 1：大模型基础与 API 实战

1.1 LLM 核心概念（Token、Temperature、上下文窗口）

Tokenization 原理：BPE 算法与 tiktoken 实战计数
Temperature / Top-p / Top-k 采样策略对比与适用场景
上下文窗口管理：滑动窗口与摘要压缩策略
主流模型上下文长度与价格横向对比表（2026 最新版）

1.2 大模型微调实战（LoRA / QLoRA）

1.2.1 微调技术全景与选型决策

为什么需要微调：Prompt Engineering / RAG / 微调三路线适用边界对比
决策维度：任务数据量 / 更新频率 / 推理成本 / 隐私要求
参数高效微调（PEFT）演进路线
Adapter Tuning → Prefix Tuning → P-Tuning v2
LoRA → QLoRA → DoRA → LoRA+ 各方法核心差异一览
何时选全参数微调 vs PEFT：显存墙与效果天花板的权衡

1.2.2 LoRA 原理精讲

低秩分解数学直觉：为何 ΔW = BA 能近似全量更新（Hu et al., 2021, arXiv:2106.09685）
关键超参解析：rank（r）/ alpha / dropout / target_modules
rank 选择经验：r=8 vs r=64 对不同任务的效果影响实验
LoRA 权重合并：训练后如何 merge 回基座模型实现零推理开销

1.2.3 QLoRA 原理精讲

NF4 量化：为何用 Normal Float 4-bit 而非 INT4（Dettmers et al., 2023, arXiv:2305.14314）
双重量化（Double Quantization）与分页优化器
显存节省量化：70B 模型在单张 A100 上可训练的原理
QLoRA vs LoRA 效果与速度 Benchmark 对比解读

1.2.4 数据工程：微调数据的准备与质量控制

数据格式规范：Alpaca / ShareGPT / ChatML 三种主流格式对比
数据量经验法则：百条精标 vs 万条弱标的质量 - 数量权衡
数据清洗流水线
去重：MinHash 近似去重防止过拟合
质量过滤：困惑度过滤 + LLM 自动评分筛选低质样本
数据增强：Self-Instruct 范式用 LLM 自动扩充指令数据
合成数据：用 GPT-4 / Claude 生成高质量训练对的最佳实践

1.2.5 【动手一】用 QLoRA 微调 Qwen2.5-7B 指令模型

环境搭建：transformers + peft + bitsandbytes + trl 版本锁定
数据准备：构建 500 条客服对话数据集（含清洗脚本）
训练配置：BitsAndBytesConfig + LoraConfig 参数详解
SFTTrainer 启动训练：单卡 / 多卡（DeepSpeed ZeRO-2）两种模式
训练监控：Loss 曲线解读 + 过拟合早停策略
模型导出：GGUF / ONNX 格式转换供 Ollama 本地部署

1.2.6 【动手二】微调效果评估与对比实验

基线对比：原始基座 vs Prompt Engineering vs 微调后三方横评
自动评估：ROUGE / BERTScore / LLM-as-Judge 三种指标应用
消融实验：rank 大小 / 训练轮次 / 数据量对效果的影响曲线
过拟合诊断：训练集 vs 验证集 Loss 分叉点检测与处理

1.2.7 【动手三】基于 Unsloth 的高效微调加速实战

Unsloth 核心优化：手写 Triton Kernel 使训练提速 2x、显存减半
一键启动脚本：Llama-3 / Qwen2.5 / Mistral 通用微调模板
Colab 免费 T4 实战：15GB 显存跑通 7B 模型微调全流程

1.2.8 生产化部署考量

多 LoRA 适配器动态切换：vLLM LoRA 热加载服务化方案
持续微调（Continual Fine-tuning）：新数据增量更新防灾难遗忘
微调 vs RAG 动态决策：高频更新知识用 RAG、稳定风格用微调

1.3 Prompt Engineering 实战

零样本 / 少样本
零样本设计原则：角色设定 + 任务描述 + 输出格式三件套
少样本示例选择策略：多样性 vs 相似性权衡
CoT（Chain of Thought）
标准 CoT vs Zero-shot CoT（"Let's think step by step"）
Self-Consistency：多路 CoT 投票提升准确率
CoT 在数学推理 / 代码生成 / 逻辑判断上的对比实验
【动手】参考《大模型基础实战-动手实践》
【动手一】流式输出 + 实时思维链可视化
【动手二】构建一个提示词调试器
【动手三】多语言翻译质量评估器
【动手四】自动化 Prompt 优化器（DSPy 入门）

1.4 主流 API 对比接入

对比维度：能力、速率限制、价格、延迟、多模态支持
接入清单：OpenAI / Claude / Gemini / DeepSeek / 通义千问
【动手】统一封装多模型调用层
基于 LiteLLM 实现统一接口与 Fallback 路由
异步并发调用封装（asyncio + httpx）
单元测试：Mock API 与 Cost 计算校验

Module 2：RAG（检索增强生成）

2.1 RAG 架构全景

Naive RAG → Advanced RAG → Modular RAG 演进路线
离线阶段：文档解析 → 切块 → 向量化 → 索引
在线阶段：查询理解 → 检索 → 重排 → 生成

2.2 Embedding 与向量数据库

Embedding 模型选型：text-embedding-3 / BGE / GTE 对比
向量数据库横向对比：Chroma / Qdrant / Milvus / PGVector
索引类型：HNSW vs IVF-Flat 的原理与选型建议
多租户隔离与权限控制设计模式

2.3 检索策略（稠密/稀疏/混合）

稠密检索：语义向量相似度（cosine / dot product）
稀疏检索：BM25 关键词匹配原理与 Elasticsearch 实战
混合检索：RRF 融合算法 + 权重调优策略

2.4 【动手】从零搭建本地知识库问答系统

文档解析：PDF / Word / 网页的结构化提取（pypdf / markitdown）
智能切块策略：固定大小 vs 语义切块 vs 章节切块对比实验
本地 Embedding + Qdrant 向量库 + LLM 问答链路打通
简单 Web 界面封装（Chainlit 或 Streamlit）

2.5 【动手】Advanced RAG：重排序 + 查询改写

查询改写：HyDE（假设文档嵌入）与 Multi-Query 策略
重排序：Cross-Encoder（BGE-Reranker）接入实战
上下文压缩：LLMLingua / 摘要压缩减少无关内容
对比实验：改造前后的检索准确率与端到端效果变化

2.6 RAG 评估体系（RAGAS 框架）

四大核心指标：Faithfulness / Answer Relevancy / Context Precision / Context Recall 含义与计算方式
构建黄金评估数据集：人工标注 vs LLM 自动生成 QA 对
CI 集成：每次改动自动跑 RAGAS 回归防止效果退化

Module 3：Function Calling / MCP 与工具使用

3.1 Function Calling 原理与协议

JSON Schema 工具定义规范与参数设计最佳实践
并行工具调用（Parallel Tool Use）与串行调用的选择
Structured Output 与 Function Calling 的关系与区别

3.2 MCP 协议详解

MCP 架构：Host / Client / Server 三层模型
Transport 层：stdio vs HTTP+SSE 两种通信方式
能力类型：Tools / Resources / Prompts 三类能力注册
【动手】参考《搭建mcp_server》
【动手一】：文件系统操作 MCP Server
【动手二】：数据库查询 MCP Server
【动手三】：代码执行沙箱 MCP Server

3.3 【动手】给 LLM 接入搜索 / 计算器 / 数据库工具

搜索工具：接入 Tavily / Brave Search API
代码执行工具：沙箱环境（E2B / Modal）安全执行
数据库工具：Text-to-SQL 生成 + 执行 + 结果解释链路

3.4 工具可靠性与错误处理

工具调用失败重试策略（指数退避 + 最大重试次数）
参数验证：Pydantic 强校验 + 错误信息反馈给 LLM
工具调用超时与熔断机制设计

Module 4：AI Agent 核心架构

4.1 Agent 定义：感知-规划-行动循环

与传统 RPA / 规则引擎的核心区别
Agent 的四大核心能力：记忆、工具、规划、行动
Agent 可靠性问题现状：任务完成率 benchmark 解读

4.2 ReAct 范式实战

Thought → Action → Observation 循环机制详解
从零实现一个 ReAct Agent（不依赖框架）
ReAct 常见失败模式：幻觉行动、死循环、过早停止

4.3 Planning 策略（ToT / GoT / Plan-and-Execute）

Tree of Thought：广度优先搜索与最优路径选择
Plan-and-Execute：先规划全局再逐步执行的分离架构
动态重规划：执行结果反馈触发计划调整

4.4 记忆系统设计

短期记忆（对话上下文）
滑动窗口裁剪 vs 摘要压缩 vs 重要性保留策略
多轮对话状态追踪与实体提取
长期记忆（向量存储）
记忆写入时机：何时值得记？记什么粒度？
记忆检索：时间衰减权重 + 相关性混合排序
外部记忆（数据库）
结构化记忆：用户画像 / 任务状态存 PostgreSQL
图记忆：知识图谱存 Neo4j 表达实体关系

4.5 【动手】用 LangGraph 构建有状态 Agent

LangGraph 核心概念：State / Node / Edge / Graph
条件边（Conditional Edge）实现动态路由
Checkpoint 持久化：中断恢复与人工审批节点
可视化调试：LangGraph Studio 本地调试工作流

Module 5：Multi-Agent 系统

5.1 多 Agent 协作模式（层级 / 对等 / 流水线）

层级模式：Supervisor Agent 分发与汇总子 Agent 结果
对等模式：Agent 间直接通信与共识机制
流水线模式：有向无环图（DAG）任务依赖编排
模式选型决策树：任务类型 → 推荐架构

5.2 AutoGen 框架实战

ConversableAgent 与 GroupChat 核心抽象
代码执行沙箱（Docker executor）安全配置
Human-in-the-Loop：动态插入人工反馈节点

5.3 CrewAI 角色分工实战

Agent / Task / Crew 三层抽象建模
角色设计最佳实践：goal + backstory 对输出质量的影响
Process 类型：Sequential vs Hierarchical 对比

5.4 【动手】搭建代码生成+审查的双 Agent 系统

Coder Agent：根据需求生成代码 + 自动运行测试
Reviewer Agent：静态分析 + 安全扫描 + 风格检查
协作循环：Reviewer 意见反馈 → Coder 迭代修改
终止条件设计：通过率阈值 vs 最大轮次保护

Module 6：生产级落地关键技术

6.1 流式输出与用户体验

SSE（Server-Sent Events）服务端实现（FastAPI）
前端流式渲染：React + ReadableStream 接入
中间过程透出：Tool Call 状态实时展示给用户

6.2 成本控制与 Token 优化

请求层：Prompt 压缩 + 动态截断 + 摘要替换
模型层：任务路由（复杂 → 强模型，简单 → 弱模型）
监控层：按 User / Feature / Session 维度统计成本

6.3 缓存策略（Prompt Cache / Semantic Cache）

Prompt Cache：Claude / OpenAI 官方缓存机制原理与命中率优化
Semantic Cache：GPTCache / Zep 语义相似度缓存实战
缓存失效策略：TTL vs 内容变更触发失效

6.4 安全与对齐（Prompt Injection 防御）

攻击类型：直接注入 / 间接注入 / 越狱技巧分类
防御策略：输入净化 + 特权提示隔离 + 输出验证
【动手】构建一个 Prompt Injection 检测分类器

6.5 可观测性（LangSmith / LangFuse）

Trace 采集：完整 Agent 执行链路的 Span 记录
核心指标：延迟 P99 / Token 消耗 / 工具调用成功率
告警配置：异常延迟与错误率阈值触发告警

6.6 【动手】构建带监控的生产级 Agent 服务

服务框架：FastAPI + 异步任务队列（Celery / ARQ）
接入 LangFuse：一行代码埋点全链路 Trace
Grafana Dashboard：核心指标可视化大盘
压测与容量规划：Locust 模拟并发 + 瓶颈定位

Module 7：垂直场景实战项目

项目一：AI 选股分析师（基于 TradingAgents）

7.1.1 项目背景与架构解读

TradingAgents 论文核心思想（AAAI 2025 Workshop）
五类角色分工：基本面/情绪/新闻/技术分析师 + 研究员/交易员/风控经理
LangGraph 有状态图在本项目中的应用拆解

7.1.2 项目结构与快速开始

安装配置：pip install tradingagents + API Keys 配置
数据源接入：Yahoo Finance / FinnHub / Reddit API
多 LLM 后端切换：OpenAI / Claude / DeepSeek / 本地 Ollama

7.1.3 核心模块精读与改造

Analyst Team 源码解读：工具注册与并发分析机制
Bull vs Bear 辩论机制：对等 Agent 博弈实现原理
Risk Management 三种风险偏好（激进/中性/保守）实现
Structured Output：Pydantic Schema 约束决策输出

7.1.4 动手实验

实验一：分析 NVDA / TSLA 并解读五级评级输出
实验二：接入 A 股数据源（东方财富 / AKShare）
实验三：开启 Checkpoint 实现中断续跑
实验四：替换 DeepSeek 为主模型对比分析质量

7.1.5 延伸思考

如何评估 Agent 选股决策的质量（回测框架接入）
生产化改造：定时任务 + 结果推送 + 决策日志

项目二：企业知识库智能问答

7.2.1 需求分析：多文档格式、权限隔离、引用溯源

7.2.2 文档处理流水线

多格式解析：PDF / Word / PPT / 网页（markitdown）
增量更新：文档变更检测与向量库差量同步

7.2.3 高质量检索层

混合检索（BM25 + 向量）+ BGE-Reranker 重排
权限过滤：基于 Metadata 的多租户数据隔离

7.2.4 生成与引用

带段落级引用的回答生成（角注格式）
置信度评估：无答案时主动拒答而非编造

7.2.5 评估与上线

RAGAS 评估 + 人工抽样复核双轨制
Chainlit 前端 + FastAPI 后端生产部署

项目三：数据分析 Agent（Text-to-SQL）

7.3.1 架构设计：NL → SQL → 执行 → 可视化完整链路

7.3.2 Schema 感知

数据库元数据注入：表结构 + 字段注释 + 样例数据
大规模 Schema（100+ 表）的动态检索策略

7.3.3 SQL 可靠性提升

自我修正循环：执行报错 → 反馈给 LLM → 重写
只读沙箱防护 + 慢查询检测

7.3.4 结果可视化

LLM 自动推断图表类型（柱状 / 折线 / 饼图）
用 Plotly 渲染 + 摘要文字解读图表含义

项目四：自动化工作流 Agent

7.4.1 场景定义：邮件 → 任务提取 → 系统写入 → 通知

7.4.2 工具集集成

通信工具：Gmail / Slack MCP Server 接入
任务管理：Notion / Jira API 写入工具封装

7.4.3 触发与调度

事件触发：Webhook 监听 vs 定时轮询两种模式
任务队列：Celery + Redis 实现异步 Agent 调度

7.4.4 人工审批节点

LangGraph 中断点设计：高风险操作前暂停等待
审批界面：Slack Bot 一键 Approve / Reject

项目五：AI Agent 云端生产部署全流程

7.5.1 部署架构选型与决策框架

三种部署模型横向对比
长驻容器（ECS / EC2）：适合有状态 Agent、长任务、高并发
Serverless 函数（Lambda / 函数计算）：适合事件触发、低频调用、成本敏感
容器编排（K8s / ECS Fargate）：适合弹性伸缩、多服务协作的生产级场景
AI Agent 的部署特殊性分析
冷启动敏感：LLM 调用链路长，Lambda 冷启动代价评估
执行时长限制：Lambda 15min 上限 vs Agent 长任务的冲突与解法
状态持久化：无状态函数如何承载有状态 Agent（Checkpoint 外化策略）
本节目标架构：以项目二「企业知识库问答」为载体，完整演示从本地到云端全链路

7.5.2 Docker 容器化

Dockerfile 最佳实践
基础镜像选型：python:3.11-slim vs nvidia/cuda（GPU 推理场景）
多阶段构建：builder 层安装依赖，runtime 层精简体积
依赖锁定：uv pip compile 生成 requirements.lock 保证构建确定性
非 root 用户运行：安全加固的最小权限原则
环境变量与密钥管理
.env 文件本地开发 vs 云端 Secrets Manager 生产注入的双轨策略
ARG vs ENV 指令区别：构建期参数与运行期变量的正确用法
docker-compose 本地联调
服务编排：FastAPI Agent 服务 + Qdrant 向量库 + Redis 缓存三服务联动
Volume 挂载：向量索引数据持久化到宿主机目录
健康检查（healthcheck）：依赖服务就绪后再启动 Agent 服务
【动手】构建并本地运行知识库问答 Agent 容器
构建镜像：docker build + 镜像体积优化（目标 < 500MB）
本地冒烟测试：curl 验证 /chat 接口全链路可用
镜像推送：docker push 到 ECR（AWS）/ ACR（阿里云）私有仓库

7.5.3 AWS Lambda 无服务器部署

Lambda 容器镜像部署模式（区别于 ZIP 包部署）
为何选容器镜像：AI Agent 依赖包普遍超过 250MB ZIP 限制
Lambda Web Adapter：让 FastAPI 应用无需改造直接运行在 Lambda 上
冷启动优化专题
Provisioned Concurrency：预热实例彻底消除冷启动（成本权衡分析）
镜像精简策略：移除 torch 训练依赖，仅保留推理依赖，体积从 3GB → 800MB
/tmp 目录缓存：将 Embedding 模型文件缓存到 /tmp 跨调用复用
长任务处理方案（突破 15 分钟限制）
方案一：Lambda 触发 → SQS 入队 → ECS Fargate 消费长任务
方案二：Step Functions 编排多个 Lambda 函数接力执行 Agent 各阶段
API Gateway + Lambda 集成
HTTP API vs REST API 选型：AI 应用推荐 HTTP API（低延迟低成本）
流式响应支持：Lambda Response Streaming 实现 SSE 流式输出
自定义域名 + TLS 证书：ACM + Route53 配置生产域名
IAM 权限最小化配置
Lambda Execution Role 按需授权：仅开放 S3 读、Secrets Manager 读等必要权限
VPC 内网访问：Lambda 连接 RDS / ElastiCache 的私有子网配置
【动手】将自动化工作流 Agent 部署到 Lambda
ECR 推送镜像 → Lambda 函数创建 → API Gateway 触发器配置
Secrets Manager 注入 OpenAI Key / Slack Token
CloudWatch Logs 验证执行日志与错误追踪
压测验证：用 Artillery 模拟并发请求，观察 Lambda 自动扩容行为

7.5.4 阿里云函数计算（FC 3.0）部署

FC 3.0 核心概念映射（对照 AWS Lambda 快速上手）
函数 / 触发器 / 层（Layer）与 Lambda 概念对照表
自定义运行时（Custom Runtime）：支持任意语言和框架的容器镜像部署
国内场景特有优化
VPC 内网访问：函数计算连接 RDS / Redis / Qdrant（ECS 自建）走内网
OSS 触发器：文档上传 OSS → 自动触发知识库索引函数的事件驱动架构
模型 API 路由：国内访问 OpenAI 的网络方案 vs 切换为通义千问 / DeepSeek
函数层（Layer）管理依赖
将 langchain / qdrant-client 等大依赖打包为 Layer 复用
Layer 版本管理与函数绑定：实现依赖独立升级
定时触发器配置（对应项目一选股 Agent 定时运行场景）
Cron 表达式配置每日盘后自动触发 Agent 分析
执行结果写入 OSS + 钉钉 Webhook 推送分析报告
【动手】将企业知识库问答 Agent 部署到阿里云 FC
ACR 推送镜像 → FC 创建函数 → HTTP 触发器绑定自定义域名
阿里云 KMS 密钥管理服务注入 API Key
SLS 日志服务：查询完整 Agent 执行 Trace
弹性并发配置：预留实例数设置与按量付费的成本计算实战

7.5.5 CI/CD 自动化部署流水线

GitHub Actions 全流程
Lint + 单元测试（pytest）→ Docker Build → 推送 ECR/ACR → 部署触发
多环境管理：dev / staging / prod 三套环境的分支策略（main / release）
OIDC 无密钥鉴权：GitHub Actions 直接获取 AWS/阿里云临时凭证，无需存储 AK/SK
蓝绿部署与金丝雀发布
Lambda 别名（Alias）+ 流量权重：10% 流量灰度新版本
自动回滚触发条件：错误率超阈值自动切回旧版本
【动手】搭建从 git push 到自动上线的 5 分钟部署流水线
.github/workflows/deploy.yml 完整配置文件逐行解读
部署通知：Slack 机器人推送「部署成功 / 失败」结果到研发频道

7.5.6 云端运行成本分析与优化

Lambda / FC 成本构成拆解：请求次数费 + 执行时长费 + 网络流量费
AI Agent 典型场景成本估算
低频场景（1000次/天）：Serverless 月成本估算
高频场景（100万次/天）：Serverless vs 长驻容器的盈亏平衡点计算
降本策略清单
ARM 架构实例（Lambda Graviton2）：同等性能成本降低 20%
Spot 实例：非关键任务使用 Spot 节省 60-70% 计算成本
LLM 调用成本：Prompt Cache 命中率优化 + 模型降级路由

Module 8：AI 大模型与 Agent 技术演进全景

8.1 大语言模型发展史：从统计模型到涌现智能

8.1.1 前深度学习时代（2000–2017）

N-gram 语言模型与 Word2Vec 词向量的奠基意义
Seq2Seq + Attention 机制的提出（Bahdanau et al., 2015, arXiv:1409.0473）
ELMo 动态词向量：迈向上下文感知表示（Peters et al., 2018, arXiv:1802.05365）

8.1.2 Transformer 革命（2017–2019）

"Attention Is All You Need"：架构解析与历史地位（Vaswani et al., 2017, arXiv:1706.03762）
BERT：双向预训练范式开创"先预训练后微调"时代（Devlin et al., 2018, arXiv:1810.04805）
GPT-1/2：自回归生成路线的确立与"太危险不发布"风波（OpenAI Blog, 2019）

8.1.3 规模定律与涌现能力（2020–2022）

Scaling Laws：参数量 / 数据 / 算力的幂律关系（Kaplan et al., 2020, arXiv:2001.08361）
GPT-3（175B）：少样本学习能力的震撼亮相（Brown et al., 2020, arXiv:2005.14165）
涌现能力（Emergent Abilities）的发现与争议（Wei et al., 2022, arXiv:2206.07682）
Chinchilla 定律：重新校准最优训练算力分配比（Hoffmann et al., 2022, arXiv:2203.15556）

8.1.4 指令对齐与 RLHF 时代（2022–2023）

InstructGPT：RLHF 使模型"听话"的里程碑（Ouyang et al., 2022, arXiv:2203.02155）
ChatGPT 现象级发布：产品形态定义行业标准（2022.11）
GPT-4 技术报告：多模态与安全评估框架（OpenAI, 2023, arXiv:2303.08774）
Claude 系列：Constitutional AI 与无害性对齐新路线（Anthropic, Bai et al., 2022, arXiv:2212.08073）
LLaMA 开源震撼：Meta 释放可本地运行的强力底座（Touvron et al., 2023, arXiv:2302.13971）

8.1.5 开源生态爆发与长上下文竞赛（2023–2024）

Llama 2 / Mistral / Gemma / Qwen / DeepSeek：开源模型能力追平闭源的关键节点梳理
长上下文竞赛：8K → 32K → 1M Token 背后的位置编码创新（RoPE / YaRN / ALiBi 对比）
MoE 架构复兴：Mixtral / DeepSeek-MoE 高效稀疏激活（Jiang et al., 2024, arXiv:2401.04088）
多模态融合：GPT-4V / Gemini / LLaVA 打通视觉语言

8.1.6 推理模型范式（2024–2025）

OpenAI o1 / o3：慢思考（Slow Thinking）与测试时计算扩展（Test-Time Compute Scaling）
DeepSeek-R1：开源推理模型的突破与 GRPO 训练方法（DeepSeek, 2025, arXiv:2501.12948）
Claude 3.7 Sonnet：混合推理模式（快思/慢想可控切换）
推理模型 vs 指令模型：适用场景的分野与成本权衡

8.2 AI Agent 发展史：从脚本自动化到自主决策系统

8.2.1 前 LLM Agent 时代（约 1960s–2022）

符号 AI 与专家系统：规则驱动的"硬编码"自动化
强化学习 Agent：AlphaGo / OpenAI Five 的封闭场景巅峰
RPA：流程固定时的工业级自动化方案与局限

8.2.2 LLM Agent 萌芽期（2022–2023）

ReAct：思维链与行动结合的 Agent 范式开山之作（Yao et al., 2022, arXiv:2210.03629）
Toolformer：模型自学习何时调用工具（Schick et al., 2023, arXiv:2302.04761）
AutoGPT（2023.03）：第一个引发大众关注的开源 Agent，GitHub 瞬间破 10 万 Star 与其局限性复盘
HuggingGPT / TaskMatrix：工具调度编排的早期探索（Shen et al., 2023, arXiv:2303.04671）

8.2.3 框架与协议的规范化（2023–2024）

LangChain 生态崛起：Chain / Agent / Memory 抽象奠基
OpenAI Function Calling 发布（2023.06）：工具调用从 Prompt Hack 走向原生协议
LangGraph（2024.01）：有状态图执行引擎解决循环与分支
AutoGen（Microsoft, 2023）：多 Agent 对话框架（Wu et al., 2023, arXiv:2308.08155）
CrewAI / Swarm（OpenAI）：角色分工范式的工程化实践
MCP 协议（Anthropic, 2024.11）：统一工具接入接口，结束"各自为战"时代

8.2.4 Computer Use 与 GUI Agent（2024）

Claude Computer Use（2024.10）：直接操控桌面的开创性 API 发布
OS-Copilot / UFO（Microsoft）：操作系统级 Agent 探索（Zhang et al., 2024, arXiv:2402.07939）
WebVoyager / SeeAct：纯视觉驱动网页自动化（He et al., 2024, arXiv:2401.13919）

8.2.5 Agentic AI 走向生产（2024–2025）

OpenAI Operator（2025.01）：官方商业 Agent 产品落地
Google Vertex AI Agent Builder / Gemini Agent：企业级 Agent 平台的云厂商卡位战
Claude 4 系列 Extended Thinking + Agentic Task：长任务持久执行能力与中断恢复机制
Agent 可靠性成为核心议题：GAIA / SWE-Bench / τ-Bench 等 Agent Benchmark 解读

8.3 关键技术专题演进：六条技术支线的来世今生

8.3.1 上下文长度：从 512 Token 到无限流式记忆

技术演进：绝对位置编码 → RoPE → ALiBi → 环形注意力
Mamba / SSM 架构：线性复杂度挑战 Transformer 权威（Gu & Dao, 2023, arXiv:2312.00752）
大上下文不等于大利用率：Lost in the Middle 问题研究（Liu et al., 2023, arXiv:2307.03172）

8.3.2 RAG 技术演进：关键字检索到知识图谱增强

Naive RAG → Advanced RAG → Modular RAG 三代架构演进（Gao et al., 2023, arXiv:2312.10997）
GraphRAG（Microsoft, 2024）：图结构知识增强推理（Edge et al., 2024, arXiv:2404.16130）
RAG vs 长上下文 vs 微调：三种知识注入路线的选型决策框架（成本 / 时效性 / 准确性三角权衡）

8.3.3 多模态：从 CLIP 到全模态统一模型

CLIP（2021）奠定视觉语言对齐基础（Radford et al., 2021, arXiv:2103.00020）
GPT-4o / Gemini 1.5：原生多模态 vs 后融合架构对比
音视频 + 代码 + 结构数据的全模态大一统趋势研判

8.3.4 高效推理：从量化压缩到推理加速芯片生态

量化技术：FP16 → INT8 → GPTQ → AWQ → 1-bit（BitNet）
推测解码：草稿模型加速主模型生成吞吐
vLLM / TensorRT-LLM / SGLang：PagedAttention 等关键工程创新梳理

8.3.5 对齐技术：从 RLHF 到 DPO 到宪法 AI

RLHF → PPO → DPO → GRPO 训练范式演进与工程代价对比（Rafailov et al., 2023, arXiv:2305.18290 [DPO]）
Constitutional AI（Anthropic）：用原则替代人工偏好标注的新路线
超级对齐：GPT-4 监督 GPT-4 的弱对强泛化研究（OpenAI, 2023, arXiv:2312.09390）

8.3.6 微调技术：从全参数到极低成本适配

Full Fine-Tuning → Adapter → Prefix Tuning → LoRA → QLoRA → DoRA 演进路线（Hu et al., 2021, arXiv:2106.09685 [LoRA]）
微调 vs RAG vs Prompt Engineering 三路线决策树（数据量 / 更新频率 / 成本三维度）

8.4 各大厂商技术路线图与战略研判

OpenAI：从 GPT 到 AGI 的超级对齐与商业化并行路线
核心押注：o 系列推理 + Operator Agent + 硬件自研
开放策略转变：从 API 优先到生态闭环的战略摩擦
Anthropic：安全优先驱动的技术差异化
核心押注：Extended Thinking + Computer Use + MCP 生态
Constitutional AI 与可解释性研究的长期战略布局
Google DeepMind：Gemini 生态与科学 AI 双线并进
核心押注：原生多模态 + 长上下文 + AlphaFold 类科研 AI
云端 + 端侧（Gemini Nano）的全栈部署战略
Meta：开源战略的战略意图与生态构建
LLaMA 系列开源路线：用生态遏制闭源垄断
FAIR 研究与产品落地的双轮驱动模式
中国大模型阵营：DeepSeek / Qwen / Kimi / 文心的差异化路线
DeepSeek：极致成本效率（MoE + GRPO）震撼开源界
Qwen（阿里）：多模态全栈 + 超长上下文的企业级路线
Kimi（月之暗面）：长上下文垂直突破的产品化案例

8.5 未来演进路线图（2025–2030）

8.5.1 模型能力演进预判

推理能力：Test-Time Compute Scaling 红利是否持续？
世界模型：从文本预测走向因果推理与环境建模
具身智能：LLM 赋能机器人控制的技术融合路径
端侧大模型：1–7B 参数在手机 / 眼镜 / 汽车的部署前景

8.5.2 Agent 架构演进预判

长任务持久化 Agent：多天连续执行任务的记忆与状态挑战
自主学习 Agent：从执行任务到从经验中更新权重
Agent 互联网：跨组织 Agent 协作的身份认证与信任协议
个人 AI：拥有完整用户上下文的长期陪伴型 Agent 形态

8.5.3 技术瓶颈与开放性挑战

幻觉根治难题：检索增强 vs 不确定性量化 vs 神经符号融合三条路
可靠性天花板：为何 Agent 任务完成率难以突破 80%？
多模态推理鸿沟：视觉常识与空间推理的系统性缺陷
评估体系缺失：现有 Benchmark 是否真正衡量了智能？

8.5.4 基础设施与生态演进预判

推理芯片格局：NVIDIA H 系列 vs 谷歌 TPU vs Groq / Cerebras 等新架构的竞争格局
推理经济学：Token 成本曲线（摩尔定律类比）与何时"AI 调用比人工更便宜"成为普遍现实
开源 vs 闭源：能力差距收窄下的生态重塑

8.5.5 社会影响与监管格局

欧盟 AI Act / 美国 EO / 中国《生成式 AI 管理办法》：三大监管框架对开发者的实际影响
AI 对劳动力市场的结构性冲击：哪些岗位先受影响？历史类比与差异分析
负责任 AI 开发原则：开发者视角的伦理实践清单

Module 9：面试题真题

按题型分类整理的真实面试题目与详细解答，来源涵盖牛客 / 知乎 / Datawhale / 各大厂面经等。

原理题 — 28 题

Transformer / Attention / RoPE / KV Cache / LoRA / QLoRA / MoE / 解码策略 / RLHF / DPO / GRPO / 位置编码 / Tokenization / 词元化 / 涌现能力 / VLM / CLIP / ReAct / Function Calling / 记忆系统 / SFT / 缩放定律 / MHA-MQA-GQA / 评估体系 / Lost in the Middle / MoE

工程题 — 32 题

流式输出 / SSE vs WebSocket / 停止生成 / 长连接管理 / 熔断降级 / 模型切换 / 并发排队 / 削峰限流 / 成本控制 / 延迟排查 / 上下文爆炸 / 密钥安全 / 向量库一致性 / 大规模 RAG / RAG vs 微调 / 全链路压测 / 日志管理 / 消息防乱序 / 断点续打 / 模型量化 / 容器化部署 / K8s / GPU 调度 / 工具超时重试 / 评测体系 / Rerank / 向量距离度量 / 可观测性 / 非文本事件 / 多模型调度 / 缓存设计 / 长尾任务 / 兜底策略 / 跨服务透传 / 任务完成率 / Prompt Injection

设计题 — 20 题

微调方案设计 / Prompt 管理体系 / 可追溯 RAG / 采购审批 Agent / LLM 网关 / 内容审核系统 / 工具权限管理 / Deep Research 停止判断 / 企业知识库问答 / Text2SQL / 客服多 Agent / 运维 Agent / 低延迟 RAG / Agent 平台搭建 / 多模型服务网格 / 灾备切换 / 多语言 Prompt / 专项评估方案 / 退款处理 Agent / 成本优化

视野题 — 12 题

RAG vs 长上下文 / GRPO vs PPO / 开源 vs 闭源 / AGI 距离 / 具身智能 / Transformer vs SSM / 商业落地行业 / 多模态融合 / 创业公司技术栈 / 更强模型 vs 精巧架构 / 个性化隐私安全 / 数据瓶颈与合成数据

开放题 — 10 题

Agent 可信差距 / 学习路径建议 / Agent 工程师素质 / 最大瓶颈 / 个人知识管理 Agent / 颠覆性应用行业 / 合成数据角色 / RAG-微调-提示词决策 / 隐私安全实践 / Transformer 架构未来

附录

A. 主流框架横向对比

对比维度：学习曲线 / 生产成熟度 / 社区活跃度 / 多 Agent 支持 / 可观测性集成 / License
覆盖框架：LangChain / LangGraph / LlamaIndex / AutoGen / CrewAI / Semantic Kernel / Dify / Flowise

B. 学习资源导航

必读论文清单（附 arXiv 链接 + 一句话摘要）
优质开源项目推荐（附 GitHub Star 与适用场景）
持续跟进渠道：Newsletter / X 账号 / Discord 社区

C. 术语表

中英文对照索引（含首次出现章节标注）
缩写速查：RAG / CoT / ReAct / MCP / RLHF / SFT …