附录 B：学习资源导航

一、必读论文清单

以下按主题分类，列出本书涉及的核论文，附 arXiv 链接与一句话摘要。

1. Transformer 与基础架构

论文	arXiv	摘要
Attention Is All You Need (Vaswani et al., 2017)	1706.03762	提出 Transformer 架构，以 Self-Attention 完全替代 RNN/CNN，奠定现代大模型基础
BERT (Devlin et al., 2018)	1810.04805	双向掩码语言模型，开创"预训练-微调"范式，在 11 项 NLP 任务上创 SOTA
GPT-3 (Brown et al., 2020)	2005.14165	175B 参数语言模型，首次展示少样本学习能力，开启大模型时代
Scaling Laws (Kaplan et al., 2020)	2001.08361	发现模型性能与参数量、数据量、算力之间存在幂律关系
Chinchilla (Hoffmann et al., 2022)	2203.15556	修正 Scaling Laws，证明最优训练需参数量与 token 数等比例增长
GPT-4 技术报告 (OpenAI, 2023)	2303.08774	多模态能力提升与安全评估框架，定义行业新基准
LLaMA (Touvron et al., 2023)	2302.13971	Meta 开源基座模型系列，用更少数据达到与闭源模型相当的性能
Mistral (Jiang et al., 2023)	2310.06825	引入 GQA 和滑动窗口 Attention，8B 模型超越 Llama-2 13B
Mixtral 8x7B (Jiang et al., 2024)	2401.04088	稀疏 MoE 架构，46.7B 参数但每次仅激活 12.9B，效率与质量兼优
RoPE (Su et al., 2021)	2104.09864	旋转位置编码，将绝对位置转化为相对位置旋转变换，外推能力强
ALiBi (Press et al., 2021)	2108.12409	在注意力分数上加距离线性偏置，实现训练短序列推理长序列

2. 微调与对齐

论文	arXiv	摘要
LoRA (Hu et al., 2021)	2106.09685	低秩自适应微调，将可训练参数量降至全量的 0.01%，效果接近全量微调
QLoRA (Dettmers et al., 2023)	2305.14314	NF4 量化 + LoRA，65B 模型可在单张 A100 上微调
LLM.int8() (Dettmers et al., 2022)	2208.07339	混合精度 INT8 量化，使大模型推理显存减半且精度损失极小
GPTQ (Frantar et al., 2022)	2210.17323	训练后 4-bit 量化方法，逐层贪心量化保持接近 FP16 的效果
AWQ (Lin et al., 2023)	2306.00978	激活感知的 4-bit 量化，保护重要权重通道，量化精度优于 GPTQ
InstructGPT (Ouyang et al., 2022)	2203.02155	RLHF 三阶段训练流程，使 GPT-3 成为可对话的 ChatGPT 原型
Constitutional AI (Bai et al., 2022)	2212.08073	用原则（Constitution）替代人工偏好标注，实现无害性对齐
DPO (Rafailov et al., 2023)	2305.18290	直接偏好优化，将 RLHF 的 RL 优化转化为分类损失，无需 Reward Model
GRPO (Shao et al., 2024)	2402.03300	组相对策略优化，省去 Critic 模型，通过组内归一化估计优势函数
Weak-to-Strong (Burns et al., 2023)	2312.09390	用弱模型监督强模型的对齐方法，探索超级对齐的技术路径

3. Agent 与工具调用

论文	arXiv	摘要
ReAct (Yao et al., 2022)	2210.03629	推理与行动交替的 Agent 范式，在多种任务上超越纯推理或纯行动
ToT (Yao et al., 2023)	2305.10601	思维树，在 CoT 基础上加入 BFS/DFS 搜索与回溯，提升复杂推理
GoT (Besta et al., 2024)	2308.09687	思维图，将推理过程建模为图结构，支持合并、分支等高级操作
Plan-and-Execute (Wang et al., 2023)	2305.04091	先规划全局计划再逐步执行，规划与执行分离提升任务完成率
Toolformer (Schick et al., 2023)	2302.04761	模型自学习何时调用外部工具，用少量示例即可教会 API 调用
AutoGen (Wu et al., 2023)	2308.08155	多 Agent 对话框架，通过可对话的 Agent 构建灵活的工作流
Emergent Abilities (Wei et al., 2022)	2206.07682	讨论大模型在规模增长后"突然获得"的能力，引发学界广泛讨论

4. RAG 与检索

论文	arXiv	摘要
RAG (Lewis et al., 2020)	2005.11401	检索增强生成开山之作，将检索文档与生成模型联合训练
DPR (Karpukhin et al., 2020)	2004.04906	稠密段落检索，用双编码器替代 BM25，显著提升开放域 QA 效果
RAG Survey (Gao et al., 2023)	2312.10997	RAG 技术综述，定义 Naive → Advanced → Modular 三代架构演进
GraphRAG (Edge et al., 2024)	2404.16130	微软知识图谱增强 RAG，用图结构捕捉实体关系，提升复杂推理问答
Lost in the Middle (Liu et al., 2023)	2307.03172	LLM 倾向于利用上下文的开头和结尾信息，中间内容容易被忽略

5. 多模态

论文	arXiv	摘要
CLIP (Radford et al., 2021)	2103.00020	对比语言-图像预训练，通过图文对对比学习实现零样本分类
LLaVA (Liu et al., 2023)	2304.08485	将视觉编码器通过 MLP 投影到 LLM token 空间，实现视觉指令微调
Flamingo (Alayrac et al., 2022)	2204.14198	跨模态注意力桥接视觉与语言，支持交错图文输入的对话
Gemini 1.5 (Gemini Team, 2024)	2403.05530	百万 token 上下文多模态模型，支持视频/音频/文本/图像混合输入

6. 推理效率与部署

论文	arXiv	摘要
FlashAttention (Dao et al., 2022)	2205.14135	IO 感知的 Attention 实现，通过分块计算减少 HBM 访问，提速 3-4x
vLLM / PagedAttention (Kwon et al., 2023)	2309.06180	分页注意力，将 KV Cache 视为虚拟内存管理，吞吐量提升 2-4x
Mamba (Gu & Dao, 2023)	2312.00752	选择性状态空间模型，O(n) 复杂度挑战 Transformer 权威
Speculative Decoding (Leviathan et al., 2022)	2211.17192	用小模型生成草稿、大模型验证，在不损失质量的前提下加速推理
BitNet (Wang et al., 2023)	2310.11453	1-bit Transformer，将权重量化为 {-1, 0, 1}，大幅降低计算和存储
Ring Attention (Liu et al., 2023)	2310.01889	分布式超长上下文 Attention，通过环形通信实现万亿 token 处理
SGLang (Zheng et al., 2023)	2312.07104	结构化的 LLM 程序运行时，提供高效的推理服务框架
DeepSeek-R1 (DeepSeek-AI, 2025)	2501.12948	开源推理模型，纯 GRPO 训练即达到 o1 级别推理能力

二、优质开源项目推荐

Agent 框架

项目	GitHub	Stars	适用场景
LangChain	github.com/langchain-ai/langchain	~136K	LLM 应用开发的事实标准，Chain/Agent/Memory 抽象
LangGraph	github.com/langchain-ai/langgraph	~15K	有状态 Agent 工作流，循环/分支/人工审批
LlamaIndex	github.com/run-llama/llama_index	~46K	RAG 专项框架，文档索引与检索优化
AutoGen	github.com/microsoft/autogen	~57K	多 Agent 对话协作，代码执行沙箱
CrewAI	github.com/crewAIInc/crewAI	~50K	角色分工 Multi-Agent 协作，API 简单直观
Dify	github.com/langgenius/dify	~120K+	可视化 LLM 应用平台，企业级一站式服务
Flowise	github.com/FlowiseAI/Flowise	~52K	拖拽式 LLM 应用构建，零代码入门

模型推理

项目	GitHub	Stars	适用场景
vLLM	github.com/vllm-project/vllm	~50K+	高吞吐量 LLM 推理服务，PagedAttention
Ollama	github.com/ollama/ollama	~120K+	本地模型一键部署，GGUF 格式推理
llama.cpp	github.com/ggerganov/llama.cpp	~75K+	CPU/GPU 混合推理，边缘设备部署
TensorRT-LLM	github.com/NVIDIA/TensorRT-LLM	~20K+	NVIDIA GPU 极致推理优化
SGLang	github.com/sgl-project/sglang	~25K+	结构化 LLM 程序运行时

向量数据库

项目	GitHub	Stars	适用场景
Qdrant	github.com/qdrant/qdrant	~30K+	Rust 编写，高性能向量数据库，支持过滤
Milvus	github.com/milvus-io/milvus	~30K+	分布式向量数据库，云原生架构
Chroma	github.com/chroma-core/chroma	~15K+	轻量嵌入式向量库，适合快速原型
PGVector	github.com/pgvector/pgvector	~12K+	PostgreSQL 向量扩展，已有数据库直接复用

微调与训练

项目	GitHub	Stars	适用场景
Unsloth	github.com/unslothai/unsloth	~30K+	2x 训练速度 + 显存减半，一键微调模板
PEFT	github.com/huggingface/peft	~20K+	HuggingFace 参数高效微调库，LoRA/QLoRA 等
TRL	github.com/huggingface/trl	~15K+	Transformer 强化学习库，SFT/DPO/PPO
LLaMA-Factory	github.com/hiyouga/LLaMA-Factory	~50K+	可视化微调工具，支持 100+ 模型
DeepSpeed	github.com/microsoft/DeepSpeed	~35K+	分布式训练优化，ZeRO 显存优化

可观测性与评估

项目	GitHub	Stars	适用场景
LangFuse	github.com/langfuse/langfuse	~10K+	开源 LLM 可观测平台，全链路 Trace
RAGAS	github.com/explodinggradients/ragas	~10K+	RAG 系统自动评估，四大核心指标
LangSmith	smith.langchain.com	-	LangChain 官方可观测服务（SaaS）

其他实用工具

项目	GitHub	Stars	适用场景
LiteLLM	github.com/BerriAI/litellm	~20K+	统一 LLM 调用接口，多 Provider Fallback
DSPy	github.com/stanfordnlp/dspy	~25K+	声明式 Prompt 优化，自动搜索最优 Few-shot
markitdown	github.com/microsoft/markitdown	~20K+	微软文档解析工具，PDF/Word/PPT 转 Markdown
GPTCache	github.com/zilliztech/GPTCache	~10K+	语义缓存层，相似查询直接返回
E2B	github.com/e2b-dev/e2b	~10K+	云端代码沙箱，安全执行 Agent 生成的代码

三、持续跟进渠道

名称	作者	特点	订阅地址
The Batch	Andrew Ng / DeepLearning.AI	每周 AI 行业综述，适合把握大局	deeplearning.ai/the-batch
Import AI	Jack Clark	深度技术分析，涵盖论文解读和行业洞察	importai.substack.com
Lilian Weng's Blog	Lilian Weng (OpenAI)	架构演进的深度长文，每篇都是 mini 教程	lilianweng.github.io
Sebastian Raschka's Blog	Sebastian Raschka	ML 教程 + 最新论文解读，代码示例丰富	sebastianraschka.com
Hugging Face Newsletter	Hugging Face	开源模型和社区动态，每月一期	huggingface.co/newsletter

X / Twitter 账号

账号	领域	关注理由
@AndrewYNg	AI 教育	行业趋势判断，课程发布
@lilianweng	AI 研究	OpenAI 研究博客，深度架构分析
@JimFan	AI 研究	NVIDIA 科学家，Agent/世界模型方向
@hardmaru	AI 研究	Google Brain 研究员，生成模型与 Agent
@amasad	开发者工具	Replit CEO，AI 编程工具趋势
@LangChainAI	框架动态	LangChain 官方，产品更新
@anthropic	厂商动态	Anthropic 官方，Claude 发布与安全
@OpenAI	厂商动态	OpenAI 官方，产品与模型发布
@GoogleDeepMind	厂商动态	Google DeepMind 官方，Gemini 与研究
@DeepSeekAI	开源模型	DeepSeek 官方，模型与技术更新

Discord / 社区

社区	平台	特点
LangChain Discord	Discord	LangChain/LangGraph 用户社区，问题解答
LlamaIndex Discord	Discord	RAG 场景交流，文档处理最佳实践
Hugging Face Discord	Discord	开源模型社区，模型发布 + 技术交流
Datawhale	微信/知乎/GitHub	中文 AI 学习社区，教程 + 开源项目
稀土掘金 AI 频道	掘金	中文开发者技术社区，实战经验分享

论文跟踪

渠道	用途
arXiv cs.CL	计算语言学最新论文
arXiv cs.AI	AI 最新论文
Hugging Face Papers	每日 AI 论文摘要 + 社区讨论
Papers With Code	论文 + 代码关联，追踪实现

附录 B：学习资源导航

一、必读论文清单

1. Transformer 与基础架构

2. 微调与对齐

3. Agent 与工具调用

4. RAG 与检索

5. 多模态

6. 推理效率与部署

二、优质开源项目推荐

Agent 框架

模型推理

向量数据库

微调与训练

可观测性与评估

其他实用工具

三、持续跟进渠道

Newsletter

X / Twitter 账号

Discord / 社区

论文跟踪