附录 B:学习资源导航
一、必读论文清单
以下按主题分类,列出本书涉及的核论文,附 arXiv 链接与一句话摘要。
| 论文 |
arXiv |
摘要 |
| Attention Is All You Need (Vaswani et al., 2017) |
1706.03762 |
提出 Transformer 架构,以 Self-Attention 完全替代 RNN/CNN,奠定现代大模型基础 |
| BERT (Devlin et al., 2018) |
1810.04805 |
双向掩码语言模型,开创"预训练-微调"范式,在 11 项 NLP 任务上创 SOTA |
| GPT-3 (Brown et al., 2020) |
2005.14165 |
175B 参数语言模型,首次展示少样本学习能力,开启大模型时代 |
| Scaling Laws (Kaplan et al., 2020) |
2001.08361 |
发现模型性能与参数量、数据量、算力之间存在幂律关系 |
| Chinchilla (Hoffmann et al., 2022) |
2203.15556 |
修正 Scaling Laws,证明最优训练需参数量与 token 数等比例增长 |
| GPT-4 技术报告 (OpenAI, 2023) |
2303.08774 |
多模态能力提升与安全评估框架,定义行业新基准 |
| LLaMA (Touvron et al., 2023) |
2302.13971 |
Meta 开源基座模型系列,用更少数据达到与闭源模型相当的性能 |
| Mistral (Jiang et al., 2023) |
2310.06825 |
引入 GQA 和滑动窗口 Attention,8B 模型超越 Llama-2 13B |
| Mixtral 8x7B (Jiang et al., 2024) |
2401.04088 |
稀疏 MoE 架构,46.7B 参数但每次仅激活 12.9B,效率与质量兼优 |
| RoPE (Su et al., 2021) |
2104.09864 |
旋转位置编码,将绝对位置转化为相对位置旋转变换,外推能力强 |
| ALiBi (Press et al., 2021) |
2108.12409 |
在注意力分数上加距离线性偏置,实现训练短序列推理长序列 |
2. 微调与对齐
| 论文 |
arXiv |
摘要 |
| LoRA (Hu et al., 2021) |
2106.09685 |
低秩自适应微调,将可训练参数量降至全量的 0.01%,效果接近全量微调 |
| QLoRA (Dettmers et al., 2023) |
2305.14314 |
NF4 量化 + LoRA,65B 模型可在单张 A100 上微调 |
| LLM.int8() (Dettmers et al., 2022) |
2208.07339 |
混合精度 INT8 量化,使大模型推理显存减半且精度损失极小 |
| GPTQ (Frantar et al., 2022) |
2210.17323 |
训练后 4-bit 量化方法,逐层贪心量化保持接近 FP16 的效果 |
| AWQ (Lin et al., 2023) |
2306.00978 |
激活感知的 4-bit 量化,保护重要权重通道,量化精度优于 GPTQ |
| InstructGPT (Ouyang et al., 2022) |
2203.02155 |
RLHF 三阶段训练流程,使 GPT-3 成为可对话的 ChatGPT 原型 |
| Constitutional AI (Bai et al., 2022) |
2212.08073 |
用原则(Constitution)替代人工偏好标注,实现无害性对齐 |
| DPO (Rafailov et al., 2023) |
2305.18290 |
直接偏好优化,将 RLHF 的 RL 优化转化为分类损失,无需 Reward Model |
| GRPO (Shao et al., 2024) |
2402.03300 |
组相对策略优化,省去 Critic 模型,通过组内归一化估计优势函数 |
| Weak-to-Strong (Burns et al., 2023) |
2312.09390 |
用弱模型监督强模型的对齐方法,探索超级对齐的技术路径 |
3. Agent 与工具调用
| 论文 |
arXiv |
摘要 |
| ReAct (Yao et al., 2022) |
2210.03629 |
推理与行动交替的 Agent 范式,在多种任务上超越纯推理或纯行动 |
| ToT (Yao et al., 2023) |
2305.10601 |
思维树,在 CoT 基础上加入 BFS/DFS 搜索与回溯,提升复杂推理 |
| GoT (Besta et al., 2024) |
2308.09687 |
思维图,将推理过程建模为图结构,支持合并、分支等高级操作 |
| Plan-and-Execute (Wang et al., 2023) |
2305.04091 |
先规划全局计划再逐步执行,规划与执行分离提升任务完成率 |
| Toolformer (Schick et al., 2023) |
2302.04761 |
模型自学习何时调用外部工具,用少量示例即可教会 API 调用 |
| AutoGen (Wu et al., 2023) |
2308.08155 |
多 Agent 对话框架,通过可对话的 Agent 构建灵活的工作流 |
| Emergent Abilities (Wei et al., 2022) |
2206.07682 |
讨论大模型在规模增长后"突然获得"的能力,引发学界广泛讨论 |
4. RAG 与检索
| 论文 |
arXiv |
摘要 |
| RAG (Lewis et al., 2020) |
2005.11401 |
检索增强生成开山之作,将检索文档与生成模型联合训练 |
| DPR (Karpukhin et al., 2020) |
2004.04906 |
稠密段落检索,用双编码器替代 BM25,显著提升开放域 QA 效果 |
| RAG Survey (Gao et al., 2023) |
2312.10997 |
RAG 技术综述,定义 Naive → Advanced → Modular 三代架构演进 |
| GraphRAG (Edge et al., 2024) |
2404.16130 |
微软知识图谱增强 RAG,用图结构捕捉实体关系,提升复杂推理问答 |
| Lost in the Middle (Liu et al., 2023) |
2307.03172 |
LLM 倾向于利用上下文的开头和结尾信息,中间内容容易被忽略 |
5. 多模态
| 论文 |
arXiv |
摘要 |
| CLIP (Radford et al., 2021) |
2103.00020 |
对比语言-图像预训练,通过图文对对比学习实现零样本分类 |
| LLaVA (Liu et al., 2023) |
2304.08485 |
将视觉编码器通过 MLP 投影到 LLM token 空间,实现视觉指令微调 |
| Flamingo (Alayrac et al., 2022) |
2204.14198 |
跨模态注意力桥接视觉与语言,支持交错图文输入的对话 |
| Gemini 1.5 (Gemini Team, 2024) |
2403.05530 |
百万 token 上下文多模态模型,支持视频/音频/文本/图像混合输入 |
6. 推理效率与部署
| 论文 |
arXiv |
摘要 |
| FlashAttention (Dao et al., 2022) |
2205.14135 |
IO 感知的 Attention 实现,通过分块计算减少 HBM 访问,提速 3-4x |
| vLLM / PagedAttention (Kwon et al., 2023) |
2309.06180 |
分页注意力,将 KV Cache 视为虚拟内存管理,吞吐量提升 2-4x |
| Mamba (Gu & Dao, 2023) |
2312.00752 |
选择性状态空间模型,O(n) 复杂度挑战 Transformer 权威 |
| Speculative Decoding (Leviathan et al., 2022) |
2211.17192 |
用小模型生成草稿、大模型验证,在不损失质量的前提下加速推理 |
| BitNet (Wang et al., 2023) |
2310.11453 |
1-bit Transformer,将权重量化为 {-1, 0, 1},大幅降低计算和存储 |
| Ring Attention (Liu et al., 2023) |
2310.01889 |
分布式超长上下文 Attention,通过环形通信实现万亿 token 处理 |
| SGLang (Zheng et al., 2023) |
2312.07104 |
结构化的 LLM 程序运行时,提供高效的推理服务框架 |
| DeepSeek-R1 (DeepSeek-AI, 2025) |
2501.12948 |
开源推理模型,纯 GRPO 训练即达到 o1 级别推理能力 |
二、优质开源项目推荐
Agent 框架
模型推理
向量数据库
微调与训练
可观测性与评估
其他实用工具
三、持续跟进渠道
Newsletter
Discord / 社区
| 社区 |
平台 |
特点 |
| LangChain Discord |
Discord |
LangChain/LangGraph 用户社区,问题解答 |
| LlamaIndex Discord |
Discord |
RAG 场景交流,文档处理最佳实践 |
| Hugging Face Discord |
Discord |
开源模型社区,模型发布 + 技术交流 |
| Datawhale |
微信/知乎/GitHub |
中文 AI 学习社区,教程 + 开源项目 |
| 稀土掘金 AI 频道 |
掘金 |
中文开发者技术社区,实战经验分享 |
论文跟踪