附录 C:术语表
本附录包含书中出现的核心术语、缩写及概念,便于读者快速查阅与复习。
一、中英文对照索引
A
| 术语 | 英文 | 首次出现章节 |
|---|---|---|
| 注意力机制 | Attention Mechanism | Module 1 |
| 对齐 | Alignment | Module 1 |
| 智能体 | Agent | Module 4 |
| 人工智能通用人工智能 | AGI (Artificial General Intelligence) | Module 8 |
| 增强生成 | Augmented Generation | Module 2 |
| 自回归 | Autoregressive | Module 1 |
B
| 术语 | 英文 | 首次出现章节 |
|---|---|---|
| 基础模型 | Base Model | Module 1 |
| 批量推理 | Batch Inference | Module 7 |
| 束搜索 | Beam Search | Module 1 |
| 瓶颈 | Bottleneck | Module 6 |
| 大脑 | Brain | Module 4 |
C
| 术语 | 英文 | 首次出现章节 |
|---|---|---|
| 思维链 | Chain of Thought (CoT) | Module 4 |
| 检查点 | Checkpoint | Module 4 |
| 上下文 | Context | Module 2 |
| 上下文窗口 | Context Window | Module 1 |
| 上下文长度 | Context Length | Module 1 |
| 条件边 | Conditional Edge | Module 4 |
| 约束解码 | Constrained Decoding | Module 3 |
| 对比解码 | Contrastive Decoding | Module 1 |
| 代码解释器 | Code Interpreter | Module 3 |
| 编排 | Orchestration | Module 4 |
D
| 术语 | 英文 | 首次出现章节 |
|---|---|---|
| 直接偏好优化 | Direct Preference Optimization (DPO) | Module 1 |
| 去重 | Deduplication | Module 2 |
| 去噪 | Denoising | Module 2 |
| 动态路由 | Dynamic Routing | Module 3 |
E
| 术语 | 英文 | 首次出现章节 |
|---|---|---|
| 嵌入 | Embedding | Module 2 |
| 指数移动平均 | Exponential Moving Average (EMA) | Module 1 |
| 执行器 | Executor | Module 4 |
F
| 术语 | 英文 | 首次出现章节 |
|---|---|---|
| 少样本学习 | Few-Shot Learning | Module 1 |
| 前馈神经网络 | Feed-Forward Neural Network (FFN) | Module 1 |
| 函数调用 | Function Calling | Module 3 |
| 微调 | Fine-tuning | Module 1 |
| 基础模型 | Foundation Model | Module 1 |
G
| 术语 | 英文 | 首次出现章节 |
|---|---|---|
| 生成对抗网络 | Generative Adversarial Network (GAN) | Module 8 |
| 梯度检查点 | Gradient Checkpointing | Module 1 |
| 分组查询注意力 | Grouped-Query Attention (GQA) | Module 1 |
| 图神经网络 | Graph Neural Network (GNN) | Module 8 |
| 思维图 | Graph of Thought (GoT) | Module 4 |
| 群组相对策略优化 | Group Relative Policy Optimization (GRPO) | Module 1 |
| 门控 | Gating | Module 1 |
| 网关 | Gateway | Module 7 |
H
| 术语 | 英文 | 首次出现章节 |
|---|---|---|
| 幻觉 | Hallucination | Module 2 |
| 人工介入 | Human-in-the-Loop (HITL) | Module 4 |
| 混合专家 | Mixture of Experts (MoE) | Module 1 |
| 幻觉评估 | Hallucination Evaluation | Module 6 |
I
| 术语 | 英文 | 首次出现章节 |
|---|---|---|
| 指令微调 | Instruction Fine-tuning (SFT) | Module 1 |
| 插值 | Interpolation | Module 1 |
| 不可变 | Immutable | Module 6 |
J
| 术语 | 英文 | 首次出现章节 |
|---|---|---|
| 跳跃连接 | Jump Connection | Module 1 |
K
| 术语 | 英文 | 首次出现章节 |
|---|---|---|
| 键值缓存 | KV Cache | Module 1 |
| 知识蒸馏 | Knowledge Distillation | Module 1 |
| 知识库 | Knowledge Base | Module 2 |
L
| 术语 | 英文 | 首次出现章节 |
|---|---|---|
| 大语言模型 | Large Language Model (LLM) | Module 1 |
| 层归一化 | Layer Normalization | Module 1 |
| 低秩自适应 | Low-Rank Adaptation (LoRA) | Module 1 |
| 循环 | Loop | Module 4 |
M
| 术语 | 英文 | 首次出现章节 |
|---|---|---|
| 记忆 | Memory | Module 4 |
| 模型上下文协议 | Model Context Protocol (MCP) | Module 3 |
| 多模态 | Multimodal | Module 8 |
| 多智能体 | Multi-Agent | Module 5 |
| 多头注意力 | Multi-Head Attention (MHA) | Module 1 |
| 多查询注意力 | Multi-Query Attention (MQA) | Module 1 |
| 元数据 | Metadata | Module 2 |
N
| 术语 | 英文 | 首次出现章节 |
|---|---|---|
| 导航 | Navigation | Module 4 |
| 近端策略优化 | Proximal Policy Optimization (PPO) | Module 1 |
O
| 术语 | 英文 | 首次出现章节 |
|---|---|---|
| 开源 | Open Source | Module 8 |
| 输出解析器 | Output Parser | Module 1 |
| 越狱 | Jailbreak | Module 6 |
P
| 术语 | 英文 | 首次出现章节 |
|---|---|---|
| 参数高效微调 | Parameter-Efficient Fine-Tuning (PEFT) | Module 1 |
| 规划 | Planning | Module 4 |
| 提示词工程 | Prompt Engineering | Module 1 |
| 提示模板 | Prompt Template | Module 1 |
| 预训练 | Pre-training | Module 1 |
| 概率分布 | Probability Distribution | Module 1 |
| 量化 | Quantization | Module 1 |
| 量化感知训练 | Quantization-Aware Training (QAT) | Module 1 |
| 查询重写 | Query Rewriting | Module 2 |
Q
| 术语 | 英文 | 首次出现章节 |
|---|---|---|
| 量化 | Quantization | Module 1 |
R
| 术语 | 英文 | 首次出现章节 |
|---|---|---|
| 检索增强生成 | Retrieval-Augmented Generation (RAG) | Module 2 |
| 反应式推理 | Reasoning + Acting (ReAct) | Module 4 |
| 重排序 | Rerank / Re-ranking | Module 2 |
| 强化学习 | Reinforcement Learning (RL) | Module 1 |
| 人类反馈的强化学习 | Reinforcement Learning from Human Feedback (RLHF) | Module 1 |
| 旋转位置编码 | Rotary Positional Embedding (RoPE) | Module 1 |
| 根因分析 | Root Cause Analysis | Module 6 |
| 鲁棒性 | Robustness | Module 6 |
| 路由 | Routing | Module 3 |
| 召回率 | Recall | Module 2 |
| 精确率 | Precision | Module 2 |
S
| 术语 | 英文 | 首次出现章节 |
|---|---|---|
| 安全 | Safety | Module 6 |
| 可扩展性 | Scalability | Module 7 |
| 自我修正 | Self-Correction | Module 4 |
| 自洽性 | Self-Consistency | Module 4 |
| 反思 | Self-Reflection | Module 4 |
| 语义搜索 | Semantic Search | Module 2 |
| 分块 | Chunking | Module 2 |
| 有状态 | Stateful | Module 4 |
| 状态图 | State Graph | Module 4 |
| 流式输出 | Streaming Output | Module 6 |
| 监督微调 | Supervised Fine-Tuning (SFT) | Module 1 |
| 序列到序列 | Sequence-to-Sequence (Seq2Seq) | Module 1 |
| 系统提示 | System Prompt | Module 1 |
T
| 术语 | 英文 | 首次出现章节 |
|---|---|---|
| 标记 | Token | Module 1 |
| 分词器 | Tokenizer | Module 1 |
| 工具调用 | Tool Calling | Module 3 |
| 工具选择 | Tool Selection | Module 3 |
| 温度参数 | Temperature | Module 1 |
| 思维树 | Tree of Thought (ToT) | Module 4 |
| 截断 | Truncation | Module 1 |
| 吞吐量 | Throughput | Module 7 |
| top-p 采样 | Top-p Sampling (Nucleus Sampling) | Module 1 |
| 任务分解 | Task Decomposition | Module 4 |
V
| 术语 | 英文 | 首次出现章节 |
|---|---|---|
| 向量数据库 | Vector Database | Module 2 |
| 向量检索 | Vector Search | Module 2 |
| 视觉语言模型 | Vision-Language Model (VLM) | Module 8 |
W
| 术语 | 英文 | 首次出现章节 |
|---|---|---|
| 工作流 | Workflow | Module 4 |
| 权重量化 | Weight Quantization | Module 1 |
| 权重 | Weight | Module 1 |
| 工作记忆 | Working Memory | Module 4 |
X
| 术语 | 英文 | 首次出现章节 |
|---|---|---|
| 位置编码 | Positional Encoding | Module 1 |
二、缩写速查表
模型与架构
| 缩写 | 全称 | 中文 | 首次出现章节 |
|---|---|---|---|
| LLM | Large Language Model | 大语言模型 | Module 1 |
| Transformer | Transformer | Transformer 架构 | Module 1 |
| MoE | Mixture of Experts | 混合专家模型 | Module 1 |
| MHA | Multi-Head Attention | 多头注意力 | Module 1 |
| MQA | Multi-Query Attention | 多查询注意力 | Module 1 |
| GQA | Grouped-Query Attention | 分组查询注意力 | Module 1 |
| FFN | Feed-Forward Network | 前馈神经网络 | Module 1 |
| RoPE | Rotary Positional Embedding | 旋转位置编码 | Module 1 |
| ALiBi | Attention with Linear Biases | 线性偏置注意力 | Module 1 |
| KV Cache | Key-Value Cache | 键值缓存 | Module 1 |
| SSM | State Space Model | 状态空间模型 | Module 8 |
| VLM | Vision-Language Model | 视觉语言模型 | Module 8 |
| CLIP | Contrastive Language-Image Pre-training | 对比语言-图像预训练 | Module 8 |
| SLM | Small Language Model | 小语言模型 | Module 1 |
| VLLM | Very Large Language Model | 超大规模语言模型 | Module 7 |
| AGI | Artificial General Intelligence | 通用人工智能 | Module 8 |
| ANN | Approximate Nearest Neighbor | 近似最近邻 | Module 2 |
| HNSW | Hierarchical Navigable Small World | 分层可导航小世界 | Module 2 |
微调与对齐
| 缩写 | 全称 | 中文 | 首次出现章节 |
|---|---|---|---|
| PEFT | Parameter-Efficient Fine-Tuning | 参数高效微调 | Module 1 |
| LoRA | Low-Rank Adaptation | 低秩自适应 | Module 1 |
| QLoRA | Quantized Low-Rank Adaptation | 量化低秩自适应 | Module 1 |
| SFT | Supervised Fine-Tuning | 监督微调 | Module 1 |
| RLHF | Reinforcement Learning from Human Feedback | 人类反馈强化学习 | Module 1 |
| DPO | Direct Preference Optimization | 直接偏好优化 | Module 1 |
| GRPO | Group Relative Policy Optimization | 群组相对策略优化 | Module 1 |
| PPO | Proximal Policy Optimization | 近端策略优化 | Module 1 |
| RLOO | Reinforcement Learning with Online Off-policy | 在线离策略强化学习 | Module 1 |
| QAT | Quantization-Aware Training | 量化感知训练 | Module 1 |
| PTQ | Post-Training Quantization | 训练后量化 | Module 1 |
Agent 与工具
| 缩写 | 全称 | 中文 | 首次出现章节 |
|---|---|---|---|
| Agent | Agent | 智能体 | Module 4 |
| MCP | Model Context Protocol | 模型上下文协议 | Module 3 |
| ReAct | Reasoning + Acting | 反应式推理 | Module 4 |
| CoT | Chain of Thought | 思维链 | Module 4 |
| ToT | Tree of Thought | 思维树 | Module 4 |
| GoT | Graph of Thought | 思维图 | Module 4 |
| HITL | Human-in-the-Loop | 人工介入 | Module 4 |
| RAG | Retrieval-Augmented Generation | 检索增强生成 | Module 2 |
| API | Application Programming Interface | 应用程序编程接口 | Module 1 |
| SDK | Software Development Kit | 软件开发工具包 | Module 1 |
检索与评估
| 缩写 | 全文 | 中文 | 首次出现章节 |
|---|---|---|---|
| RAG | Retrieval-Augmented Generation | 检索增强生成 | Module 2 |
| RRF | Reciprocal Rank Fusion | 倒数排名融合 | Module 2 |
| BM25 | Best Matching 25 | BM25 检索算法 | Module 2 |
| HyDE | Hypothetical Document Embeddings | 假设文档嵌入 | Module 2 |
| RAGAS | RAG Assessment | RAG 评估框架 | Module 2 |
| EM | Exact Match | 精确匹配 | Module 2 |
| F1 | F1 Score | F1 分数 | Module 2 |
| NDCG | Normalized Discounted Cumulative Gain | 归一化折损累积增益 | Module 2 |
| MRR | Mean Reciprocal Rank | 平均倒数排名 | Module 2 |
| LLM-as-a-Judge | LLM as a Judge | 大模型作为评判者 | Module 2 |
推理与部署
| 缩写 | 全称 | 中文 | 首次出现章节 |
|---|---|---|---|
| vLLM | vLLM | vLLM 推理框架 | Module 7 |
| TGI | Text Generation Inference | 文本生成推理 | Module 7 |
| TRT-LLM | TensorRT-LLM | TensorRT 大语言模型推理 | Module 7 |
| SGLang | Structured Generation Language | 结构化生成语言 | Module 7 |
| SSE | Server-Sent Events | 服务器推送事件 | Module 6 |
| WebSocket | WebSocket | WebSocket 协议 | Module 6 |
| API Gateway | API Gateway | API 网关 | Module 7 |
| CI/CD | Continuous Integration / Continuous Deployment | 持续集成/持续部署 | Module 7 |
| Docker | Docker | Docker 容器化 | Module 7 |
| K8s | Kubernetes | Kubernetes 容器编排 | Module 7 |
| GPU | Graphics Processing Unit | 图形处理器 | Module 7 |
| VRAM | Video RAM | 显存 | Module 7 |
| QPS | Queries Per Second | 每秒查询数 | Module 6 |
| TTFT | Time To First Token | 首 Token 延迟 | Module 6 |
| TPS | Tokens Per Second | 每秒 Token 数 | Module 7 |
| SLA | Service Level Agreement | 服务级别协议 | Module 6 |
| SLO | Service Level Objective | 服务级别目标 | Module 6 |
三、核心概念速览
LLM 基础
- Token:文本的最小处理单元,可以是一个词、子词或字符。
- Temperature:控制生成随机性的超参数,值越高输出越多样,值越低输出越确定。
- Top-p Sampling:从累积概率达到阈值 p 的最小词汇集合中采样,控制生成的多样性。
- Attention Mechanism:让模型在处理每个位置时能够关注输入的所有其他位置。
- Positional Encoding:为 Token 注入位置信息,使 Transformer 能理解序列顺序。
RAG 核心
- Embedding:将文本转换为固定维度向量表示的过程,保留语义信息。
- Vector Database:专门存储和检索向量数据的数据库,支持高效的相似度搜索。
- Rerank:对初步检索结果进行二次排序,提升相关性。
- Hallucination:模型生成的内容与事实不符的现象,RAG 的核心目标之一就是缓解幻觉。
Agent 核心
- ReAct:将推理(Reasoning)与行动(Acting)交替进行的 Agent 范式。
- Function Calling:让 LLM 能够调用外部工具/API 并整合结果到生成中。
- Memory:Agent 的记忆系统,包括短期记忆(对话上下文)和长期记忆(持久化知识)。
- Planning:Agent 将复杂任务分解为子步骤并有序执行的能力。
微调与对齐
- LoRA:通过低秩矩阵注入到预训练权重中,仅训练少量参数即可完成微调。
- QLoRA:在 4-bit 量化模型上运行 LoRA,大幅降低显存需求。
- RLHF:通过人类反馈训练奖励模型,再用强化学习优化语言模型策略。
- DPO:直接用偏好数据优化模型,跳过奖励模型和强化学习阶段,更简洁高效。