附录 C：术语表

本附录包含书中出现的核心术语、缩写及概念，便于读者快速查阅与复习。

一、中英文对照索引

A

术语	英文	首次出现章节
注意力机制	Attention Mechanism	Module 1
对齐	Alignment	Module 1
智能体	Agent	Module 4
人工智能通用人工智能	AGI (Artificial General Intelligence)	Module 8
增强生成	Augmented Generation	Module 2
自回归	Autoregressive	Module 1

B

术语	英文	首次出现章节
基础模型	Base Model	Module 1
批量推理	Batch Inference	Module 7
束搜索	Beam Search	Module 1
瓶颈	Bottleneck	Module 6
大脑	Brain	Module 4

C

术语	英文	首次出现章节
思维链	Chain of Thought (CoT)	Module 4
检查点	Checkpoint	Module 4
上下文	Context	Module 2
上下文窗口	Context Window	Module 1
上下文长度	Context Length	Module 1
条件边	Conditional Edge	Module 4
约束解码	Constrained Decoding	Module 3
对比解码	Contrastive Decoding	Module 1
代码解释器	Code Interpreter	Module 3
编排	Orchestration	Module 4

D

术语	英文	首次出现章节
直接偏好优化	Direct Preference Optimization (DPO)	Module 1
去重	Deduplication	Module 2
去噪	Denoising	Module 2
动态路由	Dynamic Routing	Module 3

E

术语	英文	首次出现章节
嵌入	Embedding	Module 2
指数移动平均	Exponential Moving Average (EMA)	Module 1
执行器	Executor	Module 4

F

术语	英文	首次出现章节
少样本学习	Few-Shot Learning	Module 1
前馈神经网络	Feed-Forward Neural Network (FFN)	Module 1
函数调用	Function Calling	Module 3
微调	Fine-tuning	Module 1
基础模型	Foundation Model	Module 1

G

术语	英文	首次出现章节
生成对抗网络	Generative Adversarial Network (GAN)	Module 8
梯度检查点	Gradient Checkpointing	Module 1
分组查询注意力	Grouped-Query Attention (GQA)	Module 1
图神经网络	Graph Neural Network (GNN)	Module 8
思维图	Graph of Thought (GoT)	Module 4
群组相对策略优化	Group Relative Policy Optimization (GRPO)	Module 1
门控	Gating	Module 1
网关	Gateway	Module 7

H

术语	英文	首次出现章节
幻觉	Hallucination	Module 2
人工介入	Human-in-the-Loop (HITL)	Module 4
混合专家	Mixture of Experts (MoE)	Module 1
幻觉评估	Hallucination Evaluation	Module 6

I

术语	英文	首次出现章节
指令微调	Instruction Fine-tuning (SFT)	Module 1
插值	Interpolation	Module 1
不可变	Immutable	Module 6

J

术语	英文	首次出现章节
跳跃连接	Jump Connection	Module 1

K

术语	英文	首次出现章节
键值缓存	KV Cache	Module 1
知识蒸馏	Knowledge Distillation	Module 1
知识库	Knowledge Base	Module 2

L

术语	英文	首次出现章节
大语言模型	Large Language Model (LLM)	Module 1
层归一化	Layer Normalization	Module 1
低秩自适应	Low-Rank Adaptation (LoRA)	Module 1
循环	Loop	Module 4

M

术语	英文	首次出现章节
记忆	Memory	Module 4
模型上下文协议	Model Context Protocol (MCP)	Module 3
多模态	Multimodal	Module 8
多智能体	Multi-Agent	Module 5
多头注意力	Multi-Head Attention (MHA)	Module 1
多查询注意力	Multi-Query Attention (MQA)	Module 1
元数据	Metadata	Module 2

N

术语	英文	首次出现章节
导航	Navigation	Module 4
近端策略优化	Proximal Policy Optimization (PPO)	Module 1

O

术语	英文	首次出现章节
开源	Open Source	Module 8
输出解析器	Output Parser	Module 1
越狱	Jailbreak	Module 6

P

术语	英文	首次出现章节
参数高效微调	Parameter-Efficient Fine-Tuning (PEFT)	Module 1
规划	Planning	Module 4
提示词工程	Prompt Engineering	Module 1
提示模板	Prompt Template	Module 1
预训练	Pre-training	Module 1
概率分布	Probability Distribution	Module 1
量化	Quantization	Module 1
量化感知训练	Quantization-Aware Training (QAT)	Module 1
查询重写	Query Rewriting	Module 2

Q

术语	英文	首次出现章节
量化	Quantization	Module 1

R

术语	英文	首次出现章节
检索增强生成	Retrieval-Augmented Generation (RAG)	Module 2
反应式推理	Reasoning + Acting (ReAct)	Module 4
重排序	Rerank / Re-ranking	Module 2
强化学习	Reinforcement Learning (RL)	Module 1
人类反馈的强化学习	Reinforcement Learning from Human Feedback (RLHF)	Module 1
旋转位置编码	Rotary Positional Embedding (RoPE)	Module 1
根因分析	Root Cause Analysis	Module 6
鲁棒性	Robustness	Module 6
路由	Routing	Module 3
召回率	Recall	Module 2
精确率	Precision	Module 2

S

术语	英文	首次出现章节
安全	Safety	Module 6
可扩展性	Scalability	Module 7
自我修正	Self-Correction	Module 4
自洽性	Self-Consistency	Module 4
反思	Self-Reflection	Module 4
语义搜索	Semantic Search	Module 2
分块	Chunking	Module 2
有状态	Stateful	Module 4
状态图	State Graph	Module 4
流式输出	Streaming Output	Module 6
监督微调	Supervised Fine-Tuning (SFT)	Module 1
序列到序列	Sequence-to-Sequence (Seq2Seq)	Module 1
系统提示	System Prompt	Module 1

T

术语	英文	首次出现章节
标记	Token	Module 1
分词器	Tokenizer	Module 1
工具调用	Tool Calling	Module 3
工具选择	Tool Selection	Module 3
温度参数	Temperature	Module 1
思维树	Tree of Thought (ToT)	Module 4
截断	Truncation	Module 1
吞吐量	Throughput	Module 7
top-p 采样	Top-p Sampling (Nucleus Sampling)	Module 1
任务分解	Task Decomposition	Module 4

V

术语	英文	首次出现章节
向量数据库	Vector Database	Module 2
向量检索	Vector Search	Module 2
视觉语言模型	Vision-Language Model (VLM)	Module 8

W

术语	英文	首次出现章节
工作流	Workflow	Module 4
权重量化	Weight Quantization	Module 1
权重	Weight	Module 1
工作记忆	Working Memory	Module 4

X

术语	英文	首次出现章节
位置编码	Positional Encoding	Module 1

二、缩写速查表

模型与架构

缩写	全称	中文	首次出现章节
LLM	Large Language Model	大语言模型	Module 1
Transformer	Transformer	Transformer 架构	Module 1
MoE	Mixture of Experts	混合专家模型	Module 1
MHA	Multi-Head Attention	多头注意力	Module 1
MQA	Multi-Query Attention	多查询注意力	Module 1
GQA	Grouped-Query Attention	分组查询注意力	Module 1
FFN	Feed-Forward Network	前馈神经网络	Module 1
RoPE	Rotary Positional Embedding	旋转位置编码	Module 1
ALiBi	Attention with Linear Biases	线性偏置注意力	Module 1
KV Cache	Key-Value Cache	键值缓存	Module 1
SSM	State Space Model	状态空间模型	Module 8
VLM	Vision-Language Model	视觉语言模型	Module 8
CLIP	Contrastive Language-Image Pre-training	对比语言-图像预训练	Module 8
SLM	Small Language Model	小语言模型	Module 1
VLLM	Very Large Language Model	超大规模语言模型	Module 7
AGI	Artificial General Intelligence	通用人工智能	Module 8
ANN	Approximate Nearest Neighbor	近似最近邻	Module 2
HNSW	Hierarchical Navigable Small World	分层可导航小世界	Module 2

微调与对齐

缩写	全称	中文	首次出现章节
PEFT	Parameter-Efficient Fine-Tuning	参数高效微调	Module 1
LoRA	Low-Rank Adaptation	低秩自适应	Module 1
QLoRA	Quantized Low-Rank Adaptation	量化低秩自适应	Module 1
SFT	Supervised Fine-Tuning	监督微调	Module 1
RLHF	Reinforcement Learning from Human Feedback	人类反馈强化学习	Module 1
DPO	Direct Preference Optimization	直接偏好优化	Module 1
GRPO	Group Relative Policy Optimization	群组相对策略优化	Module 1
PPO	Proximal Policy Optimization	近端策略优化	Module 1
RLOO	Reinforcement Learning with Online Off-policy	在线离策略强化学习	Module 1
QAT	Quantization-Aware Training	量化感知训练	Module 1
PTQ	Post-Training Quantization	训练后量化	Module 1

Agent 与工具

缩写	全称	中文	首次出现章节
Agent	Agent	智能体	Module 4
MCP	Model Context Protocol	模型上下文协议	Module 3
ReAct	Reasoning + Acting	反应式推理	Module 4
CoT	Chain of Thought	思维链	Module 4
ToT	Tree of Thought	思维树	Module 4
GoT	Graph of Thought	思维图	Module 4
HITL	Human-in-the-Loop	人工介入	Module 4
RAG	Retrieval-Augmented Generation	检索增强生成	Module 2
API	Application Programming Interface	应用程序编程接口	Module 1
SDK	Software Development Kit	软件开发工具包	Module 1

检索与评估

缩写	全文	中文	首次出现章节
RAG	Retrieval-Augmented Generation	检索增强生成	Module 2
RRF	Reciprocal Rank Fusion	倒数排名融合	Module 2
BM25	Best Matching 25	BM25 检索算法	Module 2
HyDE	Hypothetical Document Embeddings	假设文档嵌入	Module 2
RAGAS	RAG Assessment	RAG 评估框架	Module 2
EM	Exact Match	精确匹配	Module 2
F1	F1 Score	F1 分数	Module 2
NDCG	Normalized Discounted Cumulative Gain	归一化折损累积增益	Module 2
MRR	Mean Reciprocal Rank	平均倒数排名	Module 2
LLM-as-a-Judge	LLM as a Judge	大模型作为评判者	Module 2

推理与部署

缩写	全称	中文	首次出现章节
vLLM	vLLM	vLLM 推理框架	Module 7
TGI	Text Generation Inference	文本生成推理	Module 7
TRT-LLM	TensorRT-LLM	TensorRT 大语言模型推理	Module 7
SGLang	Structured Generation Language	结构化生成语言	Module 7
SSE	Server-Sent Events	服务器推送事件	Module 6
WebSocket	WebSocket	WebSocket 协议	Module 6
API Gateway	API Gateway	API 网关	Module 7
CI/CD	Continuous Integration / Continuous Deployment	持续集成/持续部署	Module 7
Docker	Docker	Docker 容器化	Module 7
K8s	Kubernetes	Kubernetes 容器编排	Module 7
GPU	Graphics Processing Unit	图形处理器	Module 7
VRAM	Video RAM	显存	Module 7
QPS	Queries Per Second	每秒查询数	Module 6
TTFT	Time To First Token	首 Token 延迟	Module 6
TPS	Tokens Per Second	每秒 Token 数	Module 7
SLA	Service Level Agreement	服务级别协议	Module 6
SLO	Service Level Objective	服务级别目标	Module 6

三、核心概念速览

LLM 基础

Token：文本的最小处理单元，可以是一个词、子词或字符。
Temperature：控制生成随机性的超参数，值越高输出越多样，值越低输出越确定。
Top-p Sampling：从累积概率达到阈值 p 的最小词汇集合中采样，控制生成的多样性。
Attention Mechanism：让模型在处理每个位置时能够关注输入的所有其他位置。
Positional Encoding：为 Token 注入位置信息，使 Transformer 能理解序列顺序。

RAG 核心

Embedding：将文本转换为固定维度向量表示的过程，保留语义信息。
Vector Database：专门存储和检索向量数据的数据库，支持高效的相似度搜索。
Rerank：对初步检索结果进行二次排序，提升相关性。
Hallucination：模型生成的内容与事实不符的现象，RAG 的核心目标之一就是缓解幻觉。

Agent 核心

ReAct：将推理（Reasoning）与行动（Acting）交替进行的 Agent 范式。
Function Calling：让 LLM 能够调用外部工具/API 并整合结果到生成中。
Memory：Agent 的记忆系统，包括短期记忆（对话上下文）和长期记忆（持久化知识）。
Planning：Agent 将复杂任务分解为子步骤并有序执行的能力。

微调与对齐

LoRA：通过低秩矩阵注入到预训练权重中，仅训练少量参数即可完成微调。
QLoRA：在 4-bit 量化模型上运行 LoRA，大幅降低显存需求。
RLHF：通过人类反馈训练奖励模型，再用强化学习优化语言模型策略。
DPO：直接用偏好数据优化模型，跳过奖励模型和强化学习阶段，更简洁高效。