跳转至

对齐技术:从RLHF到DPO到宪法AI

8.3.5 对齐技术:从 RLHF 到 DPO 到宪法 AI

时间范围:2017-2025

本节在整体演进史中的位置:前一阶段解决的是“模型变大后能力如何涌现”,本阶段转向“能力变强后如何让模型按人类意图行动”。核心转变是:对齐不再只是 Prompt 层面的约束,而成为预训练之后最关键的后训练工程。它也引出下一阶段的问题:当模型能力超过人类评估能力时,谁来监督模型?

时代背景

到 2021-2022 年,LLM 已经证明“规模”可以带来语言理解、生成和少样本泛化能力,但工程落地马上遇到一个更尖锐的问题:模型会说话,不代表它会“好好说话”。基础模型的训练目标只是预测下一个 Token,它并不知道什么叫有帮助、真实、无害、符合用户意图。OpenAI 的 InstructGPT 论文明确指出,更大的语言模型并不会天然更会遵循用户意图,仍可能生成不真实、有害或无用的内容。(arXiv)

这个阶段的突破来自三个条件叠加:第一,GPT-3 级别模型已经具备足够通用能力,值得在其上做行为塑形;第二,API 产品化带来了真实用户 Prompt 和人工偏好数据;第三,强化学习、偏好建模和大规模分布式训练基础设施逐渐成熟,使“先让模型会,再让模型听话”的后训练路线成为可能。工程上,这一阶段的本质不是发明一个更聪明的模型架构,而是发明一套把人类偏好、原则和安全边界注入模型行为的流水线。

关键突破

PPO:让 RLHF 有了可控优化器(2017)

一句话定位:PPO 不是为 LLM 发明的,但它后来成为早期 RLHF 的核心优化器。

核心贡献

PPO 解决的是传统策略梯度训练不稳定的问题。它通过限制新旧策略更新幅度,让模型在提升奖励的同时不要一步跨太大,避免训练崩掉。原始 PPO 论文将其定位为一种在实现复杂度、采样效率和训练稳定性之间取得较好平衡的策略优化方法。(arXiv)

放到 LLM 对齐里,PPO 的价值在于:模型可以根据 Reward Model 给出的分数继续优化,但又通过 KL 约束避免偏离原始语言模型太远。没有这个“刹车”,模型很容易学会钻 Reward Model 的空子,生成看似高分但实际很怪的回答。

工程师视角

如果你在 2022 年做 RLHF,PPO 意味着你的训练流程不再是普通 SFT。你需要同时维护 Policy Model、Reference Model、Reward Model,有时还要训练 Value Model;训练时要监控 KL、reward、response length、toxicity 等指标。它能带来效果,但工程代价非常高:显存、分布式训练、采样吞吐、超参稳定性都变成问题。

📄 原始论文:Schulman et al., 2017, arXiv:1707.06347

InstructGPT / RLHF:从“语言建模”到“用户意图对齐”(2022)

一句话定位:InstructGPT 让 RLHF 成为 ChatGPT 时代对齐训练的事实标准。

核心贡献

InstructGPT 的核心不是简单微调,而是一条三阶段流水线:先用人工示范数据做 SFT,让模型学会基础指令跟随;再收集人类对多个候选回答的排序,训练 Reward Model;最后用 PPO 优化模型,使其输出更符合人类偏好。论文中一个标志性结果是,1.3B 参数的 InstructGPT 在人工偏好评估中优于 175B GPT-3,说明“对齐质量”可以比单纯参数规模更影响用户体验。(arXiv)

它承接了 GPT-3 的痛点:基础模型知识多、表达强,但不好控。RLHF 把“好回答”从抽象价值判断变成可训练信号,让模型在 helpfulness、truthfulness、harmlessness 上更接近产品要求。

工程师视角

这项工作改变了大模型应用团队的分工。过去工程师重点关注 Prompt 和推理接口;RLHF 普及后,数据标注、偏好采集、模型评估、Reward Model 训练、灰度上线都进入核心工作流。你会发现,产品里的“模型性格”和“回答风格”不只是 Prompt 写出来的,而是由后训练数据和偏好目标塑造出来的。

📄 原始论文:Ouyang et al., 2022, arXiv:2203.02155

Constitutional AI:用原则替代部分人工偏好标注(2022)

一句话定位:Constitutional AI 是 Anthropic 对 RLHF 标注成本和安全边界问题的系统性回应。

核心贡献

Constitutional AI 的关键思想是:不要让人类逐条告诉模型哪个回答更安全,而是给模型一组明确原则,让模型基于这些原则自我批评、自我改写,再用 AI Feedback 训练偏好模型。Anthropic 的论文将其称为 RLAIF,即 Reinforcement Learning from AI Feedback;人类监督主要体现在制定“宪法”原则,而不是对每个有害样本做偏好打分。(arXiv)

它解决了 RLHF 的两个痛点:第一,安全样本标注成本高,而且标注员长期接触有害内容会有心理负担;第二,人类偏好常常不一致,而原则可以显式表达系统希望遵循的价值边界。

工程师视角

这让安全对齐从“堆标注”转向“写规范 + 自动生成训练数据”。如果你在企业里做内部模型,Constitutional AI 的启发是:不要只靠人工审核坏案例,而要把公司政策、合规边界、行业规范整理成可执行原则,再让模型参与批评、修订和生成偏好数据。但坑也很明显:原则写得含糊,模型会学得含糊;原则之间冲突,模型会表现出过度拒答或边界漂移。

📄 原始论文:Bai et al., 2022, arXiv:2212.08073

DPO:把复杂 RLHF 变成偏好分类问题(2023)

一句话定位:DPO 是对齐工程从“强化学习重工程”走向“偏好数据微调”的关键拐点。

核心贡献

DPO 的动机很直接:PPO-based RLHF 很强,但太复杂。DPO 论文指出,传统 RLHF 需要先训练 Reward Model,再用强化学习优化策略,训练过程不稳定且计算成本高;DPO 通过重新参数化 reward,把标准 RLHF 目标转化为一个简单的分类损失,直接让模型提高 chosen response 相对 rejected response 的概率。(arXiv)

工程上可以把 DPO 理解为:你仍然需要偏好数据,但不再需要完整 RL 环境、Reward Model 在线打分、PPO 采样循环和大量 RL 超参。它降低了中小团队做指令对齐的门槛,也解释了为什么后来的开源模型社区大量采用 DPO、IPO、KTO、ORPO 等偏好优化变体。

工程师视角

DPO 最大的变化是工作流变简单了。以前做 RLHF 需要 RL 训练栈,现在更像做一次特殊形式的 SFT:准备 chosen/rejected 数据对,启动训练,重点调 beta、学习率、数据质量。它特别适合企业私有模型做风格、拒答边界、领域偏好对齐。但它不是银弹:如果偏好数据本身噪声很大,DPO 会非常直接地把噪声学进去;如果 rejected 样本太弱,模型学不到细粒度偏好。

📄 原始论文:Rafailov et al., 2023, arXiv:2305.18290

Weak-to-Strong Generalization:超级对齐问题浮出水面(2023)

一句话定位:Weak-to-Strong Generalization 把对齐问题从“人类监督模型”推进到“弱监督如何控制强模型”。

核心贡献

OpenAI 的弱到强泛化研究提出了一个面向超级对齐的问题:如果未来模型能力超过人类,人类就无法可靠评估所有复杂行为,RLHF 的监督前提会失效。论文用较弱模型监督更强模型做类比实验,研究强模型是否能从弱标签中恢复出更强能力;结果显示,强模型通常能超过弱监督者,但距离充分发挥自身能力仍有差距。(arXiv)

这里需要纠正一个常见误读:它不是简单的“GPT-4 监督 GPT-4”,而是用弱模型监督强模型,模拟未来“人类是弱监督者、超级模型是强学生”的结构。OpenAI 还展示了一些改进方法,例如辅助置信度损失,能提升弱到强泛化效果。(arXiv)

工程师视角

这项工作对今天的直接启发是:评估体系不能只依赖人类肉眼打分。对于代码、数学、法律、金融这类高复杂任务,工程团队需要引入可验证环境、自动测试、形式化约束、专家抽检和模型辅助评审。否则,模型越强,人类越容易被“看起来很对”的答案说服。

📄 原始论文:Burns et al., 2023, arXiv:2312.09390

GRPO / DeepSeek-R1:面向推理能力的低成本 RL 路线(2024-2025)

一句话定位:GRPO 代表了中国开源模型阵营在推理对齐上的重要工程化突破。

核心贡献

GRPO 最早在 DeepSeekMath 中被系统提出,它是 PPO 的变体,核心做法是去掉单独的 critic/value model,用同一问题下多条生成结果的组内相对分数估计 baseline,从而降低训练资源消耗。DeepSeekMath 论文明确称 GRPO 可以提升数学推理能力,同时优化 PPO 的内存使用。(arXiv)

到 DeepSeek-R1,GRPO 被用于大规模推理强化学习。DeepSeek-R1-Zero 展示了不经过传统 SFT、直接用大规模 RL 激发推理行为的可能性;DeepSeek-R1 则加入冷启动数据和多阶段训练,以改善可读性、语言混杂等问题。(arXiv)

工程师视角

GRPO 的意义不只是“又一个 RL 算法”,而是降低了推理模型训练的基础设施门槛。对国内团队尤其重要:在算力受限、模型开源生态活跃、应用场景强调数学/代码/复杂推理的背景下,GRPO 提供了一条比传统 PPO 更轻的路径。但它也提醒工程师:推理 RL 不等于通用安全对齐,数学题奖励可验证,开放问答和价值判断的奖励设计仍然困难。

📄 原始论文:Shao et al., 2024, arXiv:2402.03300
📄 原始论文:DeepSeek-AI et al., 2025, arXiv:2501.12948

阶段总结

timeline
    title 对齐技术:从 RLHF 到 DPO 到宪法 AI
    2017 : PPO 提出,为后续 RLHF 提供稳定策略优化器
    2022 : InstructGPT 用 SFT + Reward Model + PPO 建立 RLHF 标准流程
    2022 : Constitutional AI 提出,用原则和 AI Feedback 降低人工安全标注成本
    2023 : DPO 将偏好优化简化为分类损失,降低对齐训练工程门槛
    2023 : Weak-to-Strong Generalization 提出超级对齐的可实验问题
    2024 : DeepSeekMath 提出 GRPO,降低 PPO 类训练的内存成本
    2025 : DeepSeek-R1 用 GRPO 展示大规模推理 RL 的开源路线

本阶段核心主题:对齐技术的主线,是把“人类想要什么”转化为模型可优化的训练信号。早期 RLHF 证明偏好数据能显著改善产品体验,DPO 让偏好优化变得更易复现,Constitutional AI 和弱到强泛化则把问题推进到更本质的层面:当人工标注不足以覆盖复杂行为时,模型能否参与监督模型?

历史意义与遗留问题

这个阶段最重要的成就是:大模型从“会续写文本的基础模型”变成“能遵循指令的 AI 助手”。RLHF 建立了 ChatGPT 类产品的后训练范式;DPO 降低了开源和企业模型对齐的工程门槛;Constitutional AI 证明原则监督可以部分替代人工偏好标注;GRPO 则让强化学习重新成为推理模型训练的核心工具之一。

但遗留问题同样关键。第一,偏好数据并不等于真实价值观,标注员偏好、平台政策、区域文化都会影响模型行为。第二,Reward Hacking 仍然存在,模型可能学会迎合评分器而不是真正解决问题。第三,安全原则难以穷举,过度保守会伤害可用性,过度宽松又带来风险。第四,超级对齐问题还没有解决:当模型能力超过人类评估能力时,传统 RLHF 的监督闭环会变得脆弱。这正是下一阶段“可验证监督、模型辅助评审、自动化对齐研究”继续展开的原因。


Sources: