LLM对齐算法 - PPO / DPO / GRPO / Online DPO / KTO / IPO / ORPO / SimPO

发布时间:2026/7/4 3:31:25

LLM对齐算法 - PPO / DPO / GRPO / Online DPO / KTO / IPO / ORPO / SimPO 什么是“对齐 Alignment”预训练大模型只是学了海量文本的文字规律只会续写文字不懂人类的喜好、安全、需求会胡说八道幻觉、答非所问遇到危险提问会给出有害回答回答干巴巴、不贴心分不清哪种答案人类更喜欢对齐Alignment通过微调算法把模型行为对齐人类价值观、偏好、安全规范让模型做到 HHHHelpful有用、贴心、完整回答Honest诚实、不编造信息Harmless安全、拒绝违规提问对齐算法 实现这个目标的各类损失 / 优化算法PPO/DPO/GRPO/KTO/ORPO/SimPO 全部属于对齐算法对齐两大阶段SFT 监督微调基础对齐用人工写好的「指令 - 标准答案」训练让模型学会听懂指令、标准对话格式是所有对齐的前置步骤偏好对齐核心对齐算法解决「同一个问题多条回答区分好坏」分两大流派在线强化学习对齐、离线偏好优化对齐两大流派在线强化学习派RLHFPPO、GRPO、Online DPO训练时实时采样新回答在线探索离线直接偏好优化派无奖励模型、单轮监督式训练DPO、IPO、KTO、ORPO、SimPO只用标注好的好坏回答对不在线采样PPOProximal Policy Optimization近端策略优化proximalˈprɒksɪməladj. 近端的近源的牙齿近侧的核心传统 RLHF 标准核心算法OpenAI GPT3.5/4 初代对齐方案完整流程三步 RLHFSFT 监督微调训练 Reward ModelRM 奖励打分器PPO 强化学习Actor 生成回答→RM 打分→Critic 价值网络估计优势→裁剪更新策略KL 约束防止模型跑偏OpenAI Instruct GPT 原始论文标准RLHF 是 3 阶段《Training language models to follow instructions with human feedback》官方定义 3 大核心阶段预训练不算 RLHF 流程本身阶段 1SFT 监督微调。拿“人工指令 - 回答对”微调预训练基座让模型听懂指令、会正常对话阶段 2训练 Reward ModelRM 奖励模型。同一个 prompt 生成多条回答人工好坏排序训练打分模型量化人类偏好阶段 3PPO 强化学习迭代。Actor 生成回答 → RM 打分 → Critic 算优势 → PPO 裁剪更新策略搭配 KL 约束防止模型遗忘原有能力市面 “4 步 RLHF” 口径 1把「基座预训练」算进完整工程链路完整模型全生命周期 4 步预训练基座大模型海量文本学习语言SFT 监督微调训练 RM 奖励模型PPO 强化学习优化缺陷预训练不属于 RLHF 对齐流程只是对齐前的前置步骤严格来说不能算 RLHF 内部步骤市面 “4 步 RLHF” 口径 2把 PPO 内部循环拆成独立第 4 阶段即把 PPO 内部的「样本采样 Rollout」单独拆出来变成 4 段流水线SFT训练 RMRollout 采样用 Actor 批量生成回答、RM 打分PPO 参数更新训练本质只是把原来第 3 阶段的 PPO 内部流程一拆二算法逻辑没变只是流水线拆分粒度不同RLHF 第三大阶段就叫「PPO 强化学习迭代」它不是单一操作是循环往复执行多轮的完整训练流程目的是持续优化 Actor 模型。整个阶段会重复跑成千上万次内层循环直到模型收敛、奖励稳定内层单轮迭代的完整执行流水线Actor 生成→RM 打分→Critic 算优势→裁剪更新 KL 约束是这个迭代内部每一轮循环的完整执行步骤核心特点在线交互训练时实时生成新样本泛化能力强显存开销极大同时持有 Actor、Critic、RM、参考模型 4 套权重缺点调参敏感、训练易震荡、资源成本高适用高安全要求、超大基座模型、复杂多维度行为控制Actor 策略模型直译演员生成回答的主大模型就是最终要优化、对外提供服务的对话模型作用接收用户 Prompt输出完整回答PPO 训练的核心优化对象所有参数更新都针对它训练目标多生成高分、人类喜欢的回答少生成劣质 / 违规内容关联初始化权重来自 SFT 微调后的模型Critic 价值网络直译评论家价值评估小网络和 Actor 配套训练核心作用计算优势函数 Advantage判断「这条回答比平均水平好多少」A R - VRRM 给出的真实奖励分数VCritic 预测的这条回答预期奖励如果 A0这条回答更好加大 Actor 更新幅度鼓励如果 A0这条回答很差反向修正 Actor抑制特点不生成文本只做数值打分训练时和 Actor 同步更新PPO 经典「Actor-Critic 双网络架构」KL 散度Kullback-Leibler Divergence全称KL DivergenceKL 散度行业直接简称 KL核心作用防模型 “学跑偏、忘本”Actor 只看奖励会疯狂迎合打分出现两个严重问题灾难性遗忘丢失预训练学到的通用知识、逻辑奖励黑客Reward Hacking钻奖励模型漏洞输出看似高分但毫无意义的文本原理拿一份冻结不动的参考模型Ref ModelSFT 后的原始模型 做基准计算 Actor 当前输出分布 和 参考模型输出分布 的 KL 距离作为惩罚项加到损失里KL 越大Actor 输出和原始模型差距越大惩罚越强强制 Actor 更新时不能脱离原本的语言、知识体系通俗举例参考模型正常回答数学题如果 Actor 为了高分疯狂重复同一句话刷奖励两者分布差异极大KL 惩罚会大幅拉低 loss阻止模型这么更新DPODirect Preference Optimization直接偏好优化2023 年提出离线替代 PPO 的里程碑算法把强化学习转化为普通分类损失不用单独训练奖励模型将奖励函数隐式融入损失输入一组(prompt, 优选回答y_w, 劣选回答y_l)最大化「好回答相对坏回答的概率比值」搭配冻结 SFT 参考模型做 KL 约束特点离线训练无需在线采样不用 Critic/RM仅保留策略 参考 2 个模型。训练稳定、工程简单、显存占用远低于 PPO短板依赖高质量离线偏好数据分布外泛化弱于在线 PPOOnline DPO在线 DPODPO 的在线改良版融合 PPO 在线探索能力 DPO 简单损失区别于原生 DPO原生 DPO 只用固定离线标注数据Online DPO 训练循环中实时生成新回答、人工 / 自动打分持续扩充偏好数据集兼顾 DPO 的稳定与 PPO 的泛化能力适用场景数据量不足、需要持续迭代扩充样本的推理模型GRPOGroup Relative Policy Optimization组相对策略优化DeepSeek 2024 提出PPO 轻量化替代数学 / 代码推理模型标配DeepSeek-R1 核心算法核心创新移除 Critic 价值网络显存直接降低 50%同一条 prompt 批量生成 N 个回答组 Group用组内奖励相对差值替代优势函数内置 KL 正则不用额外奖励模型特点纯在线强化学习完美适配 TTCS 多路径采样场景对数学、代码、逻辑推理提升极强开销远低于 PPO7B 模型单卡即可微调KTOKahneman-Tversky Optimization前景理论偏好优化基于行为经济学前景理论适配单条二元标注单回答点赞 / 点踩无需好坏配对Daniel Kahneman 丹尼尔・卡尼曼ˈkɑːnəmən以色列裔美国心理学家《思考快与慢》作者2002 诺贝尔经济学奖得主Amos Tversky 阿莫斯・特沃斯基ˈtɜːvski卡尼曼长期搭档行为心理学先驱1996 年早逝诺奖不授予逝者因此只有卡尼曼领奖两人核心理论前景理论 Prospect Theory传统经济学假设人是理性的二人证明人做决策存在系统性非理性损失带来的痛苦 同等收益的快乐判断依赖直觉启发、锚定效应、框架偏差KTO Kahneman-Tversky Optimization算法借用二人「前景理论」思想不要求成对好 / 坏样本只用单条回答 正负标签模拟人类对收益、损失的不对称偏好打分核心区别其他算法都需要成对(好,坏)样本KTO 可以只用独立单样本输入单个回答 标签正向 / 负向分别加权损失优势标注成本更低适合海量零散用户反馈对话点赞数据无需参考模型显存友好IPOIdentity Preference Optimization恒等偏好优化DPO 的正则化改进解决 DPO 训练梯度爆炸、偏好过拟合问题损失逻辑DPO 是 sigmoid 二分类损失IPO 改用平方损失强制好坏回答对数概率差逼近固定阈值1/(2β)平滑梯度、防止极端更新适用偏好标注极度干净、数据噪声少的场景ORPOOdds Ratio Preference Optimization比值比偏好优化单阶段对齐算法唯一不需要独立 SFT 阶段、不需要冻结参考模型的主流方法核心创新将偏好损失直接叠加在 SFT 监督损失上一步完成指令微调 人类对齐去掉 DPO 必需的参考模型大幅节省显存。短板长文本、复杂推理场景效果略弱于 DPO/GRPOSimPOSimple Preference Optimization极简偏好优化无参考模型、极简离线偏好算法2024 年提出极致省显存彻底移除 DPO 依赖的冻结参考模型加入长度归一化解决模型偏好生成长回答的 bias损失仅依赖当前模型自身概率比值优势仅加载 1 套模型权重显存占用最低小模型轻量化对齐首选RLHFRLHF Reinforcement Learning from Human Feedback 基于人类反馈的强化学习完整三段式标准流程GPT-3.5/GPT4 原始训练链路阶段 1SFT 监督微调Supervised Fine-Tuning拿人工标注好的高质量「指令 - 回答」对话数据直接微调基座大模型目标让模型学会听懂人类指令、输出通顺合规的文本打下基础对话能力阶段 2RM 奖励模型训练Reward Model同一个 prompt让 SFT 模型生成多条不同回答人工对比排序给回答分出好坏、优劣层级训练一个独立奖励模型输入一段对话输出 0~1 之间的分数代表人类对这段回答的满意程度。作用把人的主观偏好转化为可计算的数字奖励给后续强化学习打分。阶段 3PPO 强化学习优化核心 RL 环节Actor 模型待优化主模型接收 prompt生成回答把回答丢进Reward Model拿到奖励分数用 Critic 价值网络估算每条样本的收益优势PPO 裁剪策略更新同时加 KL 散度约束防止模型彻底跑偏、丢失原有知识迭代更新 Actor让模型越来越倾向生成高分、人类更喜欢的回答。RLAIFRLAIFReinforcement Learning from AI FeedbackAI 反馈强化学习不用人工标注用更强的大模型替代人类打分降低标注成本现在 R1、o1 推理模型主流方案RL vs 直接偏好优化DPO/ORPO 等传统 RLHF 必须单独训 Reward ModelPPO 双阶段强化DPO、KTO、ORPO 这类算法抛弃了完整 RLHF 流程直接用偏好对做损失不用独立奖励模型工程更简单o1、R1 一般指什么OpenAI o1闭源推理模型o两层官方 行业通用解读官方代表 OpenAI区分传统 GPT 产品线内部代号代称Orion猎户座内部项目代号 “Strawberry草莓”官方明确解释重置计数推理新赛道的第 1 代里程碑原文we are resetting the counter back to 1寓意不再沿用 GPT-4/5 通用对话模型命名单独开辟深度推理模型全新产品线o1 是这条推理系列的起点后续迭代 o2/o3全球首个大规模落地 Test-Time Compute Scaling推理时算力缩放 的商用模型靠超长思维链、多路径自校验、在线强化学习专门解决数学、代码、竞赛级复杂逻辑难题分支版本o1完整版、o1-preview、o1-mini轻量编码专用DeepSeek R1开源推理模型R Reasoning推理专门突出该模型主打深度推理能力1 第一代推理专用大模型DeepSeek 推理系列开山之作全称 DeepSeek-R1R1 是对标 o1 的开源平替核心创新算法就是 GRPOGroup Relative Policy Optimization完美适配 TTCS 多路径采样、MCTS 树搜索推理是目前开源圈最主流的推理模型完全开源权重MIT 协议可本地端侧 / 私有服务端部署训练逻辑SFT GRPO 在线强化学习批量生成多条回答做组内对比天然适配推理时扩容

相关新闻