
一文搞懂 PPO、DPO、GRPO、KTO、ORPO 的核心原理与区别一、为什么需要对齐训练大模型预训练完成后就像一个“知识渊博但不懂规矩的天才”。它能续写文章、回答问题但可能输出有害内容、不遵循指令、或带有偏见。对齐训练的目标让模型的输出符合人类的偏好和价值观。目前主流的对齐方法分为两类基于强化学习PPO、GRPO基于对比学习DPO、KTO、ORPO二、PPOProximal Policy OptimizationPPO 是 OpenAI 提出的强化学习算法被 ChatGPT 采用作为核心对齐技术。2.1 三个模型的分工模型是否可训练作用ref_model固定提供参考logits计算KL散度policy_model训练生成回复输出logits和valueref_model Value(Critic) Headreward_model单独训练对回复打分ref_model变体最后一层dense(hidden_dim,1)2.2 第一阶段Reward Model 训练数据格式每条数据为(promptchosen, score)和(promptrejected, score)score 是人工预打分。模型结构同ref_model主体架构一层dense(hidden_dim, 1)模型训练prompt chosen response 拼接 → reward_model → s0 prompt rejected response 拼接→ reward_model → s1 Loss -log σ(s0 - s1)损失函数Loss -log σ(s_chosen - s_rejected)让好回答的分数明显高于坏回答。2.3 第二阶段Policy Model 训练2.3.1 阶段一采样收集经验目标获得advantage和returns。advantage实际累积奖励Reward与状态价值Value估计的差值; returns: 模型输出Values上 奖励模型真实的反馈Reward,综合当前收益和全局收益计算出的输出流程1. prompt 同时送入 ref_model 和 policy_model 2. ref_model生成ref_logits 3. policy_model 生成 policy_logits、response 和 value 值 4. (promptresponse) 送入 reward_model 得到 reward_score 5. 计算 KL β × (ref_logits - policy_logits) 6. final_reward reward_score - KL 7. final_reward 和 value 送入 GAE输出 Advantage 和 returns核心公式KL_penalty β × (ref_logits - policy_logits) final_rewards rewards - KL_penaltyGAE 核心γgamma如 0.99折扣因子λlambda如 0.95平衡偏差与方差Advantage 实际获得价值 − 预期价值正数代表这一步比预期好2.3.2阶段二训练损失函数ratio exp(ref_logits - policy_logits) clipped_ratio clip(ratio, 0.8, 1.2) policy_loss -min(ratio × advantage, clipped_ratio × advantage) value_loss MSE(returns, values) Loss policy_loss 0.5 × value_loss2.4 训练流程三、DPODirect Preference OptimizationPPO 中的 reward_model 可以用一个闭式解直接表达从而省去强化学习过程。3.1 模型结构模型作用ref_model固定提供基准概率policy_model可训练直接优化偏好无需 value head无需 reward_model。3.2 数据格式每条数据为(prompt, chosen_response, rejected_response)只需要人类标注哪个更好。3.3 损失函数Loss -log σ( β × (policy_chosen_logps - ref_chosen_logps) - β × (policy_rejected_logps - ref_rejected_logps) )直观理解让好回答相对于 ref_model 的概率提升坏回答的概率降低差距越大越好。3.4 训练流程四、GRPOGroup Relative Policy OptimizationGRPO 由 DeepSeek 提出核心改进是去掉 Critic ModelValue Head改用组内相对奖励来计算 Advantage。4.1 训练流程输入一个 prompt生成8 个不同回答不同 temperature通过规则对每个回答打分如数学题答案正确性 步骤完整性计算 Advantage组内归一化Advantage 公式 mean_r 平均分 std_r 标准差 advantage_i (r_i - mean_r) / std_r举例三个回答得分 [100, 65, 45]mean70std≈22.5回答1 advantage 1.33好 回答2 advantage -0.22略差 回答3 advanage -1.11差4.2 损失函数ratio π_θ(a|s) / π_old(a|s) loss -min(ratio·adv, clip(ratio, 1-ε, 1ε)·adv) β·KL(π_θ || π_ref)4.3 训练流程五、其他方法简介5.1 KTO只需要二元标签好/坏不需要成对比较数据获取成本更低。5.2 ORPO不需要 ref_model在 SFT loss 基础上增加赔率比Odds Ratio p/(1-p)惩罚简单高效。六、方法对比总结方法所需模型是否需要奖励模型数据需求训练复杂度PPO3 个是打分高DPO2 个否成对偏好中GRPO2 个否规则打分中KTO2 个否二元标签低ORPO1 个否成对偏好低七、选型建议场景推荐方法原因有高质量打分 充足算力PPO效果最稳定有成对偏好数据追求效率DPO无需强化学习有明确对错规则数学 / 代码GRPO无需训练 reward_model只有 “好 / 坏” 标签KTO数据需求最低资源极度受限ORPO只需一个模型学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】