2025_NIPS_Direct Preference Optimization: Your Language Model is Secretly a Reward Model

发布时间:2026/6/20 16:15:02

2025_NIPS_Direct Preference Optimization: Your Language Model is Secretly a Reward Model 文章核心内容与创新点总结一、主要内容该研究针对大型无监督语言模型(LM)难以精准控制行为的问题,提出了一种无需强化学习(RL)的直接偏好优化(Direct Preference Optimization, DPO)算法,用于对齐人类偏好。背景:现有方法(如基于人类反馈的强化学习RLHF)需分三步实现偏好对齐——监督微调(SFT)、奖励模型训练、RL优化,但存在流程复杂、训练不稳定、计算成本高的缺陷,且需采样生成、大量超参数调优。核心思路:利用奖励函数与最优策略的解析映射关系,将约束奖励最大化问题转化为单一阶段的策略训练(本质是对人类偏好数据的分类任务),无需显式训练奖励模型或执行RL流程。理论基础:基于Bradley-Terry偏好模型,通过变量替换将奖励函数重新参数化为策略与参考模型(通常为SFT模型)的函数,消除了分区函数的影响,使偏好损失可直接通过策略优化实现。实验验证:在情感生成、摘要生成、单轮对话三大任务中,对规模达6B参数的模型进行测试,结果显示DPO在奖励-KL权衡、响应质量、鲁棒性(对采样温度不敏感)上均优于或持平RLHF(PPO)等现有方法,且泛化能力良好(如迁移至新闻摘要任务仍保持优势)。二、创新点简化训练流程:摒弃RLHF的三阶段架构,通过单一二进制交叉熵目标直接优化策略,无需显式奖励

相关新闻