从 P(y|x) 到 P(y)：将RL引入预训练空间，激发大模型内生推理-尧图网站设计

大模型的强化学习必须依赖具体问题吗中科院自动化所最新证实去掉输入条件直接对推理轨迹本身做边缘分布优化配合负样本强化仅 20 步即可大幅激发内生推理。现有大模型的推理强化学习大多是在给定问题 context 的条件下做优化也就是优化。这种做法当然有效但背后有一个更基础的问题一直值得追问模型经过大规模预训练之后已经高度内化了推理相关的知识与结构。那我们能不能不只是围绕具体问题去做条件化调整而是直接对 reasoning trajectory 本身做优化去作用模型内部那部分已经形成的 reasoning space基于这个想法来自中国科学院自动化研究所、新加坡国立大学和腾讯 AI Lab 的研究团队提出了PreRL。和传统 RL 不同PreRL 在更新时去掉问题条件直接优化即只针对模型生成的 reasoning trajectory 本身做奖励驱动的优化而非对某个给定问题做条件化调整。这种方式试图更直接地改变模型内部已经学到的推理知识的组织方式。在此基础上研究团队进一步提出 Dual Space RLDSRL将 PreRL 阶段与标准的条件 RL 阶段结合在多个数学推理基准上一致超越现有强基线方法。论文标题From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space论文链接https://arxiv.org/abs/2604.14142代码地址https://github.com/Trae1ounG/Pretrain_Space_RLVR〓图1(a) 后训练空间RL优化P(y|x)、PreRL优化P(y)与DSRL的梯度目标对比(b) 标准RL陷入局部最优 vs DSRL通过NSR剪枝错误推理路径后向更精炼推理子空间探索的概念对比(c) DSRL vs GRPO 训练动态对比核心思想直接优化 Reasoning Trajectory为何去掉问题条件在标准后训练 RL 中策略以具体输入问题为条件优化每次更新都绑定在特定问题的 context 上。PreRL 的做法不同在更新时移除输入条件直接优化边缘分布让奖励信号直接作用于 reasoning trajectory 本身。直觉上已经高度内化推理知识的模型其推理能力并不只存在于对某个具体问题的响应中而是以更通用的形式分布在模型参数里。通过直接对 trajectory 做奖励优化目标是触及这部分内化的结构在更广阔的探索空间中重组推理模式而非只做问题级的条件化拟合。梯度对齐性验证一个关键的可行性问题是去掉问题条件后优化能否真正指导的改善研究团队从理论和实验两个维度验证了与之间的强梯度对齐性。〓图2与梯度对齐分析Qwen3-4BAMC23。a梯度点积b梯度余弦相似度c每 token 对数概率差。高概率确定性 token 上二者高度对齐证明优化边缘分布可作为标准 RL 的有效代理目标。实验表明两个目标的梯度在高概率、确定性的 token 上高度对齐仅在早期序列或高不确定性 token 上出现显著分歧从而在理论上保证了直接优化可以作为标准 RL 的有效代理目标。关键发现负样本强化NSR的独特优势研究团队对 PreRL 中正负样本的作用进行了深入剖析揭示了一个关键的非对称性正样本强化PSR在预训练空间失效。PSR-PreRL 目标为最大化成功提升了与标准 PSR-RL 的协同效应一致。然而PSR-PreRL 无法从自身在线生成的轨迹中有效学习最终导致性能退化。这说明在预训练空间最大化需要高质量的分布外专家演示off-policy data而非在线轨迹。负样本强化NSR展现出惊人的效果。NSR-PreRL 通过对奖励为负的样本施加负梯度在预训练空间中快速剪枝错误推理路径同时激发模型的内生推理能力仅经过 20 步NSR-PreRL模型的 transition thoughts推理过渡步骤增加 14.89 倍reflection thoughts反思步骤增加 6.54 倍显著优于同步数 GRPONSR-PreRL 以 3 倍更少的训练步数达到 86% 的准确率。〓图3aPreRL vs RL 训练动态对比包括奖励、响应长度和 top-1 token 概率的变化b推理步骤类型分析NSR-PreRL 20 步 vs GRPO 25 步NSR-PreRL大幅激发transition14.89×和 reflection6.54×类推理行为然而NSR-PreRL 也是一把双刃剑它在激发推理能力的同时会导致输出长度不断增加最终使持续训练变得困难。因此NSR-PreRL 更适合作为后续标准 RL 的强力初始化阶段。方法Dual Space RLDSRL基于以上发现研究团队提出 Dual Space RLDSRL采用 Policy Reincarnation 策略将 NSR-PreRL 与标准 RL 有机结合1.预训练空间预热阶段步数仅对奖励为负的样本施加梯度更新在预训练空间中消除基础错误模式激发内生推理能力扩展探索视野。2.后训练空间精化阶段步数以 NSR-PreRL checkpoint 作为新基模型在条件分布上运行标准 RLGRPO进行精细化策略优化 DSRL 的统一梯度目标为其中控制输入条件预热阶段掩盖问题输入后训练阶段恢复条件保证预热阶段仅对负样本更新。实验结果主实验Avg32 对比研究团队以 Qwen3-4B 和 Qwen3-8B 为基模型在 MATH 数据集上训练评估在 MATH500、AMC23、AIME24、AIME25、Minerva、OlympiadBench 六个基准上的 Avg32 性能。〓表1DSRL 与 GRPO、PPO、Reinforce、RLOO、Dr.GRPO、DAPO 等方法在 Avg32 上的全面对比加粗为最优下划线为次优DSRL 在所有基准和模型规模上一致优于各类强基线。其中Qwen3-4B 上 DSRL 在 AIME24 超越 GRPO 4.69 分在 AIME25 超越 2.50 分Qwen3-8B 平均得分 58.47为所有方法中最优。PassK 性能〓图4DSRL vs GRPO 在 Qwen3-4B 和 Qwen3-8B 上的 PassK 性能对比K∈[1,256]。DSRL 在整个采样预算范围内持续优于 GRPO表明预训练空间优化拓展了高质量解的多样性。DSRL 在到的全范围内持续优于 GRPO说明其不仅提升了 Pass1更有效扩大了正确推理路径的多样性具备更强的采样可扩展性。此外DSRL 展现出显著的训练效率优势达到 45% 准确率仅需 GRPO2.5 倍更少的步数达到 58% 仅需1.6 倍更少的步数。OOD 泛化能力〓表2DSRL 在分布外基准GPQA-Diamond、MMLU-Pro、BBH、HumanEval上相比 GRPO 的泛化性能加粗为最优DSRL 在分布外基准上取得显著增益尤其在知识密集型任务Qwen3-4BGPQA-Diamond 3.79MMLU-Pro 5.37和代码生成Qwen3-8BHumanEval 2.44上的提升表明预训练空间优化建立了更具泛化能力的推理基础。分析推理行为演化与基础问题解决能力〓图5左DSRL vs RL 在训练过程中 Subgoal Setting、Enumeration、Verification、Backtracking 四种推理行为频率演化对比DSRL 从 NSR-PreRL 阶段起快速激发各类推理行为图6右训练集上「全部正确Fully Solved」与「全部错误Fully Unsolved」题目数量演化NSR-PreRL 预热阶段系统性消灭基础错误模式RL 由于初始预热受限推理行为涌现缓慢。相比之下DSRL 通过移除条件约束解锁了模型内在推理能力各类复杂推理行为从预热阶段开始即快速增长并达到更高频率天花板。「全部正确」题目的急速增加和「全部错误」的快速下降证明NSR-PreRL 系统性地消除了失败模式为后续 RL 精化奠定更强基础。预热步数消融〓图7预热步数消融实验Qwen3-4B。最优区间为 10-25 步步数不足导致激活不充分步数过多引发过度探索。最优预热区间为呈典型倒 U 形趋势。消融实验还证明NSR-PreRL warmup57.54显著优于 NSR-RL warmup54.38仅因移除了输入条件差距达 3.16 分直接验证了在预训练空间操作的独特价值。总结本文提出的核心问题是大模型推理强化学习是否必须以问题 context 为条件研究团队的答案是不一定——直接对 reasoning trajectory 做奖励驱动的优化PreRL即优化同样是可行的且理论上与标准 RL 的梯度方向高度对齐。在此基础上研究揭示了一个关键的非对称性在去掉问题条件的设定下正样本强化PSR在在线轨迹上失效而负样本强化NSR却展现出惊人效果仅需 20 步即可将 transition 激发 14.89×、reflection 激发 6.54×以更少步数剪枝模型内部的错误推理路径。DSRL 将 NSR-PreRL 预热阶段与标准条件 RL 通过 Policy Reincarnation 策略有机结合在广泛的推理基准和 OOD 泛化任务中一致超越强基线证明直接作用于模型内部 reasoning space 的优化方式能够为后续的条件化精化建立更强、更宽阔的推理基础。更多阅读#投稿通道#让你的文字被更多人看到如何才能让更多的优质内容以更短路径到达读者群体缩短读者寻找优质内容的成本呢答案就是你不认识的人。总有一些你不认识的人知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁促使不同背景、不同方向的学者和学术灵感相互碰撞迸发出更多的可能性。PaperWeekly 鼓励高校实验室或个人在我们的平台上分享各类优质内容可以是最新论文解读也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个让知识真正流动起来。稿件基本要求• 文章确系个人原创作品未曾在公开渠道发表如为其他平台已发表或待发表的文章请明确标注• 稿件建议以markdown格式撰写文中配图以附件形式发送要求图片清晰无版权问题• PaperWeekly 尊重原作者署名权并将为每篇被采纳的原创首发稿件提供业内具有竞争力稿酬具体依据文章阅读量和文章质量阶梯制结算投稿通道• 投稿邮箱hrpaperweekly.site• 来稿请备注即时联系方式微信以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信pwbot02快速投稿备注姓名-投稿△长按添加PaperWeekly小编现在在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·

从 P(y|x) 到 P(y)：将RL引入预训练空间，激发大模型内生推理

相关新闻

RK3562核心板开发指南：从硬件设计到AI部署的全流程解析

终极LRC歌词制作指南：用歌词滚动姬轻松创作专业级同步歌词

Beego入门

内容创作团队如何借助Taotoken低成本调用多模型生成文案

2026年企业移动办公软件推荐及选型指南

科研党的福音：用闲置旧电脑/树莓派搭建WebDAV服务器，零成本搞定Zotero全平台同步

Java 接口 vs 抽象类：一次讲透彻，面试+实战全覆盖

2026 OpenTiny NEXT 产品调研启动！

Taotoken多模型聚合路由在高峰时段的稳定性观察

新闻编辑部正在悄悄部署NotebookLM，你还在用传统剪报法？

XUnity Auto Translator：Unity游戏多语言本地化的终极解决方案

Go语言轻量级分布式任务调度框架Roll：从架构到生产部署实战

2026年十大最佳地区搜索排名优化工具：权威榜单赋能企业高效增长

DDR3内存Row Hammer问题解析与防护方案

为ItsyBitsy ESP32设计3D打印外壳：从原型到产品的完整实践

别再手动点关了！用PowerShell永久关闭Windows Defender的保姆级教程（含Server 2016/2019）

别再只换芯片了！BP2832A替换CL1502，你的电感参数算对了吗？

全平台智能资源下载工具：res-downloader 完整使用教程