
只跑到约 10% 训练进度OPD 已能恢复约 80% 的最终推理性能EffOPD 顺势把后训练提速到约 3 倍。虽然 LLMs 的推理能力依靠强化学习RL得到了大幅提升但 RL 训练过程往往漫长、昂贵且充满试错同时在多任务融合、能力迁移等场景中MixRL 的效果也常常不够理想。因此近年来各类工业级大模型越来越多地采用On-Policy DistillationOPD作为后训练和模型融合的重要范式让学生模型在自身分布上生成样本并从更强的教师模型中获得稠密监督从而以更低成本获得和 RL 相当的性能提升。然而OPD 为何如此高效至今仍缺乏清晰解释。现有研究通常将其优势归因于更稠密、更稳定的监督信号。但这类以优化目标为中心的解释仍然较为宏观无法刻画其底层参数更新动态也难以回答一个更根本的问题OPD 究竟在参数空间中做对了什么它为什么能比 RL更加高效论文标题Learning to Foresee: Unveiling the Unlocking Efficiency of On-Policy Distillation论文链接http://arxiv.org/abs/2605.11739代码链接https://github.com/caiyuchen-ustc/EffOPD近期中国科学技术大学团队从参数更新动态出发发现 OPD 的高效并不只是“监督更密集”这么简单而是源于参数空间中的一种foresight / 预见性。论文将其总结为两个核心规律第一OPD 知道“哪里值得更新”。在相同更新范数下OPD 相比 RL 能带来更高的推理性能提升。进一步分析发现RL 会在底层、顶层等低收益区域产生大量冗余更新而 OPD 能在训练早期识别这些低边际收益模块并将更新更集中地分配到对推理更关键的中间层模块。第二OPD 知道“该往哪里走”。谱分析显示OPD 的参数更新具有更强的低秩集中性其主导子空间在训练早期就已与最终模型高度对齐。更直观地说通过对更新参数进行适当缩放OPD 在约 10% 训练进度时就能恢复约 80% 的最终推理性能。这说明 OPD 早期已经找到主要优化方向后续训练更多是在沿着该方向继续放大更新。换言之OPD 的高效是因为它更早完成了两件事选对模块走对方向。基于这一发现团队进一步提出 EffOPD既然 OPD 早期已经锁定高质量更新方向就可以沿当前方向进行自适应外推跳过大量不必要的中间训练步骤。实验显示EffOPD 在 1.5B 到 32B 多个模型规模平均实现约 3× 训练加速。〓 图1. Overview简而言之这项工作的意义在于1. 揭示了 OPD 高效性的底层参数动力学机制训练早期即形成“模块选择”和“方向锁定”的双重预见性2. 提出即插即用的 EffOPD 加速算法无需额外模块、复杂超参或人工干预3. 为大模型后训练、模型融合和小模型蒸馏提供了新思路高效训练的关键可能不是更长时间探索而应赋予正确更新方向更大的关注权重。这项工作也是 AlphaRL 团队在参数动力学方向上的进一步探索。团队此前曾发现RL 训练过程中的参数更新具有高度可预测的低维结构相关解读可参考本公众号此前文章如果RL可预测我们还需要把训练跑满吗中科大揭示参数更新的线性秘密。实验〓 图2. RL 与 OPD 参数更新效率对比在本篇工作中作者首先沿用 AlphaRL [1] 的参数动力学分析思路研究 OPD 与 RL 在模块层面的差异。具体来说论文关注训练带来的参数增量随后将该更新按比例缩放后加回 base model以比较在相同更新规模下RL 和 OPD 分别能带来多少性能提升。结果显示见图 2(a)OPD 在相同更新范数下能获得更高的推理收益。进一步地作者比较了训练过程中不同 checkpoint 的更新范数与性能关系发现 OPD 在整个训练轨迹中都能用更小的参数更新达到相近甚至更高性能。这说明OPD 的优势并非来自 RL 后期冗余更新的累积而是从训练早期开始就形成了更紧凑、更任务相关的更新模式。换言之OPD 从一开始就更会把力气用在刀刃上。〓 图3. 不同架构组件中的功能贡献与更新分布接下来作者进一步分析 OPD 与 RL 的 norm 差异具体来自哪些模块。 论文将模型参数划分为 Embedding、MLP 和 Attention 三类。首先作者将训练后模型的 Embedding 替换回 base model 的 Embedding同时保持其他模块不变结果发现性能几乎不受影响 (图3(a))说明 Embedding 更新对 reasoning gain 的贡献很小。因此作者将重点放在 MLP 和 Attention 上并采用滑动窗口干预以第 l 层为中心将 l-8 到 l8 层的对应模块更新注入 base model观察性能恢复情况。结果显示中间层更新对推理性能恢复最关键这与已有研究结论一致 [2]。进一步比较各层更新 norm 可以发现见图3(b)在中间层这些高收益区域RL 和 OPD 都能进行较有效的更新但在底层和顶层等低收益区域RL 会产生明显更大的冗余更新而 OPD 的更新 norm 显著更小。这说明OPD 的优势并不是学习了一套全新的更新机制而是能更准确地区分高收益与低收益参数区域并抑制外围层中的无效更新。作者将其总结为 OPD 在模块层面的前瞻性即 Property 1: Functional Redundancy Avoidance功能冗余规避。前述分析表明OPD 在模块层面具有明显的“前瞻性”。接下来作者进一步从几何视角研究 OPD 参数更新的内在结构并提出第二个核心性质Early Low-Rank Lock-in早期低秩锁定。具体来说作者和此前工作一样对参数更新矩阵进行 SVD 分解并引入四个几何指标来刻画其谱结构谱范数、谱范数 / Frobenius 范数比、有效秩以及 Top-1% 子空间范数比。前两个指标衡量主导奇异方向有多强后两个指标衡量更新能量是否集中在少数方向上。结果显示见表 1相比 RLOPD 的更新具有更强的低秩集中性。尽管 OPD 的整体更新范数更小但它会将更大比例的更新能量集中到少数主导方向上。值得一提的是在团队此前关于 AlphaRL [1] 的工作中作者们已经发现 RL 相比 SFT 具有更强的低秩集中性而本篇工作进一步表明在后训练范式内部OPD 相比 RL 还能表现出更强的方向集中与结构约束。这自然引出一个问题OPD 的低秩集中性是否正是其高效性的来源为回答这一点作者进一步设计了两个受控实验分别考察主导子空间的方向质量与尾部子空间的边际贡献。〓 图4. 低秩空间分析首先作者使用 Top-k% 奇异分量构造主子空间更新。结果发现见图 4(b)两种方法仅使用 10% 的秩就能恢复完整模型超过 95% 的推理性能说明主子空间确实是 reasoning gain 的主要载体。随后作者进一步考察尾部方向即由最后 k% 奇异分量构成的。与主子空间不同尾部子空间对性能恢复贡献十分有限如图 4(b)例如在 Qwen2.5-1.5B-DeepSeek 上仅保留 10% 主子空间即可显著恢复性能而即使保留 50% 尾部子空间收益仍然有限。有趣的是RL 在尾部方向上略优于 OPD但代价是其尾部子空间 norm 约为 OPD 的 1.6 到 2.5 倍性能提升却很小。换言之RL 将大量更新幅度分配给了低边际收益的尾部方向而 OPD 更倾向于把更新集中到真正有效的主方向上。这也从几何层面解释了前述 Property 1: Functional Redundancy Avoidance为什么在达到相近推理性能时OPD 所需的整体更新 norm 更小。〓 图5. 训练过程中的子空间演化与权重缩放分析接下来作者进一步验证 OPD 是否会在训练早期锁定更新方向。首先作者通过 PCA 和 t-SNE 可视化 Rank-1 更新方向发现见图5aRL 在不同 checkpoint 间变化更大而 OPD 轨迹更紧凑、平滑说明其更新方向更稳定。进一步地作者计算每个训练步骤的 Top-k 子空间与最终 checkpoint 子空间的余弦相似度。如图 5b结果显示OPD 在训练早期就与最终方向高度对齐且波动明显小于 RL说明其主导更新方向更早稳定下来。那么早期 OPD 与最终模型的性能差距来自哪里作者通过模块级范数缩放进行验证见图5c保留早期 checkpoint 的更新方向仅将 MLP 和 Attention 的更新 norm 缩放到最终 checkpoint 的大小。结果发现仅 10% 训练进度的 OPD checkpoint 就能恢复约 80% 的最终性能并进一步降低与教师模型的 KL 散度。这说明OPD 早期已经找到了有效方向后续训练主要是在这些方向上继续放大更新幅度。作者这一现象被总结为 Early Low-Rank Lock-in早期低秩锁定。加速算法前述分析表明OPD 在训练早期就已经建立了高度稳定、且与最终 checkpoint 对齐的更新方向后续训练更多是在这一方向上继续放大更新幅度而不是反复探索新的优化路径。基于这一观察作者提出了一个即插即用的加速框架 EffOPD。其核心思想非常直观既然 OPD 已经提前判断出了有效更新方向就可以沿着这个方向多走几步从而跳过部分中间训练过程。具体来说EffOPD 会在训练到等指数间隔 checkpoint 时触发外推。对于当前 checkpoint方法首先利用当前 checkpoint 与上一个 checkpoint 之间的参数差来估计局部更新方向随后EffOPD 沿着该方向生成 5 个不同步长的候选模型为了避免过度外推带来的性能退化EffOPD 会随机抽取 50 个训练样本构造轻量验证集并依次测试这些候选模型。如果候选模型性能不下降则接受该外推一旦性能下降就立即停止继续外推。如果第一个候选模型就失败EffOPD 会自动退化为普通 OPD。因此EffOPD 可以被简单理解为提前判断 OPD 的更新方向然后沿这个方向自适应多走几步。这种设计既利用了 OPD 早期方向锁定的特性又通过轻量验证机制避免了盲目外推使其能够在不引入额外训练模块和复杂超参的情况下实现稳定的训练加速。〓 图6. 不同蒸馏方法在代码生成与数学推理任务上的性能对比可以发现相比于 vanilla OPDEffOPD 的加速效果是非常明显的对于Qwen3-4B-Non-ThinkingEffOPD 在第 4-6 个 step 就已经收敛而 vanilla 则需要约 40 个 step加速高达 8-10 倍。此外相比 AlphaOPD 和 ExOPD 这类采用固定或受限外推策略的加速方法EffOPD 通过轻量验证集自适应选择外推幅度能够更灵活地匹配当前训练阶段的有效更新方向。因此EffOPD 在加速稳定性和最终性能上均表现出更优的整体效果。参考文献[1] On Predictability of Reinforcement Learning Dynamics for Large Language Models[2] Locating and editing factual associations in gpt, 2023更多阅读#投 稿 通 道#让你的文字被更多人看到如何才能让更多的优质内容以更短路径到达读者群体缩短读者寻找优质内容的成本呢答案就是你不认识的人。总有一些你不认识的人知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁促使不同背景、不同方向的学者和学术灵感相互碰撞迸发出更多的可能性。PaperWeekly 鼓励高校实验室或个人在我们的平台上分享各类优质内容可以是最新论文解读也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个让知识真正流动起来。稿件基本要求• 文章确系个人原创作品未曾在公开渠道发表如为其他平台已发表或待发表的文章请明确标注• 稿件建议以markdown格式撰写文中配图以附件形式发送要求图片清晰无版权问题• PaperWeekly 尊重原作者署名权并将为每篇被采纳的原创首发稿件提供业内具有竞争力稿酬具体依据文章阅读量和文章质量阶梯制结算投稿通道• 投稿邮箱hrpaperweekly.site• 来稿请备注即时联系方式微信以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信pwbot02快速投稿备注姓名-投稿△长按添加PaperWeekly小编现在在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·