
「以棱镜之思折射 AI 研究的多维光谱」——学术棱镜是 CSDN 旗下 AI 科技大本营推出的精品论文栏目专注遴选全球顶会顶刊及产业前沿的优质研究成果。我们相信每一篇扎实的论文都是照亮技术未来的光束而棱镜让光芒绽放出应有的色彩。在现代强化学习系统如训练视觉语言动作模型 VLA 或大规模机器人控制策略中由于策略滞后Policy Lag导致数据 Off-policy 现象已成为难以避免的常态。无论是在数据被反复复用迭代的同步更新中还是在采样与训练解耦的分布式 Actor-Learner 异步架构下存在数据与当前策略的脱节问题。特别是在具身真机场景下由于物理采集缓慢且高度依赖历史数据回放这种滞后程度更是被推向了极端。这种在吞吐量与样本效率之间的权衡会引入策略滞后。随着策略滞后不断积累数据分布逐渐偏离当前策略行为策略与目标策略之间的差异持续扩大重要性采样的方差随之迅速增长最终可能导致策略梯度估计变得不稳定直接影响模型的正常训练。当训练器优化当前策略时它所利用的数据与当前策略分布之间可能存在偏移这种不一致性由重要性比率Importance Ratio来量化。在依赖回放的场景下经常会大幅度偏离 1展现出严重的重尾分布Heavy-tailed distribution这为后续的优化埋下了隐患。近期来自树根科技与三一集团团队联合提出了 GIPO 算法在机器人操控及大语言 / 视觉动作模型VLA强化学习训练中GIPO 既显著缓解了数据短缺导致的策略滞后痛点又有效改善了 PPO 硬截断引发的 “利用率崩溃Utilization Collapse” 问题。GIPO 论文链接https://arxiv.org/abs/2603.03955论文标题 1GIPO: Gaussian Importance Sampling Policy OptimizationAcceRL 论文链接https://arxiv.org/abs/2603.18464论文标题 2AcceRL: A Distributed Asynchronous Reinforcement Learning and World Model Framework for Vision-Language-Action ModelsGIPO 用比例看问题而不是用绝对差值看问题核心公式GIPO 不使用分段常数函数来截断梯度而是为每一个重要性比率分配一个基于高斯核的信任权重系数。首先定义离散的重要性比率其中为停止梯度算子信任权重定义为其中是统一的尺度参数决定了信任区域的宽窄 。由此将该权重引入策略优化目标得到 GIPO 的损失函数在反向传播中由于仅取决于停止梯度的它被视为常数系数从而提升了梯度的稳定性。如图 1 所示GIPO 的核心动机是用平滑的连续衰减替代硬性的截断在对数空间内构建一个理论完备且对称的信任区域。图 1GIPO 高斯信任权重与对数空间对称性相比于 PPO 的阶跃式截断GIPO橙线展现了平滑的钟形曲线使每个样本仍然能够贡献微小但有效的梯度信号。更重要的是 GIPO 对于对重要性比率与其倒数赋予相同的信任权重即在 log 空间 GIPO 是唯一具备对称性的对数空间对称性一种优雅的平衡为什么选择对数空间考虑样本的重要性比率。如果目标策略比行为策略的概率高出倍其对数距离为。如果概率低倍其对数距离为。由于高斯核函数中包含平方项这种对数对称性 () 意味着 GIPO 平等且一致地处理了概率的 “高估” 与 “低估”。相比之下PPO 在线性空间进行截断如 1.2 与 0.8其算术距离相等但逻辑比例并不对称这在处理重尾分布时会导致更新的方向性偏差。如图 1 所示GIPO 通过对数空间操作确保了无论策略偏离方向如何更新幅度在逻辑比例上都是对称且平衡的。平滑性与非零梯度拯救 “死样本”PPO 的硬截断是一把 “双刃剑”它虽然限制了方差但其分段函数的特性导致在截断边界处导数不连续且在截断区外梯度直接归零。在边界外增加 0.1 可能导致梯度从 1 骤降至 0这种不连续性增加了训练不稳定性。而 GIPO 的权重函数随的偏离而连续、指数级地衰减。即便样本处于严重的策略滞后区例如GIPO 也不会像 PPO 那样将其贡献抹杀。相反GIPO 会分配一个微小但非零的权重。这 “软阻尼” 机制允许那些处于长尾区域的陈旧样本依然能贡献较低方差的梯度信号从而有效缓解了 “利用率崩溃”让每一条昂贵的采样轨迹都能参与到策略的迭代中。偏差 - 方差的 “帕累托旋钮”在强化学习的理论框架下偏差Bias与方差Variance是一对永恒的矛盾。GIPO 通过尺度参数提供了一个可以平滑调节的 “帕累托旋钮”。可以从两个极限状态来理解的插值作用1. 当(纯在线模式)高斯核坍缩为一个狄拉克函数只有的样本拥有权重。此时算法退化为保守的在线策略更新拥有低方差但面临高偏差因为它无视了所有回放数据。2. 当(标准重要性采样模式)权重GIPO 恢复为标准的重要性采样目标。此时算法是无偏的但在异步环境下会面临很大的方差。在实际训练中如或GIPO 能够获得优秀的偏差 - 方差平衡性。它通过平滑的指数 decay 抑制了长尾部分的方差同时保留了比 PPO 更多的有效偏差修正。Advantage-Aware GIPO对称性是否会放纵 “坏动作”在强化学习的实际工程中正负优势Advantage具有不同的物理含义正优势A 0应在信任区域内受到鼓励。负优势A 0代表差的探索结果理应受到抑制。当一个 “坏动作” 的重要性比率偏离分布时GIPO 对其施加的对称阻尼是否过于 “温柔”从而导致在处理大词表或重尾分布样本时训练收敛速度受阻针对正负优势的问题作者引入了 Advantage-Aware GIPO。通过对实施基于优势符号的条件化约束通过设定算法在面对负优势样本时信任区域会更快收敛。这种设计既保留了 GIPO 平滑可导的数学特性又在物理直觉上实现了对负向更新的抑制。需要强调的是GIPO 目标函数中重要性比率的对数对称性与优势函数引入的非对称控制在数学逻辑上是完全独立的两者互不冲突且完美兼容。理论基石策略性能下界与有限样本保证代理目标的理论下界GIPO 的核心理论贡献之一是证明了优化其衰减代理目标依然能提供严格的性能下界保证。假设优势函数有界。对于任意截断阈值GIPO 满足以下性能下界注其中其中为实际优化目标即模型采用新策略后在真实环境中的期望收益也就是模型采用新策略后在真实环境里到底能拿多少分。第二项是分布偏移惩罚项含 C 的项这一项继承自 Off-policy TRPO惩罚了行为策略、当前策略和候选策略之间的分布差异。最后一项是 GIPO 特有的惩罚项GIPO 遇到滞后数据时为了防止梯度爆炸会用高斯权重 “温柔地” 把它们的影响力压低这种 “和稀泥” 的做法虽然保证了训练稳定性但毕竟扭曲了原始数据的权重带来了一点点偏差这一项就是把这种 “为了稳妥而引入的偏差” 明码标价算了出来。有限样本控制与稳定性在真实的 RL 训练中由于无法计算期望只能从回放池中抽取有限的 Batch Size假设为 N来进行经验估计Empirical Estimation如果没有良好的方差控制有限样本下的估计会存在巨大的 “采样噪声”导致所谓的 “优化错觉”即经验代理目标上升了但真实期望反而下降了这正是模型训练崩盘Training Collapse的元凶。GIPO 首先证明了其高斯权重设计赋予了有效乘数严格的全局上下界基于上述全局有界性可以直接应用 Hoeffding 不等式得出经验估计与真实期望之间的概率误差界限。 对于任意置信度水平以至少的概率以下不等式成立由于等式右侧的误差项被严格绑定在常数和批量大小上GIPO 能在有限样本下提供高置信度的策略改进保证。 这就是 GIPO 在高难度机器人任务中比 PPO 稳定的数学保证。实验结果 方差 - 偏差平衡性能和 7B VLA 工业落地方差 - 偏差平衡性能帕累托最优为什么 GIPO 能在宏观表现上优秀为了在微观层面把逻辑盘透作者构建了一个完全可枚举的GridWorld网格世界玩具环境。由于环境简单研究人员可以直接通过贝尔曼方程进行动作枚举精确计算出梯度估计的真实偏差Bias和真实方差Variance从而排除了蒙特卡洛采样噪声的干扰。团队模拟了从严重滞后Case A到轻度滞后Case C的不同场景。分析结果展现了 GIPO 良好的方差 - 偏差平衡性在严重滞后的场景Case A, B中PPO 测算出的方差竟然是 0。但这根本不是因为 PPO 稳定而是因为其硬截断机制将所有样本直接判断为 “越界”导致 100% 的样本梯度死亡。没有梯度自然没有方差这等同于模型停止了学习。相比之下GIPO 的参数表现出了优秀的 “帕累托旋钮Pareto knob” 特性。通过调节GIPO 能够压制重尾比率带来的高方差同时保留可靠更新的方向 。在所有的滞后场景下GIPO 的表现都贴合偏差 - 方差帕累托前沿Pareto Frontier。而 SAPO 的不对称性导致其引入了劣于 GIPO 的偏差分布无法触及帕累托前沿。图 22x2 网格世界中的偏差 - 方差权衡。GIPO虚线真正定义了帕累托前沿Pareto Frontier而 PPO 在高滞后场景下完全停止了学习工业级验证规模在当前的具身智能领域受限于高昂的物理交互成本与长视野连续控制的复杂性能将策略优化算法直接部署到数十亿参数模型上的研究并不多见。GIPO 团队为了验证其算法在真实世界扩展性Scalability投入了庞大的计算资源模型基座使用了 7B 参数量的 OpenVLA-OFT 作为骨干网络整个评估过程耗费了超过 10,000 H200 GPU 小时在 LIBERO 机器人多任务操作基准上处理了超过 7.3 亿次交互采样。为了评估算法对策略滞后的鲁棒性研究团队设计了两种数据场景通过控制采样器Actors与训练器Trainers的比例来人为制造不同程度的数据滞后。新鲜场景Fresh Regime配置 10 个采样器对 1 个训练器或类似高吞吐配置数据收集快回放池中的样本非常接近当前策略。陈旧场景Stale Regime强制降低吞吐量例如 1 个采样器对 1 个训练器导致训练器不得不反复咀嚼回放池中陈旧的历史数据制造类似于真机场景的策略滞后。如图 3 所示在新鲜场景下GIPO、PPO 与 SAPO 均能取得不错的表现GIPO 略占优或持平。然而一旦切换到陈旧场景算法之间的性能差距就会被拉开。在面对陈旧数据时PPO 的学习曲线往往在早期就陷入停滞最终收敛到一个较低的平均回报水平。SAPO 虽然引入了软门控但在处理高滞后数据时依然表现出较大的波动和次优的样本效率。而 GIPO 能更快逼近最优成功率展现出很强的抗滞后能力和稳定性。图 3LIBERO 机器人套件学习曲线。在 LIBERO-Spatial 和 LIBERO-10 等复杂任务中GIPO 的优势被进一步放大展现了在数十亿参数 VLA 任务中实战价值Metaworld 多种子实验在 MetaWorld Stale陈旧数据环境下团队对比了 8 种算法配置包含优势感知变体覆盖了 10 个不同的机器人操控任务。为了消除随机性干扰每一个配置 5 个随机种子总共运行 400 个独立的训练实例。在统计指标 IQMInterquartile Mean分位数均值 排名中GIPO 展示出了非常大的优势如下面的聚合排名表所示GIPO 系列占据了前 6 名位置其中 GIPO (1.0, 1.0) 平均归一化得分0.730甚至达到了 PPO0.180的 4 倍之多。内部分别为正负优势对应的系数GIPO 变体的 IQM 表现显著高于 SAPO 与 PPO 基准。即便在策略滞后环境下其展现出的成功率提升曲线依然保持着惊人的平滑度。同时实验结果有力地验证了 “对数对称性” 与 “优势感知” 可以兼容而且相得益彰。GIPO 的数学框架可以轻松嵌入非对称逻辑同时维持其独有的理论稳定性上限。值得注意的是GIPO 的卓越性并不局限于应对滞后的 “救场”。在策略滞后轻微的新鲜场景下GIPO 同样展现出了优良的性能上限。在涵盖 10 个任务、总计 250 次独立训练运行的大规模 MetaWorld Fresh 实验中GIPO 依然保持了领先优势。如下表所示即便是在通用配置下GIPO 的 IQM分位数均值得分依然达到了 PPO 的两倍以上。这意味着 GIPO 不仅能处理 “旧数据”也能更好发挥 “新数据” 的价值显著提升了在线 RL 的学习效率。大模型落地的 “稳压器”GIPO 助推 AcceRL 登顶 SOTA如何高效地进行数十亿参数规模的视觉 - 语言 - 动作VLA模型的强化学习训练是行业公认的难题。为此团队推出了 AcceRL —— 首个专为 VLA 模型设计的全异步、解耦式强化学习与世界模型框架。AcceRL 通过物理隔离训练、推理与采样流打破了传统框架中的同步屏障并首次引入了 “即插即用” 的可训练世界模型实现了惊人的 200 倍20,000%数据效率提升然而这种优秀的工程性能对底层算法的稳定性提出了更高要求这正是 GIPO 大显身手的舞台。为什么 AcceRL 选择 GIPOAcceRL 通过物理隔离设计大幅提升了系统的吞吐量。然而这种 “全异步” 的分布式架构是一把双刃剑它在消除硬件闲置、实现吞吐量超线性扩展的同时不可避免地带来了剧烈的策略滞后Policy Lag。在 AcceRL 的非阻塞管道中训练与采样独立进行导致回放池中充斥着陈旧的 Off-policy 数据。实验证明在这种滞后场景下标准 PPO 会频繁触发硬截断机制导致大量包含关键修正信号的样本梯度直接归零沦为毫无贡献的 “死样本”阻碍训练效率。GIPO 通过其标志性的平滑高斯信任权重为 AcceRL 提供了一套具备数学保证的阻尼机制使其能够稳健地消化这些陈旧样本成为了整个框架处理异步偏差的核心优化引擎。此外 AcceRL 实现了利用世界模型想象生成强化学习训练数据。虽然这些数据扩展了探索边界但也存在合成偏差。GIPO 利用对数空间对称性提取了这些想象数据中的改进信号使得 “在想象中学习” 不再因梯度不稳定而崩溃。如下图所示在针对算法目标的消融实验中配备 GIPO 的系统表现出了惊人的学习速度。GIPO 在约 8,000 步时达到的性能水平标准 PPO 需要耗费 60,000 步才能触及。这意味着在相同的硬件环境下GIPO 将样本利用效率提升了整整 7.5 倍。图 4GIPO 和 PPO 在 AcceRL 中效果对比登顶 LIBERO在 LIBERO 的长视野Long-horizon操控任务中GIPO 助力 AcceRL 展示了优秀的稳定性。相比于对早期误差敏感的传统监督微调Success Rate 90.7%AcceRL 在 GIPO 的支撑下实现了突破在 LIBERO-Long 任务套件中AcceRL 达成了 99.1% 的成功率。这种表现源于 GIPO 优异的偏差 - 方差权衡它确保了模型在执行复杂多步动作时能够从轻微的扰动中恢复维持了策略在长周期内的连续性与稳定性。结语算法美学与工程力量的共振AcceRL 框架的成功验证了 GIPO 在大规模异步训练中的底层基石作用。通过稳健地处理异策略偏差GIPO 突破了分布式系统的稳定性瓶颈为‘大规模 VLA 异步 RL 世界模型’这一架构提供了可靠的算法护航并最终在 LIBERO 基准测试中取得了 SOTA 成绩。AI科技大本营读者专属福利免费领取 100 小时 AI 算加入 AI 开发者计划获取✅ AI 算力资源✅ 官方技术社群✅ Workshop 与 AI Academy✅ 开发者专属福利立即扫码前 50 名领取瑞幸咖啡领取地址https://s.csdn.cn/4nPsOp