
在机器人智能快速发展的今天Vision-Language-ActionVLA系统正逐渐成为通向通用机器人智能的重要路线。而在这条路线中Video Action Model视频动作模型因为能够从大规模视频中学习“视觉动态”成为近年来非常有潜力的一类方法。但问题也很明显会“生成未来画面”并不等于真的“理解对机器人有用的未来”。现有视频动作模型虽然能生成“看起来合理”的未来但未必能准确刻画机器人操作真正依赖的细粒度视觉动态。因此问题的关键不只是“预测未来”而是要直接优化对控制有用的未来表示。最近论文 《VAMPO: Policy Optimization for Improving Visual Dynamics in Video Action Models》提出了一种新的后训练框架试图解决这一关键矛盾如何让视频动作模型生成对下游控制真正有帮助的视觉动态表示。原文链接VAM的发力VAMPO让视频动作模型真正“看懂未来”提升机器人操作能力一、核心痛点视频动作模型的“生成目标”与“控制目标”长期错位扩散视频模型优化的是似然代理目标而不是控制关键变量当前主流视频预测模型尤其是扩散模型通常采用 ELBO 或 MSE 形式的似然代理目标进行训练。这类目标的作用是鼓励模型逼近真实数据分布生成在整体上真实、连贯、符合统计规律的未来结果。但机器人操作真正需要的不是一个“整体看起来像”的未来而是一个在关键状态变量上足够精确的未来。也就是说生成模型关心的是 Plausibility机器人控制关心的是 Precision。传统训练目标天然偏向前者这就是视频动作模型在具身任务中经常出现“看着没问题做起来出错”的根本原因。同时细粒度视觉动态误差会被下游动作模型持续放大论文特别强调视频动作模型的问题并不总是“大错特错”而往往是那种难以察觉的小偏差尤其在靠近决策边界时哪怕只是一点点表征误差也可能导致动作完全不同。二、破局之道从“拟合分布”转向“优化视觉动态”针对上述问题VAMPO 提出了一种新的后训练思路**不再只让视频模型去拟合数据分布而是直接优化未来视觉动态对机器人控制的价值。**具体来说作者将扩散模型的多步去噪过程看作一个序列决策过程把每一步去噪视为一次“动作”并根据最终生成的未来表示与专家未来表示之间的一致性来给出奖励。这样一来模型优化的目标就从“生成得像”转向“生成得更有利于动作决策”。在方法设计上VAMPO 主要包含两个关键点一是引入Euler Hybrid Sampler只在第一步去噪中保留随机性而将后续步骤保持为确定性更新。这样做的原因在于如果所有时间步都引入随机性**终止奖励很难准确分配到真正关键的去噪步骤模型也可能利用后期步骤“投机”提高奖励出现 Reward Hacking。**因此VAMPO 通过限制随机性只作用于与下游动作最相关的时间步既缓解了信用分配问题也确保优化聚焦在 Action-relevant 的视觉表示上。二是采用GRPO 结合潜空间中的可验证奖励对未来视觉动态进行直接优化。相比直接对单一样本优化GRPO 能在同一条件下对一组候选轨迹进行相对比较更敏感地捕捉组内细微差异从而更稳定地区分“哪些预测更接近专家轨迹”。这使模型不仅能获得奖励信号还能在细粒度层面更好地对齐专家视觉动态进一步提升未来表示对下游动作生成的价值。三、实验实证1. 更好的 visual dynamics能否带来更好的 action论文首先验证了一个核心问题如果只提升视频预测模块的视觉动态质量机器人动作是否真的会变好实验结果给出的答案是肯定的。作者分别比较了基础策略/仅对 VPM 做 post-training、保持 AGM 不变/同时使用 post-training 后的 VPM 并重新训练 AGM结果显示即使冻结下游 action model仅优化视频预测模块也能带来稳定提升而在此基础上进一步训练 AGM性能会继续显著增强。这说明更准确的 visual dynamics 确实能够为动作生成提供更可靠的条件信息而不是停留在“生成效果变好看了”这一层面。进一步地论文还分析了EREffective Rank和ERREffective Rank Ratio两个指标用来刻画视觉表示与动作输出之间的耦合程度。结果表明说明vision-action 融合过程中存在大量冗余许多视觉信息并没有真正转化为动作决策所需的有效信号。而通过优化 visual dynamicsVAMPO 能让模型更好地捕捉并利用那些与动作最相关的关键信息使视觉表示不再只是“提供背景”而是更有效地参与到动作生成之中。2. 是否超越基线仿真和真机都给出了肯定答案在整体性能上VAMPO 在仿真和真实机器人场景中都表现出稳定优势。在仿真环境中作者在CALVIN和L-CALVIN两个长时序操作基准上进行了系统评估。结果显示VAMPO 不仅整体优于基础策略和多种已有方法而且在长程任务中的提升更为明显。这说明当任务链变长、误差更容易累积时future representation 的精度会变得更加关键而 VAMPO 恰恰通过后训练强化了这一点。在真实机器人实验中作者进一步验证了方法在多种实际操作任务上的有效性。结果表明VAMPO 在真实场景下同样能够带来更稳定的动作执行表现说明它优化的并不是只对仿真有效的表征而是对真实机器人控制同样重要的视觉动态。之所以在长程任务和真机部署中收益更明显本质原因在于VAMPO 让模型对未来状态的预测和表征更加精准从而使后续动作生成建立在更可靠的动态信息之上。当任务更长、环境更复杂时这种“预测更准—动作更稳”的优势会被进一步放大。四、结论VAMPO 的真正意义是让“未来预测”第一次真正向“控制优化”靠拢VAMPO 最值得关注的不只是它把 CALVIN 指标又抬高了一截而是它提出了一个更本质的判断视频动作模型的瓶颈未必在于模型还不够大、结构还不够复杂而可能在于训练目标根本没有对齐机器人真正需要的视觉动态。传统扩散视频模型擅长生成整体 Plausible 的未来但机器人要的是在位姿、接触、关系和时序上都足够可靠的未来。VAMPO 做的就是把这个“可靠性”从隐性期待变成显式优化目标。它通过把去噪过程重写为策略优化问题让视频动作模型第一次可以围绕“对控制是否有帮助”来更新自身。如果说视频动作模型让机器人开始具备“想象未来”的能力那么 VAMPO 则进一步让机器人开始学会想象一个更适合行动的未来。对于正在快速演进的具身智能而言这可能是一个非常重要的信号——未来的世界模型不只是要生成逼真的世界更要生成可用于决策的世界。重磅VLARL方向首个系统教程来啦Online RL/Offline RL/test time RL等具身智能的WAM与世界模型一份完整指南一览具身智能的行业全局从产品经理的角度出发推荐阅读我们用低成本的机械臂完成pi0/pi0.5/GR00T/世界模型等VLA任务好用高性价比面向具身科研领域打造的轻量级机械臂VLA/VLA触觉/VLARL/具身世界模型等具身大脑小脑算法与实战全栈路线来啦~从零训练你的足式机器人让你的足式机器人真正动起来~具身领域的目标导航到底是什么有哪些主流方法Diffusion Policy在具身智能领域是怎么应用的为什么如此重要具身智能视觉语言动作模型VLA怎么入门具身智能与传统机器人任务有什么区别主流方案有哪些1v1 科研论文辅导来啦重磅具身智能之心论文辅导来啦近20方向顶会/顶刊/SCI/EI/中文核心/申博等