
拆掉思维里的墙下一代世界模型将不再区分“观察者WM”与“行动者VLA”——认知分歧下催生的新方向目录01 问题原点VLA难以逾越的落地鸿沟核心缺陷缺“物理想象力”只会被动反应效率与数据双重枷锁难破02 WAM从“反应”到“预判”WAM vs VLA四大根本差异WAM的两大核心架构03 WAM的四大技术支柱从架构到数据全链路突破架构创新高效耦合兼顾能力与效率数据生态告别遥测拥抱海量视频训练策略联合优化物理先验注入评估体系从“动作准”到“物理真”04 WAM的突围05 挑战与未来发展方向当前世界模型相关研究呈现范式分化态势各类研究路线的差异本质在于对“物理世界应以何种方式被表征”有着不同理解。这一分界在具身智能领域体现得较为突出模型究竟应该学习生成逼真的视觉画面还是构建紧凑的抽象状态空间其输出应是环境演化的像素级预测还是直接可执行的动作序列针对现有研究存在的割裂问题世界动作模型 WAM 逐步发展成为融合环境动态预测建模与智能动作生成决策的重要研究方向。本文将结合近期相关研究进展对 WAMs 的架构体系与发展态势展开分析论述。01 问题原点VLA难以逾越的落地鸿沟核心缺陷缺“物理想象力”只会被动反应VLA的本质是反应式策略它仅学习“观测→动作”的直接映射不建模物理世界的动态演化。简单说VLA不知道“动作会带来什么后果”无法预判物体运动、环境变化更不理解重力、摩擦力等基本物理规则。这种“无预测能力”的设计导致两大致命问题泛化脆弱环境稍有变动光线、物体位置偏移任务成功率断崖式下跌长时任务失效无法规划多步骤动作易因微小误差累积导致任务崩溃。效率与数据双重枷锁难破除了能力缺陷VLA还面临效率瓶颈与数据依赖的双重制约计算低效主流VLA参数量达7B-55B推理延迟超160ms控制频率仅6Hz远低于精细操作所需的50Hz实时要求数据饥渴极度依赖机器人遥测数据而真实世界数据采集成本极高1:1时间投入、场景有限难以支撑大规模泛化。久而久之VLA 被调侃为“为发论文而生的学术游戏”。WAM的出现正打破这一僵局它将世界模型预测环境动态与动作生成统一让机器人先“想象未来”再执行动作补齐VLA缺失的物理理解能力。02 WAM从“反应”到“预判”WAM的核心定义是统一预测状态建模与动作生成的具身基础模型。与VLA仅预测动作不同WAM的目标是建模未来状态与动作的联合分布即同时输出“下一步环境会变成什么样”和“该执行什么动作”。简单说VLA是“看一步走一步”WAM是“先想三步再行动”。▲WAM 与 VLA、世界模型、视频模型概念对比WAM vs VLA四大根本差异这种差异让WAM从“语言驱动的动作机器”升级为“物理世界的智能体”彻底解决VLA的核心痛点。WAM的两大核心架构根据世界建模与动作生成的耦合方式WAM可分为级联WAMCascaded WAM、联合WAMJoint WAM两大范式1级联W先想象再执行级联WAM采用“先预测未来状态再推导动作”的两阶段流水线▲级联 WAM 架构示意图显式 / 隐式规划1.世界预测阶段生成未来视频帧或隐层表征预判环境变化2.动作解码阶段从预测结果中推导动作分为显式规划像素级视频与隐式规划隐层特征两类。典型工作如UniPi、VLP、RoboEnvision先通过视频扩散模型生成任务执行视频再用逆动力学模型提取动作。这种架构解耦世界建模与动作生成灵活易优化但存在误差传递问题。2联合W预测与动作一体优化联合WAM将世界预测与动作生成融入同一模型联合训练直接建模“未来状态-动作”联合分布避免误差累积。根据生成方式又分为▲联合 WAM 架构示意图单流 / 多流耦合自回归生成将视觉、动作序列序列化逐token预测如GR-1、WorldVLA扩散生成通过多步去噪同时生成未来视频与动作如Cosmos Policy、DreamZero。联合WAM耦合更紧密、精度更高但计算复杂度也更大是当前WAM的主流研究方向。03 WAM的四大技术支柱从架构到数据全链路突破WAM的崛起依赖架构创新、数据生态、训练策略、评估体系四大核心支柱的协同突破彻底重构具身智能的技术逻辑。架构创新高效耦合兼顾能力与效率WAM的架构设计围绕“世界预测动作生成”的耦合效率展开核心突破分为三类高效世界预测从像素级视频预测转向隐层表征预测如V-JEPA降低计算量同时保留物理信息轻量化动作解码设计专用动作头如1D U-Net、轻量MLP避免冗余计算多模态融合统一视觉、语言、 proprioception本体感知、触觉等信号增强物理交互能力。数据生态告别遥测拥抱海量视频VLA依赖昂贵的机器人遥测数据而WAM可复用互联网级无标注视频数据来源分为四类▲图 | WAM 训练数据来源难度象限图机器人遥测数据高质量“观测-动作-未来状态”三元组提供精准物理对齐便携人类演示UMI低成本采集日常操作数据连接人类与机器人动作仿真数据无限生成多样化场景弥补真实数据稀缺互联网第一视角视频如Ego4D、HowTo100M海量无标注数据学习通用物理规则。这种数据模式让WAM摆脱“数据饥荒”实现低成本大规模训练。训练策略联合优化物理先验注入WAM的训练核心是联合世界建模损失与动作损失用预测任务提供稠密监督信号▲世界模型辅助 VLA 学习模仿 / 强化 / 奖励 / 评估预训练在互联网视频上预训练世界模型学习物理动态微调用少量机器人数据微调对齐动作生成与物理预测。相比VLA仅稀疏动作标签监督WAM每帧都有预测监督训练效率与泛化性显著提升。评估体系从“动作准”到“物理真”WAM的评估不再仅看动作成功率而是构建视觉保真度、物理常识、动作合理性三大维度的综合体系视觉保真度PSNR、FVD等衡量预测视频清晰度物理常识VideoPhy、Physics-IQ等检测是否符合物理规则动作合理性WorldSimBench等判断预测状态能否推导有效动作。04 WAM的突围VLA的困境本质是“语言优先、物理靠边”的设计缺陷VLA中90%参数用于语言理解视觉模块配置资源偏少二等公民动作仅是附加任务。而 WAM 把视觉与动作摆在核心地位一等公民语言退化为辅助指令核心聚焦物理交互。这种范式转移带来三大核心价值▲WAM 代表性工作时间线与分类图真实世界泛化从仿真到现实的跨越WAM通过预测学习物理规则能迁移到未知场景、未知物体。例如在仿真中训练的WAM可直接操纵现实中从未见过的物体成功率远超VLA。数据成本革命互联网数据即财富WAM可复用海量无标注视频数据成本降低90%无需昂贵的机器人遥测仅需少量微调即可适配具体任务。效率与能力平衡从实验室到边缘通过隐层预测、轻量化设计WAM推理延迟降至50ms内控制频率达20Hz可部署在边缘设备告别实验室高功耗GPU依赖。05 挑战与未来发展方向尽管WAM突破显著但仍面临架构耦合、物理精度、长时规划、效率瓶颈四大核心挑战架构权衡级联WAM易误差传递联合WAM计算昂贵需探索更高效的耦合方式物理精度当前预测仍存在物理错误物体漂浮、穿透需增强物理常识学习长时规划长序列预测易漂移需 Hierarchical分层世界建模部署效率联合WAM仍难满足50Hz实时要求需进一步轻量化。未来WAM的发展方向将围绕四大趋势展开多模态物理建模融合触觉、力觉构建全模态物理世界模型高效联合架构探索“隐层预测轻量化动作”的平衡设计长时动态规划分层预测兼顾全局规划与局部控制虚实融合训练仿真数据与真实数据无缝衔接最大化数据价值。纵观具身智能研究的发展脉络从VLA到WAM对物理世界表征方式的探索始终是行业前行的核心命题。不同技术路线的博弈与碰撞倒逼研究跳出单一建模思维的局限。随着WAM架构体系持续迭代优化这类融合型模型或将进一步拉近智能体与真实物理世界的距离。Ref论文标题World Action Models: The Next Frontier in Embodied AI论文链接https://arxiv.org/abs/2605.12090项目链接https://github.com/OpenMOSS/Awesome-WAM