WEM:把“世界”和“自我”分开,具身世界模型才能走得更远

发布时间:2026/5/30 18:33:03

WEM:把“世界”和“自我”分开,具身世界模型才能走得更远 最近视频世界模型正在从“生成好看的视频”走向“预测机器人在物理世界中的未来”。从机器人数据生成到策略评估再到长时序任务想象大家都希望模型能够提前“想象”机器人接下来会看到什么、会怎样行动、世界会怎样变化。但一进入具身场景尤其是长时序任务问题就不再只是画面质量。机器人需要一边导航、一边操作、一边根据连续指令改变环境。模型既要记住房间布局、物体位置、场景结构又要预测机器人手臂、被操作物体和接触关系的变化。这就带来了一个核心矛盾该稳定的世界不能乱变该行动的自我又必须准确变化。如果把这两类变化全部塞进一个单流视频生成模型中短片段可能看起来还行但一旦进入多轮指令就容易出现场景漂移、物体幻觉、手和物体粘连、指令执行断裂等问题。而这篇由中科院自动化所、中关村学院学等机构联合提出的工作World-Ego Modeling for Long-Horizon Evolution in Hybrid Embodied Tasks则提供了一个不同的视角长时序具身世界模型的关键不只是生成更真实的视频而是要先把“世界”和“自我”的预测责任拆开。原文链接WEM把“世界”和“自我”分开具身世界模型才能走得更远论文链接https://arxiv.org/abs/2605.19957项目主页: https://zgca-hmi-lab.github.io/WEM代码链接https://github.com/ZGCA-HMI-Lab/WEM论文提出了一个新的建模范式World-Ego Modeling并进一步实现了具体模型WEMWorld-Ego Model。它不是继续沿着单流视频生成的路线硬堆模型能力而是显式区分两类动态一类是持久、与当前指令弱相关的场景规律另一类是机器人中心、由当前指令驱动的交互变化。一句话概括让 World 负责稳定的场景规律让 Ego 负责机器人中心的交互动态。01 为什么要区分 World 和 Ego在普通视频生成任务里模型只需要回答一个问题下一段画面看起来是否合理。但在具身世界模型里这个问题远远不够。机器人生成的不是一段孤立视频而是一条可以继续执行、继续交互的未来轨迹。这意味着模型必须同时处理两种完全不同的预测责任。一类是相对稳定的场景规律比如房间布局、背景结构、未被操作的物体位置另一类是由当前指令触发的机器人动作比如机械臂运动、夹爪接触、被操作物体的状态变化。前者需要长期一致后者需要快速响应。前者对应 World后者对应 Ego。论文把未来演化拆成两类预测责任The World包括 layout、objects、context 等持久场景规律主要服务于长时序场景一致性The Ego包括 embodiment、interacted object 等机器人中心动态主要服务于指令驱动的动作与物体交互。这一区分非常适合导航-操作混合任务。导航阶段更依赖 World因为模型需要稳定维护空间布局和场景结构操作阶段更依赖 Ego因为模型需要准确预测机器人动作、接触关系和被操作物体的状态变化。如果 World 和 Ego 被混在一个预测流里模型就很容易同时丢掉两件事场景不够稳交互也不够准。WEM 的出发点就是长时序具身生成不是单纯的视频生成问题而是 World 与 Ego 两类动态的协同预测问题。02 World 和 Ego 的边界怎么划论文没有直接给出一个固定定义而是系统比较了三种 World-Ego boundary。Motion-based ViewThe World: Camera-Induced Scene MotionThe Ego: Contact-Driven Object Motion第一种方式是按运动来源划分。相机运动带来的背景变化属于 World机器人接触物体产生的残差运动属于 Ego。这个思路很直观也可以用 optical flow 作为 proxy。但问题是具身场景里的运动并不干净机器人靠近物体、遮挡发生、接触开始时相机运动和物体运动往往纠缠在一起光流分解很容易变得不稳定。Semantic-based ViewThe World: Background Unmanipulated ObjectsThe Ego: Robot Manipulated Objects第二种方式是按实体在任务中的角色划分。机器人身体和正在被操作的物体属于 Ego背景与未被操作物体属于 World。这也是论文最终采用的默认定义。它的关键不是静态语义分割而是交互关系一个物体在被操作前属于 World被抓取或移动时进入 Ego交互结束后又回到 World。Intention-based ViewThe World: Historical Visual RegularitiesThe Ego: Instruction-Conditioned Dynamics第三种方式不直接划分像素区域而是按信息来源区分World 来自历史视觉规律Ego 来自当前指令驱动的动态。这个视角更抽象也更灵活。但由于缺少显式空间边界模型不一定能稳定学出清晰的 World/Ego 分工。最终实验表明Semantic-based View 是最有效的 World-Ego 定义方式。03 WEM 的整体框架先预测状态再分专家生成WEM 的模型结构分为两个阶段Prediction Stage使用 VLM 从多轮视觉语言历史中预测 World State 和 Ego StateGeneration Stage使用 CP-MoE 视频生成器根据 World/Ego 状态生成下一段视频。在 Prediction Stage 中模型使用可学习的 World Query 和 Ego Query从历史观测、历史视频片段和指令序列中提取两个状态。World State 更关注长期历史中的场景规律Ego State 更关注当前指令和近期交互。在 Generation Stage 中模型通过一个Cascade-Parallel Mixture-of-ExpertsCP-MoE结构实现 World/Ego 解耦。它包含共享的 preceding expert以及后续的 world expert 和 ego expert。这一设计的核心不是简单“多加一个分支”而是让不同专家承担不同预测责任。换句话说WEM 不是直接让一个视频生成器从历史中“猜未来”而是先把未来所需的信息拆成 World State 和 Ego State再让不同专家分别负责不同区域的生成。04 WEM 具体怎么做具体到模型实现WEM 选择了论文中效果最好的组合semantic-based view full disentanglement。具体来说WEM 包含两个关键模块。第一VLM-based State Predictor。论文中使用冻结的 Qwen3-VL-2B-Instruct并加入 256 个 learnable query其中 192 个用于 World64 个用于 Ego。通过 Role-Conditioned AttentionWorld Query 和 Ego Query 关注不同范围的信息从源头上形成分工。第二CP-MoE Video Generator。生成器基于 Wan2.2-TI2V-5B 改造而来。Preceding Expert 先整合 World/Ego 状态并预测 semantic world-ego mask。随后mask 将视频 token 分配到 World Expert 或 Ego Expert。两个专家分别处理各自区域最后再通过 unrouting 重组成完整 latent 并生成下一段视频。这一过程让 World/Ego 分离贯穿了三个环节routing决定哪些 token 属于 World哪些属于 Egoexpert specializationWorld Expert 和 Ego Expert 分别处理各自区域unrouting将两路输出重新组合成完整视频。这就是论文中的Full Disentanglement。05 HTEWorld专门评估长时序导航-操作任务如果只评估短时操作很多模型都能看起来不错。但 WEM 想解决的是更难的情况多轮指令、长时序 rollout以及导航和操作交替出现的复合任务。现有 benchmark 很难同时覆盖这些需求因此论文构建了新的HTEWorld。HTEWorld 基于 BEHAVIOR-1K 构建面向 hybrid navigation-manipulation 任务包含125K个视频片段超过4.5M帧细粒度 action-centric annotations300条 multi-turn evaluation trajectories超过2K条 instructions。与传统短时操作 benchmark 不同HTEWorld 更强调连续多轮指令下的世界演化能力。它不仅要看模型生成的视频是否真实还要看模型能否在多轮任务中保持场景一致、指令对齐和导航-操作切换的稳定性。06 哪种 World-Ego View 最有效论文首先比较了三种 World-Ego boundary。结果非常明确Semantic-based View 最好。这说明对具身任务来说最有效的 World/Ego 分界不是纯运动也不是纯信息来源而是实体在交互中的语义角色。机器人与被操作物体需要交给 Ego 处理背景和未被操作物体需要交给 World 保持稳定。这样的划分更符合导航-操作任务中的真实需求。07 解耦应该做到什么程度论文进一步比较了不同 disentanglement strategies。这里最值得注意的是只做一点点解耦并不够。Pre-Disentanglement 只是提前划分 token但后续计算仍然共享Post-Disentanglement 虽然使用两个专家但如果没有合适的 semantic proxy效果也不理想。Full Disentanglement 的优势在于它让 semantic proxy 同时参与 token routing、专家计算和输出重组。也就是说World/Ego 的分工不是临时的而是贯穿整个生成过程。08 主结果WEM 在 HTEWorld 上取得最好表现论文将 WEM 与 WoW-7B、Cosmos-Predict 2.5、PAN-style baseline 等方法进行比较。WEM 在 HTEWorld 上取得最高 EWMScore。相比 PAN-style baseline提升约 3 分相比 Cosmos-Predict 2.5 与 WoW优势更明显。更重要的是WEM 的提升不仅体现在总分上也体现在 motion、consistency、3D、control、physics 等与具身世界演化密切相关的维度上。09 六个 HTEWorld-specific 指标看长时序是否真的稳为了更准确衡量长时序和导航-操作能力论文还引入了 6 个 HTEWorld-specific metrics。它们分为两组RCBD / LPSA / CISR关注 multi-turn continuous generation包括 chunk continuity、instruction alignment 和 layout preservationPMPA / CPDM / FPHS关注 unified navigation-manipulation generation包括 phase-matched motion、camera-object coordination 和 long-horizon stability。WEM 在六个指标上都达到最优或并列最优。其中WEM 在 RCBD、CISR、CPDM 上取得最优结果并在 LPSA、PMPA、FPHS 上达到并列最优。这说明 World-Ego Modeling 改善的不只是视觉质量而是真正提升了多轮任务中的连续性、指令对齐和混合导航-操作稳定性。10 定性对比长任务里错误会一轮轮放大论文中的定性结果很直观。在同一个五步任务中基线模型会出现各种典型错误物理关系不合理physical implausibility凭空生成物体或细节hallucination手臂和冰箱门混在一起hand-door blending披萨放置位置错误wrong placement盘子或门发生形变plate / door deformation冰箱门没有正确关闭not closed长时序 rollout 后场景整体崩溃scene collapse。而 WEM 能更稳定地完成从导航到开门、拿取、放置、关门的完整过程。这也是长时序具身任务最难的地方模型不是只要生成当前一步而是要让当前一步成为下一步的可靠前提。WEM 的优势正来自它把场景一致性和机器人交互分给不同预测角色从结构上减少两类动态互相污染。11 专家分工是否真的出现了WEM 中有 World Expert 和 Ego Expert。一个自然问题是它们是否真的学到了不同内容论文通过可视化分析发现Ego Expert 更关注机器人身体和被操作物体World Expert 更关注背景结构和稳定场景Semantic Head 能较好地定位 World/Ego boundary。这说明 WEM 的解耦不是形式上的多分支。World Expert 和 Ego Expert 确实在 semantic proxy 的约束下学到了不同的预测责任一个更偏向维持世界稳定一个更偏向建模机器人交互。12 这篇论文在回答什么问题这篇工作最重要的地方并不是提出了一个更复杂的网络结构而是重新定义了具身世界模型中的预测责任。过去很多视频世界模型默认采用单流预测历史观测 指令 → 未来视频。WEM 则认为这种形式对长时序具身任务不够。因为它把场景规律、机器人动作、物体交互和任务意图都混在了一条路径里。WEM 给出的回答是World 负责 persistent, instruction-agnostic scene regularitiesEgo 负责 robot-centric, instruction-conditioned dynamicsWorld/Ego boundary 需要被显式定义disentanglement 需要进入模型结构而不是停留在概念层面。一句话具身世界模型不能只预测未来还要知道未来的变化分别由“世界”和“自我”谁来负责。END过去很多视频世界模型更关注一个问题未来画面是否真实。但在具身智能里仅仅“真实”是不够的。机器人需要的是一个能够支撑连续交互的世界模型前一步生成的状态必须成为下一步行动的可靠基础。WEM 的价值就在于它把这个问题重新拆开了。哪些变化应该由稳定的 World 来维护哪些变化应该由行动中的 Ego 来承担当世界模型开始回答这个问题它就不再只是一个视频生成器而更接近一个能够理解长期环境演化和机器人交互动态的具身模拟器。这也许正是 World-Ego Modeling 最值得关注的地方。重磅全网首个具身智能开源知识库来啦技术/产业/投融资/上下游推荐阅读真机强化入门的一套完整教程pi*0.6复现方案我们用低成本的机械臂完成pi0/pi0.5/GR00T/世界模型等VLA任务具身智能的WAM与世界模型一份完整指南一览具身智能的行业全局从产品经理的角度出发VLARL方向首个系统教程来啦Online RL/Offline RL/test time RL等好用高性价比面向具身科研领域打造的轻量级机械臂VLA/VLA触觉/VLARL/具身世界模型等具身大脑小脑算法与实战全栈路线来啦~从零训练你的足式机器人让你的足式机器人真正动起来~1v1 科研论文辅导来啦重磅具身智能之心论文辅导来啦近20方向顶会/顶刊/SCI/EI/中文核心/申博等

相关新闻