最大规模预训练具身世界模型,真机遥操作数据高达17800小时!

发布时间:2026/6/10 15:09:39

最大规模预训练具身世界模型,真机遥操作数据高达17800小时! 真机数据从微调配角变身具身预训练绝对主力——真机预训练目录01 真机数据从“微调耗材”变成“预训练根基”02 一个共享骨干同时当“策略”和“模拟器”VAM视频动作模型直接输出可执行动作ACVS动作条件模拟器评估动作好不好用03 机器人的“慢思考”比猛堆参数有用04 长程精密操作拉开真实差距05 重新定义开源具身模型的上限06 机器人的“预训练→部署→回流→再训练”飞轮廉价视频数据多到用不完却教不会机器人精准动作真机遥操作数据最靠谱却贵到只能拿来微调。当大家几乎默认大规模预训练的主力只能是仿真、人类视频或UMI数据真机数据是“奢侈品”。近日上海创智学院副教授、智元机器人团队提出的τ₀‑WM直接打破了这个默认规则。作为当前全球最大规模的开源预训练具身世界模型它用5B参数、27300小时异构数据完成预训练。其中真机遥操作数据高达17800小时成为模型的核心底座。更关键的是它把测试时闭环推演、筛选、修正做成推理标配让机器人真正实现“先虚拟推演再物理执行”。具身智能的预训练底层逻辑已经从“数据凑数”转向“真机打底、异构协同、推理闭环”。01 真机数据从“微调耗材”变成“预训练根基”过去具身数据的金字塔结构根深蒂固底层互联网/人类第一视角视频量大无动作标签中层UMI/仿真数据有交互但动作对齐差顶层真机遥操作数据精准但稀缺仅用于微调。τ₀‑WM彻底重构这套逻辑直接把真机数据放在预训练最核心位置▲τ₀‑WM 框架总览真机遥操作数据17800小时双臂多视角采集动作空间与部署完全对齐提供最高质量监督UMI数据6500小时补充场景与行为多样性这种设计让不同数据“各教各的、互不干扰”既保留真机数据的精准性又用上海量泛化数据。最终效果也直接验证价值零样本任务平均成功率从14%跃升至55%杂乱场景下的鲁棒性显著提升。02 一个共享骨干同时当“策略”和“模拟器”行业常见做法是“策略模型仿真器”两套系统独立训练再生硬拼接导致动作与推演的物理先验脱节。τ₀‑WM的核心创新是一套视频扩散骨干承载两大核心功能。VAM视频动作模型直接输出可执行动作以Wan2.2‑TI2V‑5B为基底同步完成两件事视频分支预测未来视觉隐变量学习场景时空演化规律动作分支通过跨注意力关联视频特征输出连续动作块。▲视频动作模型VAM架构它不是“先出画面再反推动作”而是视频与动作联合生成让动作预测天然绑定场景物理变化。ACVS动作条件模拟器评估动作好不好用复用同一骨干去掉动作生成头新增任务进度预测头输入候选动作当前观测指令输出多视角推演画面稠密任务奖励。▲动作条件视频模拟器ACVS架构它和策略共享同一套世界先验既能判断动作是否会碰撞、偏移还能预估任务推进程度甚至从失败轨迹中学习避坑。这种一体设计从根源解决“推演归推演、执行归执行”的两张皮问题也是它能在精密操作中稳定胜出的关键。03 机器人的“慢思考”比猛堆参数有用当前绝大多数VLA模型都是“条件反射式”执行看画面→出动作→执行小错误步步迭代。τ₀‑WM的落地价值在于把测试时计算TTC变成标准流程。整套闭环分为三步提议VAM一次性采样N组候选动作初筛用重去噪一致性分数RCS快速打分剔除不靠谱方案修正最高分仍不达标时启动ACVS推演所有候选动作的未来状态选中任务进度最高的结果反向引导VAM生成修正动作。这不是增加推理负担而是用少量计算换取极低的试错成本。实验数据最有说服力无闭环成功率43%仅RCS筛选50%RCS模拟器修正60%。尤其在笔入盒、纸巾入盒这类精密对准任务中成功率直接翻倍。对比CFG、ACG等引导方法τ₀‑WM的优势更明显它不只是检查动作是否流畅而是以“未来结果”为决策依据更接近人类的真实决策逻辑。04 长程精密操作拉开真实差距τ₀‑WM的测试场景全部聚焦工业/家用真实长程精细任务且均未出现在预训练数据中▲机器人精细操作评测任务示意图工具箱分类收纳多物体对位、压实书包操作拉链、收纳、闭合全流程羽毛球装盒精准放置盖盖水龙头接管高精度柔性对准。对比π₀.₅、Fast‑WAM两大强基线▲不同模型在四类任务上的成功率与任务完成度对比平均成功率全面领先水龙头接管这类所有方法都难的极限任务它仍保持最优鲁棒性关键行为差异基线满足“插入即可”τ₀‑WM会主动压实、矫正追求最终状态完美。但必须客观说明这些结果基于结构化桌面、固定视角、已知物体未覆盖完全无序的野外场景其鲁棒性仍有明确边界。05 重新定义开源具身模型的上限在当前开源具身世界模型中τ₀‑WM规模第一27300小时预训练数据真机数据占比超65%架构最一体化策略与模拟器共享骨干无模块割裂推理最落地测试时闭环修正直接降低真机试错成本。它和传统生成式世界模型、纯策略模型的核心区别不做纯视觉脑补所有预测绑定可执行动作不做纯精准策略用异构数据补齐泛化能力不把未来预测当训练装饰而是作为推理决策的核心环节。06 机器人的“预训练→部署→回流→再训练”飞轮τ₀‑WM完成了三个关键范式转变数据范式真机数据从微调耗材变为预训练核心燃料架构范式策略与仿真器从拼接走向一体化共享推理范式从条件反射执行走向先推演、筛选、修正再行动。τ₀‑WM的短板也清晰可见纯视觉依赖缺乏触觉反馈柔性操作、精密插装存在天然上限推理算力成本多候选采样模拟器推演端侧部署需做权衡非完全零样本仍需少量微调适配全新任务未实现全场景通吃。它不是“通用机器人终局方案”而是当前最接近工程化、数据体系最完整的具身世界模型。对于整个具身智能行业它给出了一条可复制的量产路线以大规模真机数据为底座用异构数据拓宽泛化以闭环推理保证可靠性。随着真机数据采集基础设施不断成熟τ₀‑WM已经证明机器人的“预训练→部署→回流→再训练”飞轮终于可以跑通了。Ref项目名称τ0-WM: A Unified Video-Action World Model for Robotic Manipulation项目网站https://finch.agibot.com/research/tau0-wm项目githubhttps://github.com/sii-research/tau-0-wm模型huggingfacehttps://huggingface.co/sii-research/tau-0-wm

相关新闻