VLA未死但需成长,具身智能数据工厂战争谁能笑到最后?

发布时间:2026/6/3 8:42:38

VLA未死但需成长,具身智能数据工厂战争谁能笑到最后? 具身智能VLA的翻车现状2026年5月具身智能圈子流传一个杜撰笑话VLA模型演示时被要求“把桌上那个苹果拿给我”机械臂却抓住马克杯现场死寂工程师赶紧“重新定义苹果”。过去半年类似翻车笑话很多国内独角兽及大洋彼岸的Figure AI、Physical Intelligence都未能幸免。前两年行业为VLA技术路线摇旗呐喊Covariant的RFM - 1露面时媒体想扣“通用机器人奇点”帽子谷歌DeepMind的RT - 2论文一出二级市场分析师提前具身智能商业化时间表。但现在没人再提“奇点”大家关心它能否在工厂正常工作英伟达Jim Fan高呼“VLA已死”不过这话可能太早。活在互联网里的“缸中大脑”要理解VLA为何频频翻车需了解其基因缺陷。现在主流VLA架构如谷歌的RT - 2和国内星尘智能等公司的逻辑一脉相承。先用互联网海量图文数据对齐视觉和语言让模型看懂图、听懂人话再接入机器人动作数据做端到端微调输出动作指令。这套打法“省钱”试图复用基础设施把机器人学习变成“轻量化”微调任务投资人爱听。但互联网数据有局限只教会模型“苹果是红色圆形物体”没教会“苹果受力会形变滚开”。互联网视频剪辑后充满跳跃VLA学到的是“伪物理”面对新物体组合或精细力控场景泛化能力下降。Physical Intelligence论文显示扩大模型规模、灌入更多网络图片对物理交互预测能力提升有限。所以VLA演示像精心排练的魔术只能在特定条件下看到机器人流畅抓取改变背景或放入特殊物体其“缸中大脑”本质就暴露它只知答案不知过程。世界模型唯一的解药“世界模型”热度高Yann LeCun和英伟达黄仁勋都提及。在具身智能中它被寄予厚望但一些团队做法简单粗暴在VLA输出端套壳物理仿真引擎“修正”动作这只是打补丁。真正的融合核心是内在化强大的世界模型应是VLA的“潜意识”和“直觉模块”在决策前快速推演物理变化约束和指导动作生成。李飞飞团队的RoboAgent工作等新尝试让模型学习动作时预测下一帧相关内容建构内部物理表征。当模型能准确预测物理变化抓取动作才会更合理。前景可见机器人公司开始融合VLA和世界模型Jim Fan喊出的“WAM万岁”本质也是这种组合未来具身智能公司会在技术白皮书中体现相关概念。数据工厂的沉默战争争论VLA和世界模型的问题最终都回归到数据。头部人形机器人公司数据采集人员表示头疼的是让标注员不打瞌睡采集高质量操作数据困难老工程师操作有问题真正能喂给模型的数据不到10%。要让VLA 世界模型学会泡咖啡需要多种物理交互数据互联网图文数据库无法提供。这是一场数据工厂战争特斯拉Optimus团队迁移自动驾驶数据体系形成自我造血的数据飞轮。国内多数机器人公司用“堆人”模式数据质量差、成本高。这导致VLA 世界模型技术路线虽成共识但技术壁垒会转移到数据工厂规模和效率上。未来竞争分层最高层是构建“物理世界基础模型”的公司中间层是有高效私有数据工厂的机器人公司没有高效数据工厂的公司会处于劣势。数据是VLA最终能用的唯一弹药Physical Intelligence疯狂签合作协议就是为获取物理交互数据。具身智能的Uber时刻虽未到但已在倒计时。结语VLA没死它要从互联网温室进入物理世界长出世界模型理解物理因果。这取决于数据工厂的工作具身智能宏大叙事落幕工程战刚刚开场。

相关新闻