从自动驾驶到物理AI,Momenta 在下多大一盘棋?

发布时间:2026/6/26 2:16:41

从自动驾驶到物理AI,Momenta 在下多大一盘棋? 物理AI的“门票”之战已经打响。文周享玥编赵艳秋6月23日Momenta在港交所披露聆讯后资料集港股上市进入最后冲刺阶段。这家公司给自己的定位很特别不是传统意义上的“自动驾驶公司”而是一家“物理AI公司”。言下之意它要做的不仅是让车自己开更是让AI理解这个世界是怎么运行的。目前Momenta在第三方城市NOA市场销量市占率达65%稳居第一。一旦顺利上市它将成为“物理AI第一股”。这不是单独一家公司的故事它折射的是整个AI行业的叙事切换过去几年大语言模型是绝对主角数字世界的智能化以超乎想象的速度推进。而现在当数字AI的边界逐渐清晰下一个更宏大的战场已经浮出水面——物理 AI。打开这扇大门的钥匙叫世界模型。在所有奔向物理AI的玩家里自动驾驶暂时领先半个身位因为它是目前唯一同时跑通数据闭环和商业闭环的赛道。但这半个身位能不能守住押的是在路上训出来的这颗大脑到底能不能“下车”。01元年已至世界模型为何非建不可2026年被频繁称为“物理AI元年”几乎所有AI玩家都涌向同一个方向——世界模型。行业人士告诉数智前线作为物理AI的底层底座世界模型将于今明两年全面进入训练高峰期。资本和巨头动向最能说明问题。海外英伟达刚推了物理AI基础大模型Cosmos 3特斯拉在搞神经网络世界模拟器李飞飞、杨立昆创立的公司也双双押注世界模型。国内阿里、腾讯已下场布局智元机器人等具身智能企业同步自研世界模型自动驾驶出身的Momenta在今年4月推出R7世界模型创业端极佳视界一月内连拿两轮共25亿元融资VAST、流形空间、千诀科技等也相继完成融资。世界模型究竟是什么与大语言模型区别何在简单来说大语言模型处理的是文本和图像信息教AI理解数字世界而世界模型还要处理空间、运动、因果、交互等物理规律让AI理解真实物理世界。这是一个量级更大的难题也意味着更大的价值潜力。一旦跑通将从根本上重塑工业制造、家庭服务、自动驾驶等所有物理场景的智能化边界。到今天世界模型仍然没有一个统一定义。不同流派各有各的理解和技术路线。自动驾驶企业从海量行驶数据切入在真实路况中训练对物理世界的认知具身智能公司以机器人为载体在复杂真实场景中摸爬滚打攒数据视觉模型公司从视频生成与预测出发试图从第一视角画面中还原世界规律英伟达、OpenAI这类AI巨头则站在更底层的视角搭建通用平台。尽管路径各异行业今年聚焦的问题高度一致——提升泛化性。有企业提出核心方向是训练出泛化能力达到60%左右的基座模型进入具体场景后只需少量数据就能快速适配。而实现泛化绕不开一个前提数据。没有数据算法与算力都无从谈起。这也是为什么今年所有做世界模型的公司几乎都在干同一件事——下到场景里造数据回流的闭环。“我们会尽快面向所有场景按60%家庭、30%商用、10%工业齐头并进。”一家具身智能企业向数智前线透露已组建数千人的数采团队今年目标百万小时采集明年冲击上千万小时。有企业在考察商场文旅重点铺设交互型机器人比如人类拿一瓶水只需两三秒机器人可能需要十五到三十秒但交互过程本身就在回传数据。也有企业将机器人搬进无人零售、无人药店以及汽车厂、电池厂的料箱搬运、分拣等场景。甚至有企业提出借助乒乓球机器人在工会、学校等场景边陪练边采集。就连海外企业也开始在全球设厂期望形成数据闭环。数据采集方式也在快速进化形成分层互补的数据金字塔。过去主流方式是真机遥控操作精度最高但设备昂贵、难以规模化。今年穿戴式UMI设备数据和人类第一视角视频Ego数据相继崛起采集员佩戴可穿戴设备即可记录操作轨迹便于“众包”低成本且泛化性更强。另外业界也在重点采集“机器人自主探索人工纠偏”的开放环境交互数据让机器人先尝试失败时人再兜底纠正这类数据因接近真实世界的学习路径反而更有价值甚至有企业以1.5倍价格收购这类“不成功”案例数据。行业已形成明确共识未来18至24个月跑通数据采集闭环是头号工程。智元机器人罗剑岚认为率先在便利店、商超、仓储等半结构化场景中跑通“部署—数据—迭代”正向循环的团队将建立先发优势。因为数据飞轮一旦转起来就是护城河。好比特斯拉当年投入巨大去做自动驾驶采集现在几百万辆车在路上跑实时回传数据。换到世界模型赛道同样如此谁先下到场景、跑通数据回流谁就离门票更近一步。这也是为什么Momenta要将自己定位为“物理AI公司”而非单纯“自动驾驶公司”的原因之一。02双闭环壁垒自动驾驶流派为何先拿到门票通往物理AI的赛道不止一条但跑通数据回流只是拿到门票的必要条件。所有流派都看到了数据的价值也都在往场景里扎但分野还在于谁能在烧钱跑闭环的同时活下来。物理AI是条吞金赛道数据飞轮之外还得有持续的现金流兜底。按这个标准筛下来自动驾驶或许已经成为目前最明朗的阵地。这也是为什么黄仁勋会在CES2026上断言“自动驾驶汽车将是第一个面向主流市场的大规模物理AI系统。”Momenta CEO曹旭东的洞察更深入一层物理AI的胜负手在于两个闭环——数据闭环和商业闭环。二者是正反馈关系先有数据闭环才能把体验做到足够好体验一旦接近或超过人类水平就能触发爆发式商业化而商业化反过来又会带来数据爆炸式增长推动模型能力进一步跃升。这种正反馈一旦越过临界点就是指数级加速。这解释了AI领域一个屡屡上演的剧本一项应用可能要经历十年甚至二十年的漫长爬坡期才能接近人类水平但跨过门槛后大幅超越往往只在一两年间发生。曾经的AlphaGo、人脸识别都是如此。自动驾驶已经站在了这个临界点上而通用机器人还在赶来的路上。自动驾驶也是目前唯一同时跑通两个闭环的物理AI 赛道。换句话说自动驾驶的领先背后是它比所有人都早几年同时拿到了油和发动机。先看数据闭环。很多人觉得数据多就是壁垒但原始数据更像含铁量极低的贫矿只占价值链的10%剩下90%都来自一套能把贫矿变成富矿再炼成钢铁、加工成发动机最终装到车上让车跑起来的完整数据飞轮体系。如何捞出真正有价值的数据怎么标注、清洗、训练、验证、部署每一步都是系统化架构与组织能力的竞争。业界已经形成共识数据必须分层各公司都在搭建各自的数据管线以实现更快的数据回流与模型迭代。自动驾驶流派的先发优势正在于此当具身智能还在实验室里攒数据时自动驾驶已经跑了千百亿公里建立起了从采集到部署的整条管线。比如Momenta光量产车就有 90 万台覆盖超过100款车型每天在路上跑源源不断回流数据。R7世界模型之所以能在今年4月就量产首发靠的也不是某个天才算法而是其世界模型三层架构叠出来的体系能力。预训练层本质是给AI“上物理课”。基于从90万量产车、超120亿公里实车里程中提炼出的1亿段黄金数据将车速、刹车距离、转弯惯性等物理常识与因果关系压缩进基座模型让AI形成对物理世界的基础认知。中间的仿真层负责给模型搭出一个虚拟练车场。系统基于真实数据生成闭环环境在仿真世界里推演各种突发情况尤其针对现实里少见、一旦出现却很危险的“长尾场景”效率比传统实车路测提升上万倍。而且和渲染生成的仿真不同的是这是通过真实数据学习生成的世界可通过实车与仿真的一致性做对齐和校准有效缩小simulation to real 仿真与真实世界之间的Gap。强化学习层则相当于给模型配一个“教练”。 在前两层基础上构建高度真实的虚拟训练场让模型在千万次推演中反复试错通过奖惩机制自己摸索出哪种做法更优最终习得老司机般的驾驶能力而不是单纯模仿。三层都以真实数据打底缺一不可。再看商业闭环。曹旭东认为要迈过规模化L4的门槛必须“有现金流业务”用今天的钱养明天的技术。这也解释了一个容易被忽略的事实在物理AI这条赛道上能不能活到终点有时比跑得多快更重要。Momenta的“一个飞轮两条腿”策略就是干这个的。一条腿踩在当下用量产辅助驾驶换规模、数据和收入另一条腿伸向未来通过Robotaxi、Robovan乃至Robotruck把长期天花板打高。两条腿共用一套技术底座量产车收集的海量数据持续喂养L4算法L4的技术突破又反哺量产车体验。这套打法下飞轮效应的加速肉眼可见2022年Momenta首个10万台量产用了24个月如今最快不到40天就能交付10万台。收入也在快速增长三年翻三倍2023年7.43亿2024年13.25亿2025年24.13亿。其中许可收入三年翻了42倍从0.23亿元大幅增长至9.68亿元凭借高边际收益属性正成为驱动营收持续增长的关键。截至去年底公司现金储备已经突破百亿。与此同时Momenta经调整年内亏损持续收窄从2023年的10.93亿元下降至2025年的3.03亿元占收入比重从147.2%降至12.6%而年内亏损从2023年的25.7亿元增至34.58亿元。34.58亿元的总亏损容易引起误读其实主要源于可转换优先股的公允价值变动。该变动属于非现金项目估值涨得越快这笔账面亏损越大这也从一个侧面说明Momenta这几年估值水涨船高。等Momenta上市后优先股转成普通股这笔亏损中的大部分就会变成净资产。数据闭环是燃料商业闭环是引擎Momenta敢把自己改写成物理AI公司的底气就在这里。当很多企业还在为其中一个闭环挣扎时自动驾驶已经两个都转起来了。03不止于驾驶世界模型的真正野心在车外Momenta真正的野心不止在车里也在车外。在自动驾驶场景世界模型已经跑出了说服力。最具代表性的一幕是夜间高速上前车突然掉落一箱苹果滚了满地。传统算法大概率只能识别到前方有障碍物然后急刹车或绕开箱子散落的苹果则很可能被直接压过去。而Momenta R7世界模型不仅第一时间识别出了箱子还预判了苹果滚落的轨迹与扩散范围规划出精准绕行轨迹一个苹果都没压到。这背后靠的是对物理运动规律的真正理解而不是场景记忆。目前首款搭载R7的量产车型上汽大众 ID. ERA 9X已上市。但如果你以为这些公司扎堆砸钱做世界模型只是为了把辅助驾驶做得更好那就低估了它们的野心。它们真正在下的是一盘更大的棋——先在自动驾驶这个最前沿的阵地上把物理 AI 的通用大脑训练出来再把这颗大脑快速泛化到任何需要与物理世界交互的载体之上。以Momenta为例其持续迭代的世界模型不仅用在乘用车上也会用到无人驾驶出租车Robotaxi、无人物流车Robovan与无人驾驶卡车Robotruck几大业务形态中未来甚至可能延展到具身智能等领域。用曹旭东的话说All-in-one platform用一个大模型能够实现所有的自动驾驶垂直应用并且做得更好。曹旭东透露这件事已经在乘用车、Robotaxi和Robovan上得到了验证。带来的价值是双重的成本端每个垂直场景的研发成本大幅降低能力端每个场景的经验和数据又汇总吸收到大模型里让每个垂直领域都做得更好。“这就是平台效应”。曹旭东表示这有点像十多年前的互联网行业当年垂直电商和平台电商并存但最终胜出的是平台。他判断在物理AI领域也存在很强的平台效应。谁先把通用底座做扎实谁就能在各个垂直场景中快速复制、快速迭代。而Momenta所打造的世界模型正在成为物理AI世界的基座模型。未来物理AI的终局竞争并不局限于某一载体或某一场景而在于是否拥有一颗能够理解物理世界的通用大脑。自动驾驶率先验证了这套系统的可行性而它的下一个战场将是更广阔的物理世界。

相关新闻