世界模型落地破局:不用高端 GPU,机器人端侧就能实时跑,月成本仅 150 元

发布时间:2026/6/6 11:26:40

世界模型落地破局:不用高端 GPU,机器人端侧就能实时跑,月成本仅 150 元 过去一年具身智能行业从VLA逐步走向世界模型。但随着模型能力不断提升一个现实问题开始浮现世界模型能否摆脱数据中心级GPU的限制真正运行在机器人本体的端侧芯片上只有做到这一点世界模型才具备规模化落地的可能。如今这一门槛正在被突破。隐式世界模型一种更高效的技术路线在具身智能领域世界模型的价值不难理解。机器人要在真实环境中执行任务不仅需要识别物体、理解指令更需要预判物理世界的变化球会滚向哪里、衣服如何变形、液体是否会溢出这正是机器人做流水线分拣、柔性抓取、倾倒液体等复杂动作的关键。传统VLA模型受限于动作监督数据更容易学习行为模式而非真实的物理规律和任务演化过程。一些显式世界模型试图通过视频生成和未来画面预测来弥补这一不足但像素级预测带来的训练与推理开销十分巨大难以满足机器人实时控制对延迟、稳定性和成本的要求。智在无界BeingBeyond在两个月前发布的Being-H0.7代表了另一条典型的技术路线——隐式具身世界模型。它并不在训练和推理过程中逐帧生成未来图像而是在多模态感知与动作生成之间引入一组可学习的latent query将当前观测、任务目标以及对未来交互的判断压缩到紧凑的潜空间中。通过这种方式模型无需依赖像素级rollout依然能够保留世界模型对未来的预测能力。本质上它将“预测未来”从像素空间转移到了潜空间。为什么放弃像素级预测研发团队认为像素级预测并不是机器人控制真正需要的目标反而会带来两方面问题一方面模型需要学习大量与动作决策无关的视觉细节例如头发纹理、衣物褶皱或环境颜色等这些信息几乎不会影响机器人动作却会干扰模型对关键控制因素的学习另一方面未来画面的生成本身也会带来巨大的训练和推理开销。不过放弃像素级监督并不意味着降低难度。恰恰相反隐空间世界模型对数据规模和模型预训练管线提出了更高要求。为此Being-H0.7使用了超过20万小时第一人称人类视频和1.5万小时机器人示教数据。端侧实时部署让世界模型真正“跑”起来近日智在无界BeingBeyond正式发布Being-H-Flash模型产品不仅完成百TOPS级端侧芯片实时部署还率先实现了国产芯片与英伟达平台双适配。推理速度测试结果显示Being-H-Flash在高算力平台上达到了30~45FPS在百TOPS级端侧平台上实现了接近20FPS的实时效果。相比之下一些显式世界模型在同类平台上大多停留在个位数FPS多数甚至难以部署到百TOPS级端侧芯片上。端侧实时运行对机器人意味着更短的控制闭环、更低的通信依赖和更稳定的系统响应也意味着世界模型能够真正参与动态抓取、流水线分拣、柔性物体操作、液体倾倒等复杂任务的实时决策成为机器人在线控制系统的一部分。推理优化从来不是简单的模型压缩问题更是对全栈工程能力的考验。围绕Being-H0.7研发团队构建了一整套面向端侧部署的后训练与推理基础设施包括自研的Universal Async Chunking等多项核心推理优化技术。因此Being-H-Flash并非单纯的模型版本而是一套模型、系统与硬件协同优化的完整方案模型侧通过隐空间推理避免像素级rollout系统侧通过异步动作块机制维持实时控制芯片侧则针对不同平台进行推理图、算子调度和内存访问优化。在极限条件下单步推理延迟可压缩至毫秒级。产品矩阵不同场景的部署方案围绕不同部署需求规划了完整的产品矩阵。该系列除了模型核心能力的逐级递增更大的区别在于推理效率、部署优化程度以及场景适配深度aura基础版面向通用场景提供隐式世界模型的标准推理能力相较传统显式世界模型可获得约23倍的推理速度提升ventus加速版进一步融合自研推理加速技术在不损失模型能力的前提下显著提升端侧运行效率procella旗舰版面向产业落地需求能够结合具体机器人本体、芯片平台与业务场景进行深度定制化优化可面向百TOPS级芯片实现实时部署。对于全新的芯片架构或硬件环境procella版本可以在24周之内实现从零开始的定制化适配并将性能差距控制在主流参考平台的5%以内。值得一提的是procella版本已同时完成英伟达与国产芯片平台适配并在国产百TOPS级端侧算力平台上实现有效运行。这是国产世界模型首次在国产百TOPS级端侧芯片上实现实用化部署。然而机器人的商业化最终都要回到一笔清晰的成本账。机器人与自动驾驶有着相似的逻辑——两者都属于高频实时系统无法依赖云端持续输出决策。同时机器人要实现规模化普及成本必须被控制在合理范围内不可能长期依赖高性能GPU作为计算平台。过去世界模型往往被视为一条“更聪明、也更昂贵”的路线。以“单台机器人日扫码2000件快递”为例由于难以摆脱对高性能GPU的部署依赖多种显式世界模型方案的月算力成本均在8000元以上而Being-H-Flash的运行成本仅为约150元相较前者降低了98%。这组数据揭示了一个重要趋势当世界模型从显式像素生成转向隐式潜空间推理其部署成本曲线也将发生根本性变化。结语过去世界模型往往受限于高昂的成本门槛。Being-H-Flash的意义正在于重新平衡世界模型的能力与成本。它既保留了世界模型对未来交互和物理过程的建模能力又避免将推理过程变成昂贵的视频生成任务既支持真实机器人的闭环控制又能够在百TOPS级端侧芯片上实现实时运行。对于用户而言这意味着不必再在“模型能力”和“部署成本”之间做极端取舍。端侧实时运行降低了对云端网络的依赖使机器人能够在工厂、仓储、门店和家庭等复杂环境中保持稳定运行对国产芯片平台的支持也为整机厂提供了更灵活的供应链选择。过去只有高端硬件才能运行的世界模型开始具备进入更多机器人产品的可能。当世界模型的端侧算力门槛下降许多过去受限于成本和部署条件的场景也将被重新打开。

相关新闻