
上周二凌晨我盯着 Jensen Huang 在 GTC Taipei 的 keynote 直播看到他放出一张架构图的时候差点以为自己在看科幻电影的概念设定。一个模型同时干五件事看懂视频、生成世界、预测未来帧、学习人类动作、输出机器人关节角度。不是五个模型拼接——是一个。| 这就是 NVIDIA Cosmos 3。{2026年5月31日 || 来源:NVIDIA GTC Taipei 官方公告} 在 Computex 期间发布号称全球首个开源 Physical AI 全模态模型omnimodel。权重当天上了 Hugging Face许可证用的 Linux Foundation 的 {OpenMDW-1.1 || 来源:NVIDIA 官方公告}。 |说实话全模态这种词我见过太多次了——GPT-4o 说过Gemini 说过最后不外乎是多加几个 encoder 然后说我们统一了。但 Cosmos 3 不一样的地方在于它的全模态是奔着物理世界去的不是奔着聊天去的。这篇文章把 Cosmos 3 的架构拆清楚给你一个判断它到底是个营销噱头还是真的能改变机器人和自动驾驶的开发方式。为什么需要一个模型干所有事在 Cosmos 3 之前搞 Physical AI 的团队机器人、自动驾驶、工业检测基本上在搭积木先用一个视觉模型看场景感知把结果喂给一个世界模型想象未来模拟再把模拟结果喂给策略模型决定怎么动决策最后输出动作指令四个模型三个接口每个接口都是潜在的错误源。延迟叠加、信息在传递过程中失真、debug 时你根本不知道是哪个模型的锅。用 NVIDIA 自己的话说A single model that handles all of those tasks does more than improve any one score: it removes inference steps, cuts handoff latency, and simplifies the MLOps stack.翻译成人话少折腾 pipeline多干活。这其实是个很实际的工程问题。我之前帮一个做仓储机器人的团队调过 pipeline——光是把感知模型的输出格式转成世界模型能吃的输入格式就写了 200 多行胶水代码。每次上游模型升级胶水就得重写。如果 Cosmos 3 真能把这些全塞进一个模型光运维成本就能砍一大截。双塔架构Reasoner GeneratorCosmos 3 的核心设计是一个Mixture-of-TransformersMoT双塔结构。Reasoner Tower推理塔本质是一个自回归视觉语言模型负责看懂当前场景 理解指令输出结构化的上下文信息告诉 Generator 该干什么可以理解为想好了再动手里的想好部分Generator Tower生成塔本质是一个 Diffusion Transformer负责动手——生成视频帧、世界场景、动作轨迹不能独立运行必须依赖 Reasoner 提供的上下文条件两个塔共享一个关键设计3D 多维旋转位置编码mRoPE。这个东西让模型在处理不同模态时能保持一致的时空结构——视频的第 3 帧和机器人的第 3 步在模型眼里是同一个位置。graphTDInput[多模态输入:文本/图像/视频/动作]--EncoderEncoder[模态编码器br/ViTVAE动作向量]--Shared[共享表征空间]Shared--Reasoner[ReasonerTowerbr/自回归推理]Reasoner--Context[结构化上下文]Context--Generator[GeneratorTowerbr/Diffusion生成]Generator--Output[输出:视频/文本/动作]|Reasoner-.-|mRoPE时空同步|Generator|styleReasonerfill:#dbeafestyleGeneratorfill:#fef3c7styleSharedfill:#d1fae5为什么这个设计有意思因为传统的 VLM视觉语言模型和视频生成模型是完全不同的技术路线——一个是 next-token prediction一个是 iterative denoising。NVIDIA 把它们塞进了同一个架构里通过联合注意力joint attention让两个参数集互相通信。打个比方这就像一个人左脑负责分析路况右脑负责画路线图但两个半脑实时共享信息——而不是像以前那样左脑分析完写张纸条递给右脑右脑读完再画。五种模式同一套权重这是我觉得 Cosmos 3 最精巧的设计。同一份模型权重通过不同的输入输出配置可以当五种不同的模型用模式输入 → 输出典型场景VLM 推理文本 视频 → 文本仓储机器人回答架子上有什么世界生成文本/图像/视频 → 视频生成自动驾驶长尾场景训练数据正向动力学动作 图像 → 未来视频机器人想象抓取结果再决定是否执行逆向动力学视频 → 动作从人类演示视频中自动提取动作标签策略模型图像 文本 → 视频 动作完整的机器人控制循环你发现了吗最后一个模式——策略模型——就是一个完整的感知→决策→执行闭环。以前需要 3-4 个模型协同完成的事情现在一个 forward pass 搞定。说到正向动力学模式我觉得这个最有意思。传统机器人开发中你只能让机器人去试——试了才知道能不能抓起来。但有了正向动力学模式机器人可以先在脑中模拟一遍抓取过程如果模拟结果显示抓取失败就不浪费时间去真的执行了。这对减少物理磨损和提升效率的意义太大了。三个硬件层级NVIDIA 这次很实在直接告诉你不同模型大小对应什么硬件级别参数量目标硬件状态Super64B32B 32BHopper / Blackwell 数据中心 GPU已发布Hugging Face 可下载Nano16B8B 8BRTX PRO 6000 工作站已发布支持 build.nvidia.com 免 GPU 试用Edge4BJetson 边缘设备即将发布没有具体日期注意Super 和 Nano 的参数量都是双份——因为 Reasoner 和 Generator 各占一半。所以 Super 是 32B 推理 32B 生成总共 64B。一个实际的建议现阶段别等 Edge。用 Nano 做原型验证确认可行了再考虑 Edge 是否能满足性能需求。NVIDIA 没有给出 Edge 的发布时间按照以往经验即将发布可能是三个月也可能是六个月。对了如果你没有工作站级 GPU可以直接去 build.nvidia.com 试 Nano 版——不用 GPU浏览器里就能跑。上手试一下代码示例以下是一个用 Cosmos 3 Nano 生成文本到图像的示例基于 Hugging Face Diffusers 库。你需要至少一张 RTX PRO 6000 或同等显存的 GPUimporttorchfromdiffusersimportCosmos3OmniPipeline# 加载模型pipeCosmos3OmniPipeline.from_pretrained(nvidia/Cosmos3-Nano,torch_dtypetorch.bfloat16,device_mapcuda)# 生成一张机器人实验室的场景图prompt(A medium shot of a modern robotics research laboratory with white walls and a gray floor. A robotic arm with a metallic finish is mounted on a clean white workbench, its gripper positioned above a row of small colored objects. A laptop and neatly arranged tools sit beside the robot. The scene is brightly lit by overhead fluorescent lights.)resultpipe(promptprompt,num_frames1,height720,width1280)result.video[0].save(cosmos3_lab_scene.jpg,formatJPEG,quality85)print(Image saved to cosmos3_lab_scene.jpg)这段代码看着简单但背后发生的事情相当复杂Reasoner 先理解你的文字描述生成结构化的场景表征然后 Generator 基于这个表征去 denoise 出一张图。整个过程在一个 pipeline 里完成。如果你想做视频生成把num_frames改成大于 1 的值就行比如 121 帧约等于 5 秒的 24fps 视频。不过视频生成对显存的要求会陡增——Nano 可能需要 24GB 显存才能跑起来。开源许可证OpenMDW-1.1| NVIDIA 这次用的不是自己的 NV License而是 Linux Foundation 的 {OpenMDW-1.1 || 来源:NVIDIA 官方公告}。这个许可证比 NV License 友好得多 |✅ 允许商业使用✅ 允许修改和微调✅ 允许分发和创建衍生模型✅ NVIDIA 不主张对模型输出的所有权⚠️ 唯一限制产品中需要显示Built on NVIDIA Cosmos标识这个唯一限制在实操中意味着什么你的产品网页、关于页面、文档中的某个地方写上这行字就行。不算过分但确实是个绑定——用了它的模型就等于在帮 NVIDIA 打广告。不过话说回来比起 Llama 的社区许可证或者 Gemini CLI 的说停就停OpenMDW-1.1 已经算相当开放了。至少 Nvidia 没有保留我随时可以不让你用的权力。踩坑和注意事项研究了两天列几个我觉得值得注意的点1. 基准测试数据要审慎看待NVIDIA 声称在 Physical AI 排行榜上排名第一在开源模型中。但发布时没有提供具体的分数对比表也没有第三方独立验证。Digital Applied 的评价很中肯The right move is the same one we recommend for any new model — run the eval on your own scenes and tasks, not on the press release.2. 边缘部署还早Edge 版4B没有发布日期。如果你做的是需要在机器人本体上实时推理的场景目前只能用 Nano 在工作站上验证然后等 Edge。3. Super 版对硬件要求很高64B 参数意味着你需要至少 128GB 显存才能在 BF16 下跑起来。HopperH100/H200或 BlackwellB200级别的数据中心 GPU。不是个人开发者能玩得起的。4. Diffusers 集成还比较新Cosmos3OmniPipeline是刚加入 Diffusers 的文档和社区经验都还不多。遇到 bug 的概率不低建议先在 GitHub issue 里搜一圈再动手。和现有方案对比对比维度Cosmos 3旧方案多模型拼接纯 LLM 方案GPT-4o 等物理推理能力专门训练原生支持各模型各管各无专门训练机器人动作输出原生支持关节角度/轨迹需要单独策略模型不支持Pipeline 延迟单次 forward pass多模型串联延迟叠加N/A部署复杂度一个模型3-4 个模型 胶水代码API 调用开源程度OpenMDW-1.1权重开放取决于各组件不开源硬件门槛高需要专业 GPU分散但总量不低无云 API适用领域机器人/自动驾驶/工业各领域皆可通用场景说白了Cosmos 3 不是拿来聊天或写代码的。它的定位非常明确——Physical AI也就是需要在真实物理世界里感知和行动的系统。如果你不做机器人、不做自动驾驶、不做工业视觉这个模型跟你关系不大。总结与看法Cosmos 3 做了一件非常NVIDIA的事用一个统一架构把之前散落在 Cosmos Predict、Transfer、Reason、Policy 四个产品里的能力全合并了。好处是开发者不用再纠结我该用哪个 Cosmos 子产品——现在就一个入口。双塔 MoT 架构的设计挺巧妙的Reasoner 想完再让 Generator 做符合直觉。五种模式共用一套权重减少了部署和维护的负担。OpenMDW-1.1 许可证也算是 NVIDIA 在开放性上迈出的一步。但我也得泼点冷水基准测试缺独立验证——NVIDIA 自己说的第一先打个问号Edge 版遥遥无期——大部分机器人场景需要端侧推理但现在只能等硬件门槛不低——连 Nano 都要工作站级 GPU个人开发者上手成本高生态还很早期——Diffusers 集成刚上线社区经验少踩坑会多你怎么看如果你在做机器人或自动驾驶你会考虑用 Cosmos 3 替换现有的多模型 pipeline 吗还是说你觉得当前的拼装方案已经够用了评论区聊聊。