与大一统趋势深度解析)
摘要2026 年 6 月李飞飞在其 Substack 博文 “A Functional Taxonomy of World Models” 中针对 AI 行业滥用世界模型概念的乱象提出了基于经典 POMDP部分可观测马尔可夫决策过程智能体循环的功能分类框架将市面上所有被称为世界模型的系统划分为三类渲染器Renderer生成视觉画面、模拟器Simulator输出符合物理规律的世界状态、规划器Planner输出智能体动作决策。本文从理论框架、三类模型的定义与代表产品、融合趋势与数据瓶颈四个维度进行深度拆解。原文A Functional Taxonomy of World Models - Dr. Fei-Fei Li (Substack)一、问题背景为什么需要重新定义世界模型“世界模型”World Model已成为 AI 领域被滥用最严重的术语之一。文生视频模型如 Sora自称世界模型游戏生成引擎自称世界模型物理仿真平台也自称世界模型。这导致了严重的概念混乱被称为世界模型的系统实际做的事情真的在理解世界吗文生视频Sora 等生成视觉逼真的视频帧像素级逼真但不遵守物理定律游戏世界生成程序化生成可交互场景有规则约束但非通用物理物理引擎PhysX 等刚体/流体动力学仿真精确物理但手工编程规则VLA 机器人模型从观测到动作的端到端策略有决策能力但场景理解有限李飞飞的核心观点这些系统并非在做同一件事它们各自对应 POMDP 智能体-环境循环中的不同功能投影。把它们统称为世界模型就像把发动机、方向盘和仪表盘都叫汽车一样 – 技术上不算错但完全丧失了区分度。二、理论基石POMDP 智能体-环境循环李飞飞的分类框架锚定在强化学习教科书Sutton Barto中沿用了数十年的经典图示 –POMDP 循环Agent → action a t World State s t → observation o t Agent \text{Agent} \xrightarrow{\text{action } a_t} \text{World State } s_t \xrightarrow{\text{observation } o_t} \text{Agent}AgentactionatWorld StatestobservationotAgent四个核心要素智能体Agent人、机器人或软件系统动作Action智能体对环境的干预世界状态State完整的物理描述 – 所有物体的位置、速度、材质属性等观测Observation智能体感知到的不完整信息 – 落在视网膜上的光子、传感器读数、视频帧像素关键区分状态≠ \neq观测。状态是世界的完整物理描述观测是智能体对状态的不完整感知。一个世界模型到底在建模这个循环的哪一段决定了它属于哪个功能类别。https://x.com/i/status/2062247238143996275图 1POMDP 智能体-环境循环与世界模型三大功能分类 – 渲染器将状态映射为观测模拟器预测下一状态规划器从观测输出动作。重点关注三者在循环中的不同位置。重绘自 design skill三、功能分类学渲染器、模拟器、规划器3.1 渲染器Renderer状态→ \rightarrow→观测定义给定世界状态或其表示生成感官可感知的输出图像、视频、3D 场景画面。核心优化目标是视觉逼真度。POMDP 中的位置对应s t → o t s_t \rightarrow o_tst→ot的映射即从世界状态到观测的生成过程。代表系统开发方核心能力局限Genie 3Google DeepMind交互式 3D 环境生成视觉优先不保证物理合规RTFMWorld Labs实时 3D 场景渲染侧重渲染质量Sora / VeoOpenAI / Google文生视频生成的视频不遵守物理定律关键洞察渲染器的商业化最成熟影视、游戏、广告但视觉逼真≠ \neq物理真实。一个渲染器可以生成完美的水面反射效果但水的流动可能完全违反流体力学。这意味着渲染器生成的数据不能直接用于训练机器人或做工业仿真。3.2 模拟器Simulator( s t , a t ) → s t 1 (s_t, a_t) \rightarrow s_{t1}(st,at)→st1定义给定当前世界状态和智能体动作预测下一时刻的世界状态且输出必须遵循几何和物理定律。核心优化目标是物理精确度。POMDP 中的位置对应状态转移函数T ( s t 1 ∣ s t , a t ) T(s_{t1} | s_t, a_t)T(st1∣st,at)是循环的世界动力学部分。代表系统开发方核心能力局限OmniverseNVIDIA工业级物理仿真平台依赖手工物理引擎MarbleWorld Labs多模态输入生成可物理碰撞的 3D 场景学习型物理精度待验证MuJoCoDeepMind刚体/关节动力学仿真仅限刚体无视觉生成关键洞察模拟器是连接渲染器和规划器的桥梁也是万亿级工业市场的入口数字孪生、自动驾驶仿真、机器人预训练。但面临最严峻的数据瓶颈 – 高精度 3D 标注数据极度稀缺远不如互联网视频渲染器的训练数据或文本语言模型的训练数据丰富。3.3 规划器Plannero t → a t o_t \rightarrow a_tot→at定义接收智能体的观测和目标输出应执行的动作序列。核心优化目标是决策最优性。POMDP 中的位置对应策略函数π ( a t ∣ o t ) \pi(a_t | o_t)π(at∣ot)是智能体的大脑。代表系统开发方核心能力局限RT-2 / OctoGoogle / BerkeleyVLA 机器人策略模型仅实验室可用泛化差动作类世界模型多家预测动作后果并选择最优依赖模拟器提供训练环境关键洞察规划器是具身智能Embodied AI的核心赛道但当前的 VLAVision-Language-Action模型仍停留在实验室阶段。真正的突破需要模拟器提供大规模、物理准确的训练环境。数据源训练训练训练互联网视频 海量渲染器3D标注 稀缺模拟器机器人实操 极稀缺规划器POMDP循环渲染器规划器模拟器渲染器世界状态 s_t观测 o_t动作 a_t世界状态 s_t1观测 o_t1四、大一统趋势三类模型走向融合4.1 融合的逻辑渲染、模拟、规划本质上是对同一个物理世界的不同功能投影。一个真正理解世界的模型应该同时具备生成照片级画面渲染预测物理合规的状态转移模拟为智能体规划最优动作规划李飞飞将这一终极目标称为统一世界基础模型Unified World Foundation Model。4.2 当前的关键障碍数据不均衡 核心瓶颈 \text{数据不均衡} \text{核心瓶颈}数据不均衡核心瓶颈功能类别数据来源数据量级获取难度渲染器互联网视频/图像PB 级低爬取即可模拟器3D 扫描 物理标注TB 级高需专业设备 标注规划器机器人遥操作/实操数据GB 级极高需实体机器人 人工操作数据量差距达 3-4 个数量级。这意味着纯数据驱动的统一模型在短期内不可行需要结合物理先验如牛顿力学、刚体碰撞来弥补模拟器和规划器的数据不足。4.3 视觉逼真 vs 物理精确当前最大矛盾优化视觉逼真度的损失函数像素级重建误差、感知损失与优化物理精确度的损失函数状态预测误差、碰撞检测精度之间存在根本张力渲染器为了画面好看可能伪造不存在的反射、阴影模拟器为了物理准确可能输出视觉上粗糙的结果World Labs 的 Marble 产品正是为打通渲染模拟边界而设计– 从多模态输入生成可物理碰撞的 3D 场景试图同时优化视觉质量和物理合规性。图 2世界模型三类功能的融合路径与数据瓶颈 – 渲染器、模拟器、规划器从独立系统走向统一世界基础模型。重点关注三类数据的量级差异PB vs TB vs GB。重绘自 design skill五、产业格局与行业影响5.1 各赛道玩家赛道主要玩家市场规模预估渲染器OpenAI (Sora), Google (Veo), World Labs (RTFM)百亿级影视/游戏/广告模拟器NVIDIA (Omniverse), World Labs (Marble), Unity万亿级数字孪生/工业仿真规划器Google (RT-2), 多家机器人创业公司远期最大但当前最不成熟5.2 战略意义语言模型让机器学会了描述世界而成熟的世界模型将让机器看懂物理世界并自主交互。这是空间智能Spatial Intelligence和通用具身 AI 的底层基石将重塑机器人从预编程到自主学习物理交互自动驾驶从规则引擎到物理世界模型驱动工业仿真从手工物理引擎到学习型数字孪生游戏/XR从静态资产到动态可交互世界生成小结李飞飞这篇文章的核心贡献概念澄清– 用 POMDP 循环这一经典框架将混乱的世界模型概念锚定到明确的功能定义上。渲染器、模拟器、规划器不是竞争关系而是同一循环中的不同功能组件。这一分类为后续研究提供了清晰的坐标系。揭示数据不均衡– 渲染器有 PB 级互联网视频模拟器只有 TB 级 3D 数据规划器更少。这解释了为什么文生视频发展最快数据最多、而具身智能最慢数据最少也指明了下一步的投入方向。预判融合趋势– 三类模型终将走向统一但路径不是一个大模型搞定一切而是先各自成熟、再通过共享表征和联合训练逐步融合。World Labs 的 Marble 就是这条路径的早期探索。个人判断这篇文章的价值不在于提出新算法而在于提供了一个产业级的认知框架。在 AI 概念炒作最严重的 2026 年用一张 POMDP 循环图把所有世界模型产品各归其位是典型的李飞飞风格 – 用最经典的理论工具解决最前沿的概念混乱。对于 VIO/SLAM 从业者模拟器赛道与我们的工作最相关高精度 3D 重建和物理仿真正是视觉 SLAM 技术的下游应用场景。