“世界模型”泛滥，李飞飞说先分清三种再谈，渲染仿真规划三条路正在合一-尧图网站设计

人人都说自己的是“世界模型”AI教母李飞飞重新给出了定义。世界模型几乎成了AI领域最热闹也最混乱的一个词。做视频生成的说自己是世界模型搞机器人的说自己在建世界模型研究强化学习的更早就把这个词用了几十年大家各说各话谁也说服不了谁。李飞飞最近发了一篇长文终于把这锅粥搅清楚了她从功能出发把世界模型拆成了三种Renderer渲染器、Simulator仿真器、Planner规划器三个角色各管一摊又共享同一套对世界的理解。这篇文章就来把李飞飞的这套分类学讲明白。世界模型的循环底座搞清楚世界模型之前得先回到一个比任何AI技术都古老的图。强化学习的教科书里几十年前就画过同一张图。一个 Agent智能体在某个世界里行动行动改变了世界的 State状态Agent 没法直接看到 State只能收到 Observation观测新的 Observation 又催生新的行动循环往复。这个框架的正式名字叫部分可观测马尔可夫决策过程POMDP。先说清楚这里的 State。它跟化学家说的固液气不是一回事是物理学家和机器人学家说的那种状态某一时刻世界中正在发生的一切每个物体的位置、速度、属性统统包揽。State 是世界的底层真实原则上完整但身处其中的 Agent 永远看不到全貌。Observation 只是 Agent 对真实的一瞥行动是 Agent 做出的回应。这个循环从 Agent 到行动到 State到 Observation再回到 Agent正是世界模型这个现代术语的技术根基。词本身更老可以追溯到 Kenneth Craik 1943年的提议大脑通过运行现实的小尺度模型来推理。到了1980年代末和1990年代初这个概念被引入神经网络研究。这个循环也解释了今天人们嘴里的世界模型到底在说什么各种被叫作世界模型的东西其实是同一条循环链上的不同投影各自输出不同的片段。语言模型让机器掌握了概念、词汇和推理能力可物理世界不管是虚拟的还是真实的运行在另一套基底上。语言模型学的是文本的统计结构世界模型学的是空间和时间的统计结构光如何落在表面上一个花园从没被相机拍过的角度长什么样物体受力后如何响应并遵循物理定律。正因为如此世界模型成了AI领域最重要的术语之一同时也是最被滥用的。计算机视觉、机器人学、强化学习、生成式AI各自声称在建世界模型各自的意思却大相径庭。一个能生成绚丽画面但物理上不可能的视频模型一个能即兴生成可玩游戏的语言模型一个忠实模拟燃烧过程的物理引擎都顶着同一个名字。古希腊人从来没就世界由什么构成达成共识火、水还是不可分原子因为世界从来不是一个单一的东西它一直是某个思想家需要推理的那个总体的代名词。AI继承了同样的问题而且恰恰出现在最需要精确性的时刻。三种世界模型三种输出李飞飞把世界模型分成了三种功能类型分类依据很简单每种模型输出的东西不一样。Renderer 输出 Observation具体来说就是给人眼看的像素最重要的品质是视觉保真度。一个把文字提示变成电影级航拍镜头的视频模型就是 Renderer。Google 的 Genie 3、World Labs 自己的 RTFM 也是模型根据用户输入实时生成画面。这类模型没有对三维结构的显式理解它产出的是观看者会看到的东西而不是世界本来的样子。航拍镜头里那些建筑从上方看完美无瑕试着钻进城市街道穿行它们就塌了。Simulator 输出 State一种在几何、物理和动力学上忠实的世界表示人和计算机程序都能在上面做计算、做交互。Renderer 的契约纯粹是视觉层面的Simulator 的契约是结构层面的它要求经得起检验的几何、遵循牛顿定律的物理、符合物理规律的行为动力学。Simulator 同时服务两类消费者。人类专业人士建筑师、设计师、电影人、游戏开发者需要超越视觉可信度的精确性。计算机程序强化学习 Agent、机器人控制器、自动驾驶系统把 Simulator 当作训练场在里面大规模地与世界交互测试那些在现实中危险、昂贵或根本不可能运行的场景。Planner 输出行动。给定一个 Observation 和一个目标Planner 回答 Agent 下一步该干什么。从某种角度看这恰好是 Renderer 的逆操作Renderer 以行动为输入、产出 ObservationPlanner 以 Observation 为输入、产出行动闭合了感知行动的循环。Vision-Language-Action视觉语言行动模型、基于模型的系统、新一波世界行动模型都是 Planner 的尝试决定机器人在非结构化世界中该做什么的系统。这三个类别基本覆盖了目前真正在出货的东西它们之间的区分在实践中很有用。不过它们并非根本性的割裂。同一套对世界的底层理解几何、物理、动力学托着三者。一个能从任何角度渲染杯子的模型原则上也应该能模拟杯子被推倒后会发生什么能规划一只手去抓杯子。越来越多有意思的研究正在刻意模糊三者的边界。仿真才是关键三个类别里Simulator 受到的公众关注最少却是最关键的那一个。李飞飞在文章中专门用了最大的篇幅来纠正这个失衡。Renderer 的商业化程度遥遥领先。一批文生视频和图生视频产品正在消费市场和企业市场快速扩张。Google 的 Nano Banana 模型把 Renderer 级别的图像生成送到了数亿用户手中技术是真的市场也是真的。可 Renderer 优化的是视觉可信度而非物理准确性这个天花板很要命。输出很美但没法拿来设计建筑也没法训练机器人。Planner 最有想象力也最稚嫩与机器人学习这个飞速演进的领域紧密相连。过去两年这个领域产出了不少看起来很酷的机器人演示视频但得坦诚面对这些演示到底展示了什么几乎全部局限于高度受限的实验室环境物体种类少任务时间短没有哪一个在真实部署所需的复杂性、可变性和持续时间上得到过验证。一段吸引人的演示视频和一个能在厨房、仓库、手术室里可靠工作的机器人之间差距仍然巨大。商业赌注倒是不小一批资金充裕的玩家在竞速交付通用规划系统最大的基础设施玩家则把规划层架在更广的仿真栈之上。能规划的机器人就是能干活的机器人整个行业都在抢着成为第一个跑通的那一家。Simulator 是两者之间的桥梁。语言是对世界的抽象像素是世界的投影几何、物理和动力学就是世界本身。Simulator 必须在这个层面运作结构性的脊梁视觉外观和行动后果都从这根脊梁上长出来。一个掌握了仿真的模型能把理解投射成像素给人看投射成行动预测给具身 Agent 用。只掌握渲染或者只掌握规划的模型做不到。商业面积也很可观NVIDIA 的 Omniverse 一个产品就瞄准了公司估计超过1万亿美元的可触达市场工厂、仓库、供应链、Digital Twin数字孪生。机器人训练、自动驾驶测试、建筑可视化、工程设计、药物发现全都依赖某种仿真形态的东西。最难的开放问题也在那。带显式几何、材质属性和物理标注的三维数据比 Renderer 训练用的互联网视频少了好几个数量级。Sim-to-Real Gap仿真到现实的差距仿真中的行为和真实行为的偏差一直存在。生成式 Simulator 还引入了新的风险AI 生成的几何体可能看起来正确内部却包含自相交或错误尺度导致物理计算荒腔走板。大规模多物理场仿真刚体、可变形物体、流体和布料同时交互比单域仿真贵了好几个数量级。World Labs 的 Marble 是团队进入这片领地的第一步。它接收多模态提示文本、图像、视频或空间草图生成可探索的3D环境输出 Gaussian Splat高斯泼溅供视觉探索同时输出碰撞网格供物理引擎操作。Marble 只是一个更长故事的第一章随着渲染、仿真和规划之间的界限开始瓦解整个领域都在书写这个故事的后续。边界正在消融更重要的趋势正在浮现三个类别正在互相融合。核心洞察在于渲染一个世界、仿真一个世界、在一个世界中行动所需的知识大体相同。一个真正理解杯子如何摆在桌面上的模型它的几何、材质属性、对力的响应应该能从任何角度渲染这个杯子能模拟杯子被推倒后的结果能规划一只手去抓起杯子。三个类别是同一种底层理解的三个投影。一些机器人实验室最近的工作已经证明至少在概念上预训练的视频 Renderer 可以当作联合世界预测和行动预测的骨干暗示了 Renderer 和 Planner 之间的桥梁让同一个模型既想象会发生什么又决定该做什么。World Labs 的 Marble 已经能从同一个模型同时输出 Gaussian Splat 和碰撞网格消融了 Renderer 和 Simulator 之间的边界。每一个层面都在从被动输出走向交互系统。Renderer 变成了受行动条件控制的Simulator 生成的世界更可控、更可编辑Planner 在审慎思考而不是单纯反应。逻辑上的终点是一个统一世界模型一个基础模型能渲染照片级真实视图能生成物理上准确的结构能规划行动序列根据下游消费者的需要在输出模态之间切换。前方仍有令人生畏的挑战。数据格局不均匀Renderer 泡在互联网视频里Simulator 和 Planner 却面临3D资产和机器人演示数据的严重短缺。优化视觉美感可能牺牲机器人或高保真仿真需要的精度。在单一架构内调和这些张力是当今世界模型研究的决定性开放问题World Labs 在持续迭代 Marble 的同时正试图解决它。方向是清晰的。从1980年代末开始这个领域就一直在下同一注一个足够丰富的世界模型就是任何 Agent 看见世界、建造世界、在世界中行动所需的一切。今天这一代人正在用同样的赌注驱动整个研究浪潮。让这注大赌有分量的是已经在发生的收敛三条线索每一条都已经在各自驱动和塑造数十亿美元的产业曾经各自为政的研究方向开始表现得像同一个东西。三者边界瓦解合流将重塑一个更大的东西机器智能与它所栖居的物理世界之间的关系空间智能的长弧。语言给了机器谈论世界的方式。世界模型将让机器最终理解世界、想象世界、推理世界、与世界交互。统一世界模型还远吗你觉得呢参考资料https://x.com/drfeifei/status/2062247238143996275https://drfeifei.substack.com/p/a-functional-taxonomy-of-world-models

“世界模型”泛滥，李飞飞说先分清三种再谈，渲染仿真规划三条路正在合一

相关新闻

Claude语义压缩层蒸发：黑箱化下的可控性重构

做国内期货量化 CTP 直接接入会遇到什么：常见坑与天勤路径

ImDisk虚拟磁盘驱动：Windows系统虚拟存储的终极解决方案

DeepSeek-R1-Zero常见问题解答：解决无限重复、语言混合等挑战的10个方法

如何在Windows上秒装安卓应用？APK-Installer终极指南

基于STM32F103的联网式宠物喂食器工程：支持WiFi远程控制、环境监测、精准定时与断电数据保存

videomae-large-finetuned-kinetics实战指南：如何处理16帧视频输入？

从光斑到3D模型：用MATLAB玩转高阶高斯光束的可视化（surf/view函数详解）

GD32VF103 RISC-V开发板评测：从硬件解析到开发环境搭建

MATLAB多用户MIMO下行预编码实现：块对角化干扰抑制方案

暗黑破坏神2终极优化指南：d2dx宽屏补丁让经典游戏焕发新生

深圳弱电箱生产厂家怎么选？采购前建议了解这几点

【英语学习笔记】基于“底层逻辑转换”与“去动词化”的英汉互译核心方法论及写作高分公式

终极视频下载解决方案：VideoDownloadHelper 完全指南

2026最新！AI论文写作工具测评：这几款知网都认可

Harness 中的响应合并：将多个片段组装为完整输出

Windows Cleaner终极教程：5分钟彻底解决C盘爆红问题，让系统重获新生！

别再只会用ifconfig了！在Ubuntu 22.04/20.04上，教你用ip命令并顺带配置好国内镜像源