
TL;DR谷歌 DeepMind 的 Genie 3 是一个世界模型world model它能根据一句文字描述实时生成一个你可以走进去、四处探索的虚拟世界。它不是在播放预先录好的视频而是在你每按一次方向键时现编出接下来的画面。这件事之所以重要是因为它把 AI 从会聊天、会画图推向了会想象一个连贯的世界。先打个比方从画一张画到造一个梦我们已经习惯了让 AI 画图你说一只戴帽子的猫它给你一张静止的图。但图片是死的你没法走进去看看猫的背面。世界模型要做的事更像“造梦”。想象你闭上眼睛幻想自己在一片森林里当你“决定”往左走脑海里的树木会自然地向右移动、远处的小溪会慢慢靠近——你的大脑在实时地、连贯地补全这个并不存在的世界。Genie 3 做的就是类似的事你给它一句话当种子它替你把这个“梦”渲染成可以操作的画面。DeepMind 在 2025 年 8 月公布的 Genie 3能以 720p 分辨率、每秒 24 帧的速度生成可交互环境并且能在几分钟的时间尺度内保持画面的一致性——也就是说你转一圈再回头刚才看到的房子还在原地。相比上一代 Genie 2 只能维持十几二十秒这是一次明显的跨越。它和普通的 AI 视频有什么不同这是最容易混淆的地方。一个普通的视频生成模型像在拍电影剧本一旦定了画面就按既定顺序播放你无法插嘴。世界模型则像游戏引擎 即兴演员。它每一帧都在问自己:根据玩家刚才的动作以及之前发生过的一切下一刻最合理的画面是什么?于是它具备了两个关键能力第一是可交互。你的键盘、鼠标输入会真实改变世界的走向而不是被忽略。第二是 DeepMind 所说的**“可提示的世界事件”promptable world events**。在体验过程中你可以随时再丢一句话进去比如现在开始下雨或前方出现一头鹿世界就会顺着你的话发生变化。这等于把导演权实时交还给了使用者。为什么研究者很兴奋世界模型最被看好的用途是给其他 AI 当“练兵场”。训练一个能在现实里行动的智能体embodied agent比如机器人或自动驾驶系统最大的瓶颈之一是真实世界的试错成本太高——撞坏一次设备可能就是几万块。如果能让智能体在一个可以无限生成、随时重置、还足够逼真的虚拟世界里反复练习成本和风险都会大幅下降。Genie 3 这类模型正是在朝着可规模化的训练沙盒这个方向走。另一个深层意义在于要生成一个前后一致的世界模型必须在内部理解一些朴素的物理与因果——东西不会凭空消失水会往低处流物体被挡住后再露出来应该还是原样。这种隐含的世界知识被很多研究者视为通往更通用智能的重要一环。也别神化它Genie 3 目前仍是研究预览存在明显边界能保持一致的时间还以“分钟”计而非“小时”复杂的长程逻辑、精确的文字渲染、多智能体互动等都还不成熟。它展示的是一个激动人心的方向而不是一个可以立刻替代游戏引擎的成品。对入门读者来说记住一句话就够了生成式 AI 正在从生成内容走向生成可以交互的世界而世界模型就是这条路上的关键一步。对入门读者来说记住一句话就够了生成式 AI 正在从“生成内容”走向“生成可以交互的世界”而世界模型就是这条路上的关键一步。