从 AI Agent 到具身智能:当智能开始拥有“身体”

发布时间:2026/6/30 6:59:17

从 AI Agent 到具身智能:当智能开始拥有“身体” 目录一、为什么现在要聊具身智能二、具身智能是什么三、具身智能和普通大模型有什么区别四、具身智能和 AI Agent 有什么关系五、为什么“身体”很重要六、具身智能的核心循环七、感知先看见真实世界八、理解知道物体、空间和任务九、规划把目标拆成动作步骤十、行动从语言输出到物理动作十一、反馈通过环境结果修正自己十二、多模态模型为什么推动具身智能十三、VLA 模型Vision-Language-Action十四、世界模型让机器人先在脑中模拟十五、仿真环境和合成数据的作用十六、复杂例子机器人整理桌面十七、简单例子扫地机器人避开障碍物十八、具身智能的典型应用场景十九、具身智能的难点二十、具身智能和 Agent Native 的关系二十一、未来趋势数字 Agent 和物理 Agent 会融合二十二、总结参考资料前面我们聊过很多 AI Agent 相关概念Agent LoopAgent 如何循环做事 Dynamic WorkflowsAgent 如何选择正确流程 Agent Eval如何评估 Agent 是否可靠 Agent Native软件如何为 Agent 重新设计这些内容大多发生在数字世界里。比如读文件 写代码 调用工具 操作网页 生成报告 查询数据库 管理任务但还有一个更大的方向正在变热具身智能Embodied AI。如果说 AI Agent 是数字世界里的行动者那么具身智能就是物理世界里的行动者。它关心的问题不是AI 能不能回答问题而是AI 能不能在真实世界中感知、理解、行动并根据反馈完成任务比如机器人能不能整理桌面 自动驾驶系统能不能理解道路 机械臂能不能抓起杯子 家用机器人能不能帮人收拾房间 工厂机器人能不能根据环境变化调整动作这些都属于具身智能的范围。一、为什么现在要聊具身智能具身智能不是一个新词。机器人、自动驾驶、强化学习、控制系统其实都已经发展很多年了。但最近它重新变得重要原因是大模型和多模态模型开始进入物理世界。过去的 AI 更像是看文字 生成文字 看图片 生成图片 理解视频 回答问题而现在的前沿方向开始变成看见世界 理解空间 规划动作 控制身体 完成任务这就是从“语言智能”走向“行动智能”。最近几年出现了几个关键变化1. 多模态大模型能同时理解文字、图像、视频和音频 2. 机器人基础模型开始把视觉、语言和动作连在一起 3. 世界模型开始用于预测物理环境变化 4. 仿真环境可以生成大量机器人训练数据 5. 人形机器人、自动驾驶和工业机器人需求持续上升Google DeepMind 推出了 Gemini Robotics用 Gemini 的多模态能力连接机器人感知、推理和动作。NVIDIA 推出 Cosmos、Isaac GR00T 等 physical AI 相关模型和平台强调用世界模型、仿真和机器人基础模型推动真实世界智能。学术界也在持续讨论 embodied world models、robot foundation models 和 vision-language-action models。所以具身智能正在成为 AI 的下一条主线之一。一句话如果前几年的 AI 重点是“理解和生成内容”那么具身智能关注的是“理解世界并在世界中行动”。二、具身智能是什么具身智能英文是 Embodied AI。可以这样理解具身智能是指智能体拥有某种“身体”或行动载体能够通过传感器感知环境通过动作影响环境并在感知和行动的闭环中完成任务。这里的“身体”不一定是人形机器人。它可以是机械臂 移动机器人 无人车 无人机 扫地机器人 自动驾驶汽车 智能家居设备 工业设备 虚拟仿真环境中的机器人重点不在于外形像不像人而在于它是否具备感知环境 理解目标 规划动作 执行动作 接收反馈 适应变化例如一个聊天机器人没有具身智能因为它只能输出文字。但一个能看见桌面、移动手臂、抓起杯子、放到指定位置的机器人就具备某种具身智能。可以简单对比普通 AI在信息空间里回答问题 具身智能在物理空间里完成任务三、具身智能和普通大模型有什么区别普通大模型主要处理符号和信息。比如文字 代码 图片 音频 视频 文档 网页它的输出通常是一段文字 一段代码 一张图片 一个分析结果 一个工具调用而具身智能面对的是物理世界。它需要处理空间位置 物体形状 距离 重量 摩擦 遮挡 碰撞 速度 力 时间 安全边界这就复杂很多。普通大模型说把杯子放到桌子上。这很简单。但机器人真正执行时需要知道杯子在哪里 桌子在哪里 杯子能不能抓 抓哪里不会滑 手臂路径会不会碰到其他东西 杯子里有没有水 放下时力度多大 如果杯子倾斜了怎么办这就是具身智能的难点。语言世界里错误可能只是一句话不准确。物理世界里错误可能导致东西摔坏、机器损坏甚至伤害人。所以具身智能不仅需要“聪明”还需要“稳”。四、具身智能和 AI Agent 有什么关系AI Agent 通常指能自主完成任务的智能体。它可能在数字世界里行动读文件 调 API 写代码 操作浏览器 生成表格 运行测试具身智能则是物理世界里的 Agent。它的工具不是只有 API而是摄像头 麦克风 机械臂 轮子 夹爪 传感器 电机 控制器 导航系统可以这样理解数字 Agent在软件环境里行动 具身 Agent在物理环境里行动它们都有类似的循环目标 - 感知 - 计划 - 行动 - 观察反馈 - 修正 - 完成只是环境不同。数字 Agent 的反馈可能是测试是否通过 网页是否加载 API 是否返回成功 文件是否修改具身 Agent 的反馈可能是杯子是否抓住 机器人是否撞到障碍物 门是否打开 物体是否移动到目标位置 人是否进入危险区域所以具身智能可以看作 AI Agent 的物理世界版本。五、为什么“身体”很重要具身智能最特别的地方是“身体”。为什么身体重要因为很多智能不是只靠思考产生的而是在和环境互动中形成的。比如人类学习倒水。你不能只靠读一本说明书就完全掌握。你需要拿起水壶 感受重量 调整倾斜角度 观察水流 发现倒太快会溅出来 下次改小角度这是一种通过身体和环境互动获得的智能。机器人也是一样。它不能只知道杯子是圆柱体 桌子是平面 水会流动它还需要知道这个杯子怎么抓 这个桌面会不会滑 这个动作会不会碰撞 这个力度够不够 这个路径安不安全这些知识往往来自行动反馈。这也是具身智能的核心思想智能不只是大脑里的推理也来自身体和环境之间的互动。六、具身智能的核心循环具身智能也可以看成一种 Loop。它的基本循环是感知 - 理解 - 规划 - 行动 - 反馈 - 修正或者更完整一点目标 Goal - 感知 Perception - 理解 Understanding - 规划 Planning - 控制 Control - 行动 Action - 反馈 Feedback - 更新状态 Update - 继续或停止这和 Agent Loop 很像。区别是Agent Loop 面向工具和软件环境 具身智能 Loop 面向传感器和物理环境例如机器人整理桌面目标把桌面整理干净 感知摄像头看到杯子、书、本子、垃圾 理解杯子应该放杯架书应该放书架垃圾应该扔掉 规划先移动易碎物再处理垃圾 行动机械臂抓取物体 反馈确认物体是否被成功移动 修正如果没抓稳重新调整抓取姿态 完成桌面达到目标状态这就是具身智能的闭环。七、感知先看见真实世界具身智能的第一步是感知。它要通过传感器获得环境信息。常见传感器包括摄像头 深度相机 激光雷达 麦克风 触觉传感器 力传感器 IMU GPS 编码器 温度传感器不同场景需要不同感知方式。自动驾驶需要摄像头 雷达 激光雷达 高精地图 车辆状态传感器机械臂抓取需要摄像头 深度信息 夹爪状态 力反馈 物体姿态估计家用机器人需要视觉 语音 空间地图 障碍物检测 人类位置感知感知不是简单“拍一张照片”。机器人需要从感知中提取可行动的信息物体在哪里 障碍物在哪里 人在哪里 可行路径在哪里 目标是否已经完成这就是具身智能和普通图像识别的区别。普通图像识别可能只需要回答图中有什么具身智能还要回答我能不能过去 我能不能抓 我该怎么抓 我动作后会发生什么八、理解知道物体、空间和任务感知之后机器人要理解环境。理解包括几个层次。1. 物体理解机器人需要知道这是杯子 这是书 这是刀 这是垃圾 这是按钮 这是门把手还要知道物体属性易碎 锋利 柔软 可抓取 可推动 可打开 可堆叠比如杯子和纸巾都能被拿起但抓取方式不同。2. 空间理解机器人需要理解空间关系杯子在桌子上 书在电脑旁边 垃圾桶在椅子右侧 门在走廊尽头 人站在机器人前方空间理解对行动非常重要。因为机器人要知道自己在哪里、目标在哪里、路径怎么走。3. 任务理解机器人还要理解用户意图。用户说把桌子收拾一下。这不是一个精确命令。机器人要推断哪些东西算乱 哪些东西应该保留 哪些东西应该丢掉 哪些东西需要询问用户这就需要常识和上下文。例如空饮料瓶可能是垃圾 打开的笔记本电脑不能随便合上 水杯不能倒置 文件不能随便扔掉具身智能需要的不只是识别能力还需要场景理解。九、规划把目标拆成动作步骤理解环境后机器人要规划。规划就是把目标拆成可执行步骤。比如目标是把桌面整理干净。机器人可能规划1. 识别桌面上的物体 2. 区分可移动物体和不可移动物体 3. 先处理易碎物体 4. 把杯子放到杯垫上 5. 把书叠放整齐 6. 把垃圾放入垃圾桶 7. 检查桌面是否干净这里有一个关键点规划必须考虑物理约束。比如不能从桌子中间穿过去 不能让机械臂碰到显示器 不能把水杯倒过来 不能把重物放在易碎物上面 不能在人靠近时高速运动数字 Agent 规划时更多考虑工具和信息。具身智能规划时还要考虑空间、力学和安全。十、行动从语言输出到物理动作对普通 AI 来说输出一段文字就完成了。对具身智能来说输出不是文字而是动作。比如移动 30 厘米 旋转 15 度 打开夹爪 下降机械臂 施加一定力度 沿路径导航 避开障碍物这就涉及控制系统。高层模型可能决定抓起杯子。但底层控制需要把它变成具体动作移动机械臂到杯子上方 调整夹爪角度 下降 闭合夹爪 检测是否抓住 抬起 移动到目标位置 放下 松开夹爪这也是为什么具身智能通常不是单个模型能完成全部事情。它往往需要多层系统高层推理模型理解任务和规划 视觉模型识别环境 动作模型生成操作策略 控制器执行底层动作 安全模块监控风险这更像一个完整系统而不是一个聊天模型。十一、反馈通过环境结果修正自己具身智能必须依赖反馈。因为物理世界充满不确定性。比如机器人想抓杯子预测杯子在这里 实际杯子偏了一点 夹爪没有抓稳 杯子滑了一下 桌面有水导致摩擦变化这时机器人不能只按原计划执行。它要根据反馈修正。反馈可能来自视觉杯子是否移动 触觉有没有抓住 力传感器力度是否异常 位置传感器机械臂是否到位 任务状态目标是否完成这就是闭环控制。没有反馈的机器人很脆弱。它只能在理想环境中工作。有反馈的机器人才能适应真实世界。十二、多模态模型为什么推动具身智能过去机器人系统通常比较分散视觉识别一个模型 语言理解一个模型 路径规划一个模块 动作控制一个模块 任务决策一个模块这些模块之间连接复杂而且泛化能力有限。多模态模型出现后事情开始变化。多模态模型可以同时处理文字 图片 视频 音频 空间关系 动作信息这让机器人更容易理解人类指令和真实场景。比如用户说把那个红色杯子放到水槽旁边。机器人需要同时理解语言“红色杯子”“水槽旁边” 视觉哪个是红色杯子 空间水槽在哪里旁边是哪里 动作怎么拿起杯子并放过去这正是多模态模型擅长连接的内容。Google DeepMind 的 Gemini Robotics 就强调将视觉、语言和动作结合让机器人能够理解物理世界并执行任务。Gemini Robotics-ER 则更强调 embodied reasoning也就是面向物理世界的推理能力。所以多模态模型是具身智能近期进展的重要基础。十三、VLA 模型Vision-Language-Action具身智能里一个很重要的方向叫 VLA。VLA 是Vision-Language-Action 视觉-语言-动作它想解决的问题是如何让模型从“看见环境 理解语言”直接生成可执行动作传统模型可能是图像 - 文字描述 文字指令 - 文本回答VLA 模型希望变成图像 指令 - 动作例如输入摄像头画面桌上有杯子和盘子 语言指令把杯子放到盘子右边输出机械臂动作序列VLA 的价值在于它把感知、语言和行动连接起来。这对通用机器人非常重要。因为真实世界任务通常不是写死的。用户不会说机械臂移动到坐标 x0.42, y0.18, z0.10用户会说把杯子放到那边。机器人需要把自然语言转成动作。这就是 VLA 的核心。十四、世界模型让机器人先在脑中模拟另一个前沿方向是世界模型。世界模型可以理解成模型对环境如何变化的内部预测。人类做事时经常会在脑中模拟。比如你准备推一个杯子会大概知道推轻了杯子不会动 推重了杯子可能倒 桌面滑杯子会滑更远 杯子边缘受力可能旋转这就是一种世界模型。机器人也需要类似能力。世界模型可以帮助机器人预测如果我这么抓物体会不会滑 如果我走这条路会不会撞到障碍物 如果我把箱子放这里会不会挡住门 如果我推这个物体它会移动到哪里NVIDIA Cosmos 这类 world foundation models就是为了帮助开发者构建能理解、模拟和作用于真实世界的 physical AI 系统。学术界也在讨论 world models for robot learning关注如何让机器人通过预测未来状态来更好地学习和规划。简单说没有世界模型机器人只能试错 有世界模型机器人可以先预测再行动这对安全和效率都很重要。十五、仿真环境和合成数据的作用具身智能有一个很大的难点真实世界训练成本太高。让机器人在真实世界里学习会遇到很多问题数据采集慢 设备昂贵 实验容易损坏物体 危险动作不能随便试 长尾场景很难收集 环境变化太多所以仿真环境非常重要。在仿真里机器人可以大量练习导航 抓取 避障 装配 开门 搬运 自动驾驶 人机协作仿真环境的优点是成本低 速度快 可重复 可生成大量场景 可以安全测试危险情况但仿真也有问题仿真和现实不完全一样 物理参数可能不准 视觉效果可能不同 真实世界噪声更多这叫 sim-to-real gap也就是仿真到现实的差距。因此具身智能需要同时利用真实数据 仿真数据 合成数据 人类示范 强化学习 自监督学习NVIDIA 的 physical AI 平台和世界模型方向就非常强调仿真、合成数据和机器人策略评估。十六、复杂例子机器人整理桌面我们用一个复杂例子来理解具身智能。任务请把我的桌面整理一下。这句话对人来说很自然但对机器人来说非常复杂。第一步感知环境机器人用摄像头和深度传感器观察桌面。它看到一个杯子 两本书 一支笔 一张纸 一个空饮料瓶 一台笔记本电脑 一团纸巾第二步理解物体机器人需要判断杯子易碎可能有水不能倒置 书可以叠放 笔可以放入笔筒 纸需要判断是不是重要文件 空饮料瓶可能是垃圾 笔记本电脑不能随便移动 纸巾可能是垃圾这需要常识。如果机器人把重要文件当垃圾扔掉就很糟糕。第三步询问不确定项机器人可能无法判断某张纸是否重要。好的具身智能系统应该问这张写着会议记录的纸要保留还是丢掉这说明具身智能不是全自动乱做而是知道什么时候需要人类确认。第四步规划顺序机器人规划1. 不移动笔记本电脑 2. 先把杯子移到杯垫上 3. 把书叠放到桌角 4. 把笔放入笔筒 5. 把明确垃圾放入垃圾桶 6. 对不确定文件询问用户 7. 最后检查桌面状态这里顺序很重要。比如先处理杯子可以减少洒水风险。第五步执行动作机器人开始行动移动机械臂到杯子上方 调整夹爪 轻轻夹住杯子 抬起 移动到杯垫位置 放下 松开执行中它要实时监控有没有抓稳 杯子有没有倾斜 路径有没有障碍物 人手是否突然伸过来第六步根据反馈修正如果机器人发现杯子滑动它要调整力度。如果发现书太重它要改变抓取方式。如果发现垃圾桶位置被椅子挡住它要重新规划路径。这就是具身智能的反馈闭环。第七步完成并汇报最后机器人说桌面已整理完成。 我移动了杯子、书和笔丢弃了空饮料瓶和纸巾。 笔记本电脑没有移动。 那张会议记录纸我保留在桌面右上角等待你确认。这就是一个完整的具身智能任务。它涉及视觉感知 物体识别 常识推理 任务规划 机械控制 安全监控 人类确认 结果反馈十七、简单例子扫地机器人避开障碍物再看一个简单例子。扫地机器人看到前方有椅子腿。它需要做1. 感知障碍物 2. 判断不能直接撞上去 3. 规划绕行路线 4. 调整方向 5. 继续清扫这个任务看起来很简单但也包含具身智能的核心循环感知 - 判断 - 行动 - 反馈 - 修正如果它撞到了椅子也会得到反馈碰撞传感器触发然后它后退、转向、重新规划。这就是最朴素的具身智能。复杂机器人和扫地机器人之间区别只是能力规模不同。本质循环是类似的。十八、具身智能的典型应用场景具身智能的应用非常广。1. 家用机器人比如整理房间 拿取物品 陪伴老人 辅助做饭 清洁卫生 家庭安防难点是家庭环境非常复杂。每个家庭布局不同物品不同人的习惯也不同。2. 工业机器人比如装配 搬运 质检 焊接 分拣 包装 维修工业场景相对可控因此更容易落地。但如果要让机器人适应多品类、小批量、动态生产线就需要更强具身智能。3. 自动驾驶自动驾驶也是具身智能的一种。车辆需要感知道路 理解交通规则 预测行人和车辆 规划路径 控制方向和速度 处理突发情况它是非常典型的感知-规划-控制系统。4. 医疗和康复机器人比如手术辅助 康复训练 护理机器人 药品配送 病房巡检这类场景对安全要求极高。5. 仓储物流比如自动分拣 货架搬运 包裹抓取 路径规划 库存盘点仓储物流已经是机器人落地较多的领域。6. 危险环境作业比如矿山 核电站 深海 火灾现场 灾后救援 化工厂这些地方适合让机器人替代人类执行危险任务。十九、具身智能的难点具身智能很有前景但也非常难。1. 真实世界太复杂真实世界不是干净的数据集。它有光照变化 遮挡 噪声 反光 摩擦变化 物体形变 人类突然介入 未知物体 意外情况机器人必须适应这些变化。2. 数据采集成本高训练语言模型可以用大量互联网文本。但训练机器人需要动作数据。动作数据很贵。因为它通常需要真实机器人 真实环境 人类示范 传感器记录 安全控制 反复实验这比文本数据难得多。3. 安全要求高数字 Agent 出错可能是生成错误答案。具身智能出错可能会撞坏东西 夹伤人 摔碎物品 导致车辆事故 损坏设备所以安全是具身智能的核心问题。4. 泛化能力不足机器人在实验室学会一个任务不代表在真实家庭也能做好。比如它学会抓一种杯子但遇到透明杯子 带把手杯子 湿滑杯子 装满水的杯子 形状奇怪的杯子可能表现就会变差。5. 实时性要求高具身智能需要快速反应。比如自动驾驶不能慢慢思考几分钟。机器人也不能在抓取过程中长时间停顿。所以具身智能需要在模型能力和实时控制之间平衡。6. 评测很难如何判断一个机器人“真的可靠”不能只看一次演示视频。需要评测成功率 失败类型 安全性 泛化能力 长时间稳定性 不同环境表现 人机协作体验这比评测文本模型复杂得多。二十、具身智能和 Agent Native 的关系前面我们讲过 Agent Native软件系统如何为 Agent 提供可行动环境具身智能可以看作物理世界中的 Agent Native 问题在数字世界里Agent 需要Action Model 权限系统 上下文 Trace Eval 回滚机制在物理世界里具身 Agent 也需要类似东西可执行动作集合 安全边界 环境状态 操作轨迹 结果验证 紧急停止 人工接管比如家用机器人应该知道可以拿杯子 可以扫地 可以开灯 不能随便打开抽屉 不能移动贵重物品 不能靠近小孩高速运动 不确定时要问人这其实就是物理世界里的权限和治理。所以 Agent Native 和具身智能不是两条完全分开的线。它们会逐渐融合。二十一、未来趋势数字 Agent 和物理 Agent 会融合未来的 Agent 可能不只存在于屏幕里。它可能同时连接软件系统 机器人 传感器 智能家居 车辆 工业设备 AR 眼镜 可穿戴设备比如你对一个家庭 Agent 说我晚上 7 点有朋友来帮我准备一下。它可能会查看日历 调整智能灯光 让扫地机器人清扫客厅 检查冰箱库存 生成购物清单 提醒你提前准备饮料 控制空调温度这里既有数字任务也有物理任务。再比如工厂 Agent检查今天产线是否有异常。它可能会读取生产数据 查看传感器日志 调度巡检机器人 分析摄像头画面 生成异常报告 提醒工程师处理这就是数字 Agent 和具身智能的融合。未来的 AI 不只是坐在聊天框里回答问题。它会越来越多地进入真实工作流和真实环境。二十二、总结具身智能是 AI 从信息世界走向物理世界的重要方向。它关注的不只是模型会不会说话而是智能体能不能感知环境 理解空间 规划动作 执行任务 接收反馈 修正行为 安全完成目标如果说大语言模型解决的是“理解和生成语言” AI Agent 解决的是“在数字世界执行任务” 具身智能解决的是“在物理世界执行任务”那么具身智能就是 AI 走向现实世界的一步。它的核心循环是感知 - 理解 - 规划 - 行动 - 反馈 - 修正它背后的关键技术包括多模态模型 VLA 模型 世界模型 机器人基础模型 仿真环境 合成数据 强化学习 安全控制 人机协作但它也面临很多挑战真实世界复杂 数据昂贵 安全要求高 泛化困难 实时性强 评测困难我认为理解具身智能最简单的一句话是AI Agent 是数字世界里的行动者具身智能是物理世界里的行动者。未来真正重要的 AI 系统可能既能操作软件也能理解现实环境既能调用 API也能控制机器人既能生成计划也能在真实世界中执行计划。当 AI 开始拥有“身体”智能就不再只是屏幕里的回答而会变成现实世界中的行动。参考资料Google DeepMindGemini Roboticshttps://deepmind.google/models/gemini-robotics/Google DeepMindGemini Robotics 1.5 brings AI agents into the physical worldhttps://deepmind.google/blog/gemini-robotics-15-brings-ai-agents-into-the-physical-world/Google DeepMindGemini Robotics-ER 1.6https://deepmind.google/blog/gemini-robotics-er-1-6/Google AI for DevelopersGemini Robotics-ER 1.6 API 文档https://ai.google.dev/gemini-api/docs/robotics-overviewNVIDIA CosmosPhysical AI with World Foundation Modelshttps://www.nvidia.com/en-us/ai/cosmos/NVIDIAPhysical AI Models and Robotics Platformshttps://investor.nvidia.com/news/press-release-details/2026/NVIDIA-Releases-New-Physical-AI-Models-as-Global-Partners-Unveil-Next-Generation-Robots/default.aspxNVIDIA BlogVirtual Worlds Powering the Physical AI Erahttps://blogs.nvidia.com/blog/gtc-2026-virtual-worlds-physical-ai/arXivGemini Robotics: Bringing AI to the Physical Worldhttps://arxiv.org/html/2503.20020v1arXivWorld Model for Robot Learning: A Comprehensive Surveyhttps://arxiv.org/html/2605.00080v1Stanford HAIRobotics in a Human-Centered Worldhttps://hai.stanford.edu/news/stanford-hai-conference-explores-robotics-in-a-human-centered-world-hype-hope-and-future-directionsCVPR 2025 WorkshopFoundation Models Meet Embodied Agentshttps://foundation-models-meet-embodied-agents.github.io/cvpr2025/

相关新闻