具身智能研究现状与未来前景(六):大模型驱动的具身智能——VLA模型与具身基础模型的范式革新

发布时间:2026/6/4 8:14:20

具身智能研究现状与未来前景(六):大模型驱动的具身智能——VLA模型与具身基础模型的范式革新 目录6.1 大模型赋能具身智能的必然趋势6.2 LLM作为具身规划器6.2.1 SayCan与具身规划框架6.2.2 Code as Policies与程序化规划6.2.3 Inner Monologue与反馈驱动规划6.2.4 Voyager与自主探索规划6.3 视觉-语言-动作模型VLA6.3.1 VLA模型的定义与架构6.3.2 RT-1与RT-2机器人Transformer系列6.3.3 π0与OpenVLA开源VLA模型6.3.4 VLA模型的对比6.4 具身基础模型6.4.1 跨机器人通用策略6.4.2 Open X-Embodiment倡议6.5 大模型驱动的任务规划与推理6.5.1 任务与运动规划TAMP6.5.2 自反思与纠错6.5.3 多智能体协作规划6.6 大模型驱动的具身智能的挑战与展望6.6.1 当前挑战6.6.2 未来展望博主智算菩萨专注于人工智能、Python编程、音视频处理及UI窗体程序设计等方向。致力于以通俗易懂的方式拆解前沿技术从零基础入门到高阶实战陪伴开发者共同成长。目前已开设五大技术专栏累计发布多篇原创技术文章深受读者好评。 专栏导航人工智能前沿知识已更144篇深度剖析Transformer架构、生成式AI、强化学习、具身智能、神经符号系统、大模型及智能体Agent技术系统性解析AI核心技术体系与前沿趋势。Python基础小白编程已更232篇从零开始以保姆式教程讲解变量、数据类型、流程控制、函数等核心语法配有大量实战代码与避坑指南真正做到学以致用。机器学习与深度学习125篇系统化拆解线性模型、决策树、随机森林、梯度提升树、神经网络等算法原理与工程实践覆盖从公式推导到代码实现的全链路内容。音频、图像与视频处理理论与实战81篇涵盖FFmpeg多媒体处理、audio_shop开源工具、ComfyUI-WanVideoWrapper视频生成等实用技术从基础操作到高级应用一应俱全。UI窗体程序设计实战78篇深入讲解UI设计、动态窗体生成、游戏UI框架设计等实战技巧提供从配置到编码的完整解决方案。智算菩萨以代码为经以算法为纬在人工智能的星辰大海中做你前行路上最可靠的导航者。本人最常用的AI对话工具是AIGCBAR。6.1 大模型赋能具身智能的必然趋势大语言模型LLM和视觉语言模型VLM的突破性进展为具身智能带来了范式性的变革。传统具身智能系统通常针对特定任务设计专用模型缺乏跨任务泛化和开放世界理解能力。大模型的引入使具身智能体获得了三个关键能力语义理解能力——理解自然语言指令和场景描述将模糊的人类意图转化为可执行的行动计划常识推理能力——利用预训练中积累的世界知识进行物理推理和任务规划零样本泛化能力——对未见过的物体、场景和任务进行推理和行动。大模型驱动的具身智能Foundation Model-driven Embodied AI代表了从专用模型到通用模型的范式转换。这一转换的核心思想是利用在大规模互联网数据上预训练的基础模型作为具身智能的大脑结合机器人领域的微调和适配构建能够处理多种具身任务的通用智能体。这种范式有望解决具身智能长期面临的数据稀缺和泛化困难问题。从技术架构来看大模型驱动的具身智能可以分为三种模式LLM作为规划器LLM as Planner——LLM负责高层任务分解和规划底层控制由专用策略实现VLM作为感知器VLM as Perceiver——VLM提供开放世界的视觉理解为下游任务提供语义信息VLA作为端到端控制器VLA as Controller——视觉-语言-动作模型直接从视觉和语言输入预测机器人动作实现端到端的感知-决策-行动。6.2 LLM作为具身规划器6.2.1 SayCan与具身规划框架SayCanAhn等人2022是Google DeepMind提出的将LLM与机器人控制结合的开创性工作。SayCan的核心思想是LLM提供知道做什么的语义推理能力机器人技能库提供能做什么的物理执行能力两者结合实现语言指令驱动的机器人任务执行。SayCan的工作流程为给定自然语言指令如给我拿一杯可乐LLM生成可能的下一步行动候选如走到厨房、“打开冰箱”、“拿起可乐”对于每个候选行动计算LLM的评分Affordance表示语义合理性和技能库的评分Possibility表示物理可行性选择两个评分乘积最高的行动执行重复直到任务完成。形式化地SayCan选择第k kk步的行动为a k ∗ arg ⁡ max ⁡ a ∈ A P LLM ( a ∣ instruction , a 1 : k − 1 ) ⋅ P skill ( a ∣ s t ) a_k^* \arg\max_{a \in \mathcal{A}} P_{\text{LLM}}(a | \text{instruction}, a_{1:k-1}) \cdot P_{\text{skill}}(a | s_t)ak∗​arga∈Amax​PLLM​(a∣instruction,a1:k−1​)⋅Pskill​(a∣st​)其中P LLM P_{\text{LLM}}PLLM​为LLM给出的语义评分P skill P_{\text{skill}}Pskill​为技能策略给出的可行性评分。SayCan通过这种语义可行性的双重过滤确保LLM生成的计划在物理上可执行。6.2.2 Code as Policies与程序化规划Code as PoliciesLiang等人2023将LLM生成的Python代码作为机器人策略实现了更灵活和可组合的具身规划。与SayCan的离散技能选择不同Code as Policies允许LLM生成包含循环、条件判断和函数调用的完整程序支持更复杂的任务逻辑。Code as Policies的核心创新是为LLM提供了一组机器人API函数如move_to(pos)、grasp(obj)、place(obj, pos)LLM通过组合这些API编写机器人控制程序。这种方法的优势在于程序的可组合性——简单函数可以组合成复杂任务程序的可重用性——编写的函数可以在不同任务中复用程序的可解释性——生成的代码可以直接阅读和调试。6.2.3 Inner Monologue与反馈驱动规划Inner MonologueHuang等人2022引入了闭环反馈机制使LLM能够根据执行反馈动态调整计划。与开环规划不同Inner Monologue在每步执行后将感知反馈如抓取失败、“物体不在预期位置”作为额外输入提供给LLMLLM根据反馈重新规划下一步行动。Inner Monologue的反馈类型包括成功/失败反馈——技能执行是否成功场景描述反馈——当前场景的自然语言描述人类反馈——人类通过语言提供的纠正和补充。这些反馈构成了LLM的内心独白使其能够在执行过程中持续推理和调整。6.2.4 Voyager与自主探索规划VoyagerWang等人2023在Minecraft游戏中展示了LLM驱动的自主探索和技能获取能力。Voyager由三个核心组件构成自动课程——LLM根据当前状态和目标生成探索任务技能库——将学到的技能以代码形式存储和检索迭代提示——根据执行反馈迭代优化技能代码。Voyager的核心思想是LLM不仅作为规划器还作为技能的编写者和优化者。当遇到新任务时Voyager首先检索技能库中相关的已有技能然后让LLM修改或组合这些技能以适应新任务最后通过执行反馈迭代优化。这种规划-执行-反思-优化的闭环使Voyager能够持续积累技能在Minecraft中发现了前所未有的技术树。6.3 视觉-语言-动作模型VLA6.3.1 VLA模型的定义与架构视觉-语言-动作模型Vision-Language-Action Model, VLA是大模型驱动具身智能的最新范式将视觉理解、语言理解和动作预测统一在单一模型中。VLA直接从视觉观测和语言指令预测机器人动作实现端到端的感知-决策-行动无需显式的中间表示或模块化设计。VLA的架构通常基于Transformer输入为视觉token来自视觉编码器和语言token来自语言编码器或分词器输出为动作token通过动作解码器转化为机器人动作。VLA的训练数据包括互联网规模的视觉-语言数据——提供通用的视觉和语言理解能力机器人操作数据——提供视觉-语言到动作的映射能力。VLA模型的核心优势在于端到端优化——所有组件联合训练避免模块间的信息瓶颈跨任务泛化——利用预训练的视觉语言知识实现零样本或少样本的任务泛化语义理解——能够理解自然语言指令并据此行动可扩展性——可以通过增加模型规模和训练数据持续提升性能。6.3.2 RT-1与RT-2机器人Transformer系列RT-1Robotics Transformer 1Brohan等人2023是Google提出的首个大规模VLA模型在130,000个回合的真实机器人操作数据上训练。RT-1使用ViT编码视觉输入Transformer解码器预测离散化的动作token包括末端执行器的位置变化、旋转变化和抓取状态。RT-1在未见过的任务、物体和指令上展现了良好的泛化能力。RT-2Robotic Transformer 2Brohan等人2023是RT-1的升级版将VLA模型建立在更强大的视觉语言模型之上。RT-2使用PaLI-X和PaLM-E作为基础模型将机器人动作表示为语言token使模型能够同时处理视觉问答和机器人控制。RT-2的关键创新是将动作空间token化——将连续的动作值离散化为token与语言token共享词表在大规模网络数据上预训练——利用互联网视觉语言数据提供丰富的世界知识在机器人数据上微调——学习视觉-语言到动作的映射。RT-2在多个维度上展现了令人印象深刻的泛化能力理解训练中未见过的物体如理解拿起已灭绝的动物并拿起恐龙模型理解需要推理的指令如拿起可以当作锤子的物体并拿起石头理解多语言指令如用法语或中文给出指令。这些能力来源于大规模预训练中积累的世界知识是传统机器人学习方法无法实现的。6.3.3 π0与OpenVLA开源VLA模型π0Physical Intelligence2024是Physical Intelligence公司发布的VLA模型是目前最先进的通用机器人策略之一。π0基于流匹配Flow Matching架构将动作生成建模为从噪声到动作的连续流a t a t 0 ∫ 0 1 v θ ( a t τ , τ , o t , l t ) d τ \mathbf{a}_t \mathbf{a}_t^0 \int_0^1 \mathbf{v}_\theta(\mathbf{a}_t^\tau, \tau, o_t, l_t) d\tauat​at0​∫01​vθ​(atτ​,τ,ot​,lt​)dτ其中a t τ \mathbf{a}_t^\tauatτ​为流中时刻τ \tauτ的动作v θ \mathbf{v}_\thetavθ​为速度场由神经网络参数化o t o_tot​为视觉观测l t l_tlt​为语言指令。流匹配相比扩散模型训练更稳定、推理更快适合实时机器人控制。π0在DROID和Open X-Embodiment等大规模多机器人数据集上训练支持多种机器人平台单臂、双臂、移动操控能够执行从简单抓取到复杂多步操作如折叠衣物、组装盒子的多种任务。π0的发布标志着VLA模型从学术研究走向产业应用的重要一步。OpenVLAKim等人2024是开源的VLA模型基于Prismatic VLM架构在Open X-Embodiment数据集上训练。OpenVLA使用7B参数的Transformer模型将动作离散化为256个bin通过自回归方式预测动作token。OpenVLA的开源特性使其成为学术界研究VLA模型的重要基线。6.3.4 VLA模型的对比下表对当前主要VLA模型进行了系统对比模型年份基础模型参数量训练数据动作表示开源RT-12023ViTTransformer35M130K回合离散token否RT-22023PaLI-X/PaLM-E55B网络数据机器人数据离散token否Octo2024Transformer93MOpen X-Embodiment连续扩散是OpenVLA2024Prismatic VLM7BOpen X-Embodiment离散token是π02024流匹配VLM未公开DROIDOXE连续流否CogACT2024LLaVA扩散7BOXE增强连续扩散是6.4 具身基础模型6.4.1 跨机器人通用策略具身基础模型Embodied Foundation Model的目标是构建跨机器人平台、跨任务类型的通用策略。与VLA模型主要关注操作任务不同具身基础模型旨在覆盖导航、操作、交互等多种具身任务并支持不同的机器人形态。跨机器人通用策略面临的核心挑战是动作空间的异构性——不同机器人具有不同的自由度、关节配置和动作空间。例如7-DOF机械臂的动作是7维关节角度而移动操控机器人的动作包括底盘速度和手臂关节角度维度和语义完全不同。解决动作空间异构性的方法包括动作分词——将不同机器人的动作统一分词为共享词表中的token动作投影——将不同机器人的动作投影到共享的潜在动作空间条件生成——以机器人类型为条件生成对应动作空间的动作。OctoGhosh等人2024是跨机器人通用策略的代表性工作在Open X-Embodiment数据集上训练支持多种机器人平台。Octo使用扩散模型头生成连续动作通过可配置的输入输出头适配不同的机器人配置。Octo在单臂操作、双臂操作和移动操控等多种任务上展现了良好的跨平台泛化能力。6.4.2 Open X-Embodiment倡议Open X-EmbodimentOpen X-Embodiment Collaboration2024是由Google DeepMind联合全球34个研究机构发起的跨机器人数据共享倡议旨在构建具身智能的ImageNet时刻。Open X-Embodiment整合了22个机器人平台的操作数据总计超过100万回合、涵盖500多种技能是迄今最大的跨机器人操作数据集。Open X-Embodiment的核心贡献包括统一的数据格式——定义了跨机器人的数据表示标准支持异构机器人数据的整合大规模数据集——提供了前所未有的数据规模和多样性基线模型——提供了RT-1-X和RT-2-X等基线模型验证了跨机器人训练的有效性。实验结果表明在Open X-Embodiment上训练的模型RT-1-X和RT-2-X在多种机器人平台上的表现优于仅在单机器人数据上训练的模型验证了更多数据更多机器人更好策略的假设。这一发现与NLP和CV领域的缩放定律一致为具身基础模型的发展提供了重要实证支持。6.5 大模型驱动的任务规划与推理6.5.1 任务与运动规划TAMP任务与运动规划Task and Motion Planning, TAMP将高层符号任务规划与底层几何运动规划结合生成既满足逻辑约束又满足物理约束的行动方案。TAMP是具身智能中连接想与做的桥梁传统TAMP方法依赖人工定义的符号模型和规划域定义语言PDDL扩展性差且难以处理开放世界。大语言模型为TAMP带来了新的可能。LLM可以作为任务规划器将自然语言指令分解为符号化的任务序列然后调用运动规划器生成可执行的运动轨迹。LLM-PlannerSong等人2023和ProgPromptSingh等人2023等工作展示了LLM在具身任务规划中的能力。6.5.2 自反思与纠错大模型驱动的具身规划面临的一个关键问题是规划的可靠性——LLM可能生成不可行或不合理的计划。自反思Self-Reflection机制通过让LLM评估和修正自己的计划来提高可靠性。ReflexionShinn等人2023在语言决策任务中引入了自反思机制LLM在执行失败后生成反思文本分析失败原因并修改策略。ReflectMao等人2023将自反思应用于具身任务规划LLM在执行失败后重新审视计划识别问题并生成修正方案。自反思的有效性依赖于LLM的推理能力和对物理世界的理解。当前LLM在物理推理方面仍有局限可能导致反思不够准确。将LLM的推理能力与物理仿真器的验证能力结合是提高规划可靠性的重要方向。6.5.3 多智能体协作规划大模型驱动的多智能体协作规划是具身智能的前沿方向。在多机器人协作场景中LLM可以作为中央规划器分配任务和协调行动也可以作为每个机器人的独立规划器进行分布式决策。RoCoMandi等人2024使用LLM进行多机器人协作规划LLM根据任务要求为每个机器人生成子任务和约束然后各机器人独立执行子任务。当协作出现冲突时LLM进行协调和重规划。CoELAZhang等人2024进一步引入了通信机制允许机器人之间通过自然语言交换信息提高协作效率。6.6 大模型驱动的具身智能的挑战与展望6.6.1 当前挑战大模型驱动的具身智能面临多个关键挑战实时性挑战大模型的推理延迟通常数百毫秒到数秒难以满足实时控制的需求通常要求10-100Hz的控制频率。解决方案包括模型压缩、边缘部署和异步控制架构。精度挑战LLM的输出是离散的语言token难以提供精确的数值控制命令。VLA模型通过连续动作输出部分解决了这一问题但在精密操作任务中仍需改进。安全挑战LLM可能生成不安全的行动计划需要安全约束机制确保机器人行为不会造成伤害。安全层Safety Layer和约束优化Constrained Optimization是主要的解决方案。数据挑战高质量的机器人操作数据仍然稀缺且数据收集成本高昂。如何利用仿真数据、互联网视频和人类示范等替代数据源是VLA模型训练的关键问题。6.6.2 未来展望大模型驱动的具身智能正在向以下方向发展更大的VLA模型随着模型规模和训练数据的增长VLA模型的操作能力和泛化能力将持续提升。未来的VLA模型可能具备数百亿甚至数千亿参数在更复杂的操作任务上接近人类水平。多模态VLA将触觉、听觉和本体感觉等更多模态纳入VLA模型实现更全面的多模态感知-行动。触觉信息对于精密操作尤为重要未来的VLA模型可能整合触觉反馈实现力控制。终身学习VLA使VLA模型能够在部署后持续学习新技能适应新环境和新任务。终身学习需要解决灾难性遗忘和负迁移等问题。世界模型集成将VLA模型与世界模型结合使智能体能够在行动前预测后果支持规划和推理。世界模型可以提供想象能力减少真实世界的试错成本。大模型驱动的具身智能代表了具身AI研究的最新范式从SayCan的模块化规划到RT-2的端到端VLA从单机器人策略到跨机器人基础模型这一领域正在快速发展。随着模型规模、数据规模和计算资源的持续增长大模型驱动的具身智能有望在未来几年内实现从实验室到产业化的关键突破。

相关新闻