OpenVLA 技术综述

发布时间:2026/5/30 23:59:07

OpenVLA 技术综述 OpenVLA 技术综述概述OpenVLAOpen Vision-Language-Action Model是斯坦福大学、加州大学伯克利分校等机构联合提出的开源通用机器人操控模型发表于 2024 年arXiv:2406.09246。它将大型视觉语言模型VLM与机器人动作预测相结合使机器人能够理解自然语言指令并直接输出控制动作。OpenVLA 技术综述核心架构OpenVLA 基于Prismatic VLM框架构建整体是一个 7B 参数的多模态大模型由三个模块串联组成摄像头图像│▼┌─────────────────────────────┐│ Vision Backbone (双路) │ SigLIP DinoV2│ 图像 → 视觉特征 patches │ 各输出 256 个 patch tokens└──────────────┬──────────────┘│ 512 维特征拼接▼┌─────────────────────────────┐│ MLP Projector │ 将视觉特征映射到语言空间└──────────────┬──────────────┘│ 自然语言指令 tokens▼┌─────────────────────────────┐│ LLaMA-2 7B Language Model │ 自回归生成动作 tokens└──────────────┬──────────────┘│▼机器人控制动作[Δx, Δy, Δz, Δroll, Δpitch, Δyaw, gripper]关键技术创新1. 动作离散化OpenVLA 将连续的机器人动作末端执行器位置、姿态、夹爪开合离散化为 256 个 bin直接复用 LLM 的词表 token 来表示动作。推理时模型输出 7 个 token 依次对应 7 个自由度再反量化为连续控制值。这使得整个框架无需额外的动作解码器完全统一在语言模型框架内。2. 大规模数据预训练在Open X-Embodiment数据集上预训练覆盖 970,000 条真实机器人轨迹、29 个机器人平台、来自 22 个研究机构的多样化操控任务。相比之前的模型如 RT-2 需要私有数据OpenVLA 完全开源。3. 参数高效微调支持LoRALow-Rank Adaptation微调在特定任务如 LIBERO 仿真基准上只需更新少量参数即可将通用模型适配到具体场景大幅降低计算成本。4. 双路视觉编码同时使用 SigLIP擅长语义理解和 DINOv2擅长空间细节两个视觉编码器将两路特征在嵌入维度上拼接比单一编码器获得更丰富的视觉表征。推理流程以 LIBERO 仿真为例每一步的推理过程为观测从仿真环境获取 256×256 RGB 图像裁剪对图像做中心 90% 裁剪并缩放到 224×224消除训练时随机裁剪的分布偏移编码图像通过双路视觉编码器生成 256 个 patch 特征提示构造In: What action should the robot take to {task}?\nOut:推理LLaMA-2 自回归生成 7 个动作 token每个代表一个自由度执行反量化为连续动作后发送给机器人执行器整个推理链路在单张 RTX 306012GB上以 4-bit 量化运行每步推理约 1-2 秒。实验结果本次复现在 LIBERO-Spatial 任务套件10 个空间关系推理任务每任务 1 次试验任务类型成功 / 总计成功率LIBERO-Spatial1-trial8 / 1080%官方论文报告的 LIBERO-Spatial 成功率为78-84%50 trials/task本次复现结果与之吻合。局限性与挑战方面说明推理速度7B 模型每步约 1-2 秒远低于实时控制需求通常需要 ≥10Hz目前只适用于非实时任务泛化能力对训练分布外的场景新物体、新背景泛化能力有限需要微调3D 感知缺失仅使用单目 RGB 图像无深度信息复杂遮挡场景下容易失败计算资源完整 BF16 推理需要 16GB 显存量化后精度略有下降意义OpenVLA 代表了将大语言模型范式引入机器人控制的重要里程碑——同一套模型通过自然语言指令即可控制多种机器人执行多样化任务无需为每个任务单独设计控制器。随着模型效率的提升和具身智能数据的积累这一技术路线被广泛认为是通用机器人的重要方向之一。

相关新闻