
26年5月来自qwen团队的论文“Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments”。具身智能的研究往往依赖于各类专用模型每个模型仅针对特定的场景或任务例如机械臂操作与导航进行设计这种模式导致智体能力呈现碎片化且在跨越不同任务、环境及机器人实体形态时的泛化能力十分有限。本文旨在探究这些异质化的具身决策问题是否能够被统一整合进单一的“视觉-语言-动作VLA”模型框架之中。为此提出 Qwen-VLA——一个统一的具身基础模型。该模型通过引入基于 DiT 架构的动作解码器将 Qwen 系列模型的“视觉-语言”建模能力栈从原有的感知、理解与推理层面进一步拓展至连续动作生成与轨迹规划层面。其方法采用一种大规模的联合预训练范式融合多元化的数据源涵盖机器人操作轨迹数据、人类第一视角演示数据、合成仿真数据、视觉-语言导航数据、以轨迹为中心的监督数据以及辅助性的视觉-语言数据。为了使单一模型能够同时支持多种机器人平台其引入“具身-觉察提示条件化”embodiment-aware prompt conditioning机制即在输入序列前置拼接针对特定机器人的文本描述以此明确当前所使用的机器人实体形态及其对应的控制规范。此外将机械臂操作、导航以及轨迹预测这三类任务统一建模于一个通用的“动作与轨迹预测”框架之下这一设计使得模型能够在跨越不同的机器人形态、任务类别及环境场景时依然能够实现可迁移的视觉基准定位、空间推理以及连续动作生成能力。在机械臂操作、导航以及以轨迹为中心的各类基准测试集上进行的实验结果表明Qwen-VLA 能够实现跨任务类别与跨机器人实体形态的具身控制无论场景布局、背景环境、光照条件、物体配置乃至机器人实体形态发生何种变化该模型均能保持稳健的多任务处理性能并展现出卓越的“分布外”out-of-distribution泛化能力。如图1 Qwen-VLA 概述1 问题形式化研究一类广泛的具身决策任务包括机器人操纵、视觉-语言导航、轨迹预测以及以人为中心视角的动作建模。受这些任务所共有的计算结构的启发提出在一个统一的具身模型框架下解决这些任务尽管这些任务在输出格式和评估协议上存在差异但它们都要求智体将语言指令与视觉观测进行关联grounding基于时空上下文进行推理并预测未来的动作或轨迹。将所有任务统一形式化为一个条件预测框架。在时间步 t模型接收到视觉上下文 o_t、语言指令 x、具身描述 e 以及可选的任务标识符 z。其中o_t 可以由单帧或多帧图像、视频观测序列或历史观测窗口组成x明确了具体的任务指令e是一段描述当前机器人平台及控制约定的文本提示而 z 则在必要时用于标识任务所属的类别。模型的训练目标是在长度为 H 的预测视窗内预测出目标序列 y_t:tH−1p_θ(y_t:tH−1 | o_t, x, e, z)目标序列 y_t:tH−1 虽然具有任务依赖性但统一表示在一个动作与轨迹的共享空间中。对于操作任务该序列对应于未来的机器人动作例如末端执行器的位置对于导航任务它代表导航决策或路径点对于以轨迹为核心的任务如自动驾驶或运动预测它表示智能体或周围实体在连续坐标空间中的精确未来空间轨迹而对于以第一人称视角采集的具身数据它捕捉的是人体或手部的运动轨迹这些轨迹表示在结构化的姿态空间中例如 MANO [Romero et al., 2017]或以骨骼关节序列的形式呈现。这种统一的建模范式使得在单一模型内部能够对异构的具身数据集进行联合优化从而促进跨任务族群的视觉基准定位、空间推理以及动作生成能力的迁移。此外该范式在输入端和输出端均具备良好的可扩展性在输入端通过引入情景记忆或持久状态来扩充条件上下文 o_t将有助于实现长时程规划与故障恢复功能在输出端若在预测动作的同时联合预测未来的视觉状态便能将动作生成与世界建模相融合从而使智体能够预判其动作所带来的后果。2 模型架构模型由两部分组成一个用于高级理解与推理的视觉-语言主干网络以及一个用于细粒度动作生成的流匹配动作专家模块。视觉-语言主干网络。用 Qwen3.5 (Team, 2026) 作为模型的主干网络。Qwen3.5 是一款原生多模态模型采用“早期视觉-语言融合”策略进行训练由具备空间合并功能的 ViT 模块生成的视觉 Token 被直接交错嵌入到文本 Token 流中从而实现在单个 Transformer 架构内对图像、视频及语言进行统一处理。其混合注意机制设计巧妙在绝大多数层中采用门控线性注意Gated Linear Attention并以固定间隔穿插分组查询 Softmax 注意Grouped-query Softmax Attention这一设计既确保对长多模态序列的高效编码又在必要时保留全精度全局推理的能力。动作专家模块。引入一个单流的 DiT 风格 (Esser et al., 2024) 流匹配策略模块将其作为“动作专家”来预测精确的动作该模块能够同时处理来自机器人和人类的具身数据 (Janner et al., 2022; Chi et al., 2023; Liang et al., 2023; Black et al., 2024)。该动作专家模块将视觉-语言模型VLM的隐状态与一段带噪声的动作片段拼接成一个序列随后通过联合自注意机制对其进行处理处理过程中结合 AdaLN 时间步条件调节技术 (Peebles Xie, 2023) 以及与主干网络对齐的多段式 RoPE 嵌入。这种解耦式设计使得动作专家能够专注于细粒度的动作生成任务并能自然地应对具身动作分布所特有的多模态特性及高频动态变化同时完整保留主干网络所具备的预训练能力。该专家模块采用流匹配目标函数 (Lipman et al., 2023) 进行训练在推理阶段它仅需通过少量欧拉积分步数即可生成动作序列从而实现低延迟的实时控制能力。总体而言动作专家模块包含约 11.5 亿个参数其中 16 个 DiT 块占据绝大部分每个 7080 万合计 11.3 亿剩余参数则分布于负责在原始动作维度与 DiT 潜空间之间进行映射的动作投影 MLP490 万、将 VLM 隐状态转换为 DiT 通道维度的线性层390 万、时间步嵌入280 万以及输出 AdaLN 调制模块470 万之中。3 具身感知提示条件化为了在单个共享模型中支持多种机器人具身形态在每个训练样本前预置一段特定于机器人的文本提示prompt用于描述当前的机器人平台、机械臂配置以及控制约定。该提示遵循如下模板该机器人为 {robot_tag}配备 {单臂 / 双臂}[、腰部][、以及移动基座]。控制频率为 {FPS} Hz。请预测接下来的 {chunk_size} 个控制动作以执行以下任务{ori_instruction}。机器人标签robot tag及可选修饰符腰部、移动基座根据具体的具身形态进行设定FPS帧率和 chunk_size块大小则反映数据集原始的控制频率和预测时间窗。如表 2 总结预训练语料库所涵盖的代表性机器人平台并列出其对应的机械臂配置和动作类型。4 统一的动作与轨迹表示统一张量接口和掩码机制但并未强行将所有具身形态归入单一的物理动作语义空间。每个数据集均保留其原生的控制约定这一约定通过具身提示和针对该数据集的特定归一化处理进行指定。具体而言每个训练样本均提供一个目标张量 Y其中 H 表示固定的预测时间窗长度K 表示所有控制模式共享的固定通道维度大小。控制信号类型。涵盖两大类连续控制信号。操作信号Manipulation signals包括末端执行器的位置增量 (∆x, ∆y, ∆z)、以欧拉角或四元数表示的末端执行器旋转姿态、绝对关节位置、夹爪开度以及灵巧手的关节角度。导航轨迹信号Navigation trajectory signals遵循 VLN视觉-语言-导航域的约定以 (∆x, ∆y, ∆θ) 为单位表示每个航点编码在地面平面上的相对位移和朝向变化。尽管这两类信号具有不同的物理语义但它们本质上都是在特定时间窗内预测的一系列实数值向量因此在动作专家模块action expert中受到同等对待。通道布局。特定的控制模式将占用 c ≤ K 个通道。这 c 个与任务相关的值被置于张量 Y 的前 c 个维度中而剩余的 K − c 个维度则通过补零进行填充。一个逐通道的二值掩码 M ∈ {0, 1} 用于记录哪些通道承载着有效信号当且仅当通道索引 k c 且时间步 h 落在任务的块长度 H_task ≤ H 范围内时M_h,k 的取值为 1。这种机制无需针对特定具身形态embodiment设计专用的输出头仅需一套 DiT 参数集即可处理所有的控制模式而该掩码的作用在于防止填充项对梯度计算产生干扰。任务-觉察条件化。每个训练样本均预置“具身-觉察提示”embodiment-aware prompt该提示明确指定机器人平台、机械臂配置、控制频率以及预测视窗。对于 VLN视觉-语言-导航样本该提示则以类比的方式指明了导航约定与路点视窗。这些提示tokens经由 VLM 主干网络进行处理其产生的隐状态随后与带噪声的动作块拼接在一起共同作为 DiT 模型的输入借此动作专家模型便能始终基于当前样本精确的控制规范进行条件化推理且无需对模型架构做任何改动。5 训练目标采用一种由两个目标加权求和构成的综合目标对整个模型进行端到端的训练这两个目标分别涵盖了连续动作生成与视觉-语言理解任务。流匹配动作损失Flow-matching action loss。对于所有包含连续控制目标的数据样本包括机械臂操作、VLN 轨迹路点以及经过动作对齐处理的人类第一视角数据利用一种条件流匹配目标Lipman et al., 2023来对动作专家模块进行监督训练。具体而言给定一个纯净的目标样本 Y_0 和一个噪声样本 Y_1 ∼ N (0, I)构建其线性插值 Y_τ (1 − τ)Y_0 τY_1 其中 τ ∈ [0, 1],并训练动作专家 v_θ 以预测相应的条件速度场。视觉-语言损失。为了保留并增强骨干网络的跨模态能力在辅助视觉-语言数据包括细粒度的具身动作描述、自动驾驶 VQA 以及通用的视觉-语言预训练语料库上保留标准的下一token预测损失。1 训练方案一个可用的 VLA视觉-语言-动作模型需要协同训练一个认知主干网络和一个运动解码器这种分工类比于生物运动控制中大脑皮层和小脑所扮演的互补角色。然而在实践中这两个模块在进入训练时处于高度不对称的状态VLM视觉-语言-模型主干网络已经经过了充分的预训练而 DiT 动作解码器则是随机初始化的。若从这一起点直接进行朴素的联合训练将显得既低效又不稳定。解码器必须同时学习多项内容动作分布的形态、如何基于语言和具身信息进行条件化处理、其自身参数化的流匹配flow-matching动态特性以及如何将动作与视觉信息进行关联grounding。与此同时每一步训练都需承担图像编码所带来的计算开销。此外来自尚未充分学习到有效动作结构的“新手”解码器的带有噪声的梯度可能会对已预训练好的主干网络造成干扰。提出的分阶段训练方案其灵感源自一种基于“压缩”视角的动作学习理念。原始的动作轨迹往往具有高密度、高频率且依赖于具身形态的特性单次操作任务episode中可能包含数千个关节位置数值分布在数十个自由度之上。然而其底层的任务意图却可以通过一条语言指令例如“拿起那个红杯子”以及一条指定机器人平台与控制规范的具身提示embodiment prompt被紧凑地概括出来。这一描述仅需寥寥数个tokens即可承载。在这段高度压缩的任务描述与完整的动作信号之间存在着巨大的维度鸿沟弥合这一鸿沟本质上是一个结构化的“解压缩”问题。将 T2A文本-到-动作任务建模为学习这一“解压缩映射”的过程。通过暂时屏蔽图像输入仅基于语言条件进行动作预测来训练 DiT 解码器迫使解码器在动作空间中构建出一种结构化的先验知识——这种先验知识完全由语言信息所索引。这不仅仅是一种简单的“热启动”warm-start策略解码器在此阶段能够学会不同的语言描述如何对应并激活动作分布中的特定区域学会具身提示如何将同一任务意图转化为针对特定机器人平台的具体运动程序并学会如何在序列层面上把握完整动作轨迹的时序连贯性与组合结构——而完成这一切仅需依赖那段高度压缩的任务描述。一旦建立这种由语言索引的动作先验知识后续的多模态联合训练便可将计算资源与学习能力集中于核心任务之上——即如何将这些先验知识与具体的视觉观测信息进行有效关联grounding而非从零开始去学习动作生成的基本原理。基于这一原则在预训练的 Qwen3.5 VLM 主干网络之上采用一套四阶段的训练方案(I) 文本-到-动作Text-to-Action的 DiT 预训练T2A(II) 持续预训练CPT(III) 分为两个并行分支的监督微调SFT以及 (IV) 强化学习RL。每个阶段的定义均在于其弥合前一阶段所遗留的鸿沟。如图 2 所示Qwen-VLA 的训练配方如下第一阶段T2A训练 DiT 动作解码器使其仅凭文本输入即可重构动作从而在无视觉输入的情况下构建结构化的动作先验。第二阶段CPT解冻上述两个模块将该动作先验与视觉观测进行关联。第三阶段SFT分化为多任务和真实机器人两条训练路径第四阶段RL则通过环境奖励优化闭环任务的成功率。2 预训练数据预训练语料库的质量与多样性直接决定认知主干网络与运动解码器在跨具身形态及跨任务族情境下的协同适应能力。本文构建一个庞大且异质的混合预训练数据集旨在赋予模型广泛的具身感知、空间推理及动作生成能力。该混合数据集涵盖五大数据族机器人操纵轨迹、人类第一视角演示、合成仿真数据、导航与轨迹中心数据以及辅助视觉-语言数据。表1总结各数据源的构成及其采样权重。机器人操纵轨迹真实与仿真机器人操纵轨迹构成预训练语料库的核心约占整个预训练混合数据的 74.2%。这些数据涵盖桌面操纵、移动操纵、双臂任务以及灵巧手控制且涉及多种多样的机器人实体形态。第一人称视角人类数据与远程操控的机器人轨迹相比第一人称视角的人类演示数据提供一种更为丰富且具有良好可扩展性的真实世界操作经验来源。人类在开放世界环境中日复一日地与各类物体进行交互自然而然地产生灵巧的操作行为这些行为所涵盖的场景、物体及任务语义范围远比机器人远程操控所能触及的范围更为广泛。近期研究表明利用大规模的第一人称视角人类视频进行训练能够赋予“视觉-语言-动作”模型更为丰富多样的操作先验知识并显著提升其在下游机器人任务中的泛化能力Kareer et al., 2025; Luo et al., 2025; Li et al., 2026b; Luo et al., 2026; Zheng et al., 2026; Hu et al., 2026。受上述研究成果的启发在数据集中整合一系列丰富多样的第一人称视角人类操作数据集占预训练数据总量的6.0%旨在为模型提供广泛的操作先验知识从而对机器人轨迹数据形成有效的补充。合成仿真数据为了提升具身监督embodied supervision的覆盖范围、可控性及鲁棒性构建一套大规模的合成仿真数据生成管线该管线包含两个相互补充的组件(1) 视觉-语言-动作数据在此类数据中模型需综合任务指令与图像观测来预测动作(2) 语言-动作数据在此类数据中模型仅凭语言信息即可预测动作。这两类监督数据虽作用各异却能发挥协同增效的作用。纯文本组件旨在促使模型在不依赖视觉外观的前提下习得高层级的任务抽象能力及语言与动作之间的内在规律而受视觉信息制约的组件则负责将上述抽象概念具象化使其扎根于逼真的感知观测、多变的场景环境以及具身交互的动态过程之中。基于 IsaacLab (Mittal et al., 2025) 搭建仿真环境并利用 cuRobo (Sundaralingam et al., 2023) 实现避碰运动规划功能从而构建这套数据生成管线。导航数据引入导航数据占比 7.5%其显著特征在于包含长跨度的运动轨迹以及丰富的视觉信息。假设移动机器人具备 3 个自由度即在平面内的平移运动以及绕垂直轴的旋转运动航向角。导航数据由导航视频以 2 FPS 的帧率采样、指令信息及轨迹信息共同构成这些数据协同作用赋予模型诸如指令跟随、物体搜索及目标追踪等移动操作能力。视觉-语言数据进一步引入辅助视觉-语言监督合计占比 8.5%以强化语义锚定、细粒度指令遵循以及通用视觉推理能力。通过 T2A 和 CPT 的大规模预训练得到 Qwen-VLA-Base——一个通用的视觉-语言-动作模型该模型展现出广泛的跨任务和跨具身泛化能力。尽管这种广泛的覆盖范围赋予了模型多样的知识但尚未达到在特定下游任务上实现可靠闭环控制所需的精度。为了弥合这一鸿沟引入一种两阶段的后训练流程旨在将基础模型专精化以实现精准的任务执行(i) 多任务监督微调SFT阶段在具身平衡和任务平衡的采样策略下针对视觉问答、空间定位、物体操纵和导航等异质任务联合微调 VLM 主干网络和动作专家模块。(ii) 强化学习RL阶段以 SFT 阶段的检查点为起点进行初始化通过直接优化基于仿真环境中“同策略采样”on-policy rollouts所获得的、以任务成功为导向的奖励信号进一步精炼策略最终生成模型 Qwen-VLA-Instruct。在这两个阶段中均采用余弦衰减的学习率调度策略并为视觉-语言主干网络和动作解码器分别设定独立的组别调度方案此外还沿用与预训练阶段保持一致的梯度裁剪设置。