
Vision-Language-ActionVLA模型现在已经很强了。但一个很现实的问题是预训练再充分的 VLA到了新任务上普通 SFT 往往并不好用。很多工作发现训练收敛慢少量 demonstration 不够泛化能力并没有想象中强于是社区开始引入各种 auxiliary objectivesSpatial Forcing 做空间对齐LaRA-VLA和L a S T 0 LaST_0LaST0做 latent CoT reasoningworld modeling…效果确实更好但代价也很明显额外 forward、额外模块、额外 loss、额外显存。于是我们想能不能把这些 auxiliary finetuning 学到的“能力”直接从参数空间里提取出来如果可以以后训练新任务时只做最普通的 SFT也能继承这些能力。这就是我们提出的CapVector。原文链接为什么预训练再好的VLA在新任务上普通SFT 并不好用CapVector给出了原因和方案mp4Paper:https://arxiv.org/abs/2605.10903Project:https://capvector.github.ioCode:https://github.com/OpenHelix-Team/CapVectorWeights:https://huggingface.co/haofuly/capvector_models_collection一个核心观察我们发现auxiliary-objective finetuning 其实包含两部分task-specific action fittinggeneral capability enhancement比如Spatial Forcing 学到的空间理解能力、LaRA-VLA 学到的 latent reasoning 能力。这些“额外能力”其实隐藏在参数变化里于是我们做了一个非常简单的事情对同一个任务用普通 SFT 得到θ f t \theta_{ft}θft用 auxiliary SFT 得到θ a o \theta_{ao}θao然后直接做参数差分γ a o θ a o − θ f t \gamma_{ao} \theta_{ao} - \theta_{ft}γaoθao−θft我们把这个向量称为Capability Vector它表示auxiliary objective 额外注入进模型的“能力方向”。然后发生了什么我们直接把 Capability Vector merge 回 pretrained modelθ m e t a θ p t α γ a o \theta_{meta} \theta_{pt} \alpha \gamma_{ao}θmetaθptαγao得到 capability-enhanced meta model。之后训练任何新任务都只需要普通 SFT。不再需要 auxiliary loss。但模型依然保留了spatial perception、latent reasoning、long-horizon understanding、cross-domain robustness 这些能力。但还有一个问题普通 SFT 会“遗忘” capability vector 因为 finetuning 会继续覆盖参数空间。于是我们加入了一个很轻量的Orthogonal Regularization核心思想非常直接让 downstream finetuning 的更新方向与 capability vector 保持正交。也就是学新任务但不要破坏已有能力。最终 lossL L_{action} \lambda L_{orth}额外开销极小FLOPs 0.002%显存 0.8%但效果非常关键。实验结果我们在LIBERO、RoboTwin 2.0等多种真实机器人平台上做了验证。结果非常有意思。1. 普通 SFT ≠ CapVector仅 5k stepsOpenVLA-OFT82.1%、CapVector91.7%甚至超过Spatial Forcing87.5%也就是说CapVector 继承了 auxiliary finetuning 的性能和训练效率。2. OOD Transfer 真的成立更有意思的是Capability Vector 居然是 task-irrelevant 的。我们在 LIBERO 提取 capability vectors直接迁移到 RoboTwin结果OpenVLA-OFT6.7%、CapVector31.8%提升接近 5 倍。说明capability vectors 学到的不是 task memorization而是真正可迁移的 general capability。3. 不只是空间能力CapVector 不依赖特定 auxiliary objective。我们同时验证了Spatial Forcing空间能力LaRA-VLA隐式推理能力结果都成立。甚至autoregressive VLA、flow matching VLA、LoRA tuning、full finetuning都能 work。包括OpenVLA、StarVLA、π 0.5 \pi_{0.5}π0.54. 数据多样性比任务数量更重要一个非常有意思的发现高质量 capability vectors不来自更多任务。而来自更丰富、更多样、但 task-irrelevant 的视觉变化。比如randomized background明显优于clean background。因为模型会被迫学习真正稳定的 spatial understanding而不是 shortcut learning。5. Sim-to-Real 也成立最关键的是Capability vectors 可以直接从 simulation transfer 到 real world。我们只在 LIBERO 提取 capability vectors直接用于真实机器人。结果多个工业任务、多个机器人平台、多个外部实验室全部稳定提升。包括UR3、ARX Lift 2、AgileX Cobot。甚至完全 out-of-the-box。最后CapVector 本质上在做一件事把 finetuning 过程中隐式学到的“能力”从训练过程本身解耦出来。于是auxiliary finetuning 不再只是训练技巧。而变成一种 capability extraction process。这可能意味着未来很多复杂 finetuning 方法最终都能被压缩成一个 capability vector。然后像插件一样直接 merge 进 foundation model。重磅全网首个具身智能开源知识库来啦技术/产业/投融资/上下游推荐阅读VLARL方向首个系统教程来啦Online RL/Offline RL/test time RL等具身智能的WAM与世界模型一份完整指南一览具身智能的行业全局从产品经理的角度出发我们用低成本的机械臂完成pi0/pi0.5/GR00T/世界模型等VLA任务好用高性价比面向具身科研领域打造的轻量级机械臂VLA/VLA触觉/VLARL/具身世界模型等具身大脑小脑算法与实战全栈路线来啦~从零训练你的足式机器人让你的足式机器人真正动起来~具身领域的目标导航到底是什么有哪些主流方法具身智能与传统机器人任务有什么区别主流方案有哪些1v1 科研论文辅导来啦重磅具身智能之心论文辅导来啦近20方向顶会/顶刊/SCI/EI/中文核心/申博等