为什么预训练再好的VLA，在新任务上普通SFT 并不好用？CapVector给出了原因和方案-尧图网站设计

Vision-Language-ActionVLA模型现在已经很强了。但一个很现实的问题是预训练再充分的 VLA到了新任务上普通 SFT 往往并不好用。很多工作发现训练收敛慢少量 demonstration 不够泛化能力并没有想象中强于是社区开始引入各种 auxiliary objectivesSpatial Forcing 做空间对齐LaRA-VLA和L a S T 0 LaST_0LaST0做 latent CoT reasoningworld modeling…效果确实更好但代价也很明显额外 forward、额外模块、额外 loss、额外显存。于是我们想能不能把这些 auxiliary finetuning 学到的“能力”直接从参数空间里提取出来如果可以以后训练新任务时只做最普通的 SFT也能继承这些能力。这就是我们提出的CapVector。原文链接为什么预训练再好的VLA在新任务上普通SFT 并不好用CapVector给出了原因和方案mp4Paper:https://arxiv.org/abs/2605.10903Project:https://capvector.github.ioCode:https://github.com/OpenHelix-Team/CapVectorWeights:https://huggingface.co/haofuly/capvector_models_collection一个核心观察我们发现auxiliary-objective finetuning 其实包含两部分task-specific action fittinggeneral capability enhancement比如Spatial Forcing 学到的空间理解能力、LaRA-VLA 学到的 latent reasoning 能力。这些“额外能力”其实隐藏在参数变化里于是我们做了一个非常简单的事情对同一个任务用普通 SFT 得到θ f t \theta_{ft}θft用 auxiliary SFT 得到θ a o \theta_{ao}θao然后直接做参数差分γ a o θ a o − θ f t \gamma_{ao} \theta_{ao} - \theta_{ft}γaoθao−θft我们把这个向量称为Capability Vector它表示auxiliary objective 额外注入进模型的“能力方向”。然后发生了什么我们直接把 Capability Vector merge 回 pretrained modelθ m e t a θ p t α γ a o \theta_{meta} \theta_{pt} \alpha \gamma_{ao}θmetaθptαγao得到 capability-enhanced meta model。之后训练任何新任务都只需要普通 SFT。不再需要 auxiliary loss。但模型依然保留了spatial perception、latent reasoning、long-horizon understanding、cross-domain robustness 这些能力。但还有一个问题普通 SFT 会“遗忘” capability vector 因为 finetuning 会继续覆盖参数空间。于是我们加入了一个很轻量的Orthogonal Regularization核心思想非常直接让 downstream finetuning 的更新方向与 capability vector 保持正交。也就是学新任务但不要破坏已有能力。最终 lossL L_{action} \lambda L_{orth}额外开销极小FLOPs 0.002%显存 0.8%但效果非常关键。实验结果我们在LIBERO、RoboTwin 2.0等多种真实机器人平台上做了验证。结果非常有意思。1. 普通 SFT ≠ CapVector仅 5k stepsOpenVLA-OFT82.1%、CapVector91.7%甚至超过Spatial Forcing87.5%也就是说CapVector 继承了 auxiliary finetuning 的性能和训练效率。2. OOD Transfer 真的成立更有意思的是Capability Vector 居然是 task-irrelevant 的。我们在 LIBERO 提取 capability vectors直接迁移到 RoboTwin结果OpenVLA-OFT6.7%、CapVector31.8%提升接近 5 倍。说明capability vectors 学到的不是 task memorization而是真正可迁移的 general capability。3. 不只是空间能力CapVector 不依赖特定 auxiliary objective。我们同时验证了Spatial Forcing空间能力LaRA-VLA隐式推理能力结果都成立。甚至autoregressive VLA、flow matching VLA、LoRA tuning、full finetuning都能 work。包括OpenVLA、StarVLA、π 0.5 \pi_{0.5}π0.54. 数据多样性比任务数量更重要一个非常有意思的发现高质量 capability vectors不来自更多任务。而来自更丰富、更多样、但 task-irrelevant 的视觉变化。比如randomized background明显优于clean background。因为模型会被迫学习真正稳定的 spatial understanding而不是 shortcut learning。5. Sim-to-Real 也成立最关键的是Capability vectors 可以直接从 simulation transfer 到 real world。我们只在 LIBERO 提取 capability vectors直接用于真实机器人。结果多个工业任务、多个机器人平台、多个外部实验室全部稳定提升。包括UR3、ARX Lift 2、AgileX Cobot。甚至完全 out-of-the-box。最后CapVector 本质上在做一件事把 finetuning 过程中隐式学到的“能力”从训练过程本身解耦出来。于是auxiliary finetuning 不再只是训练技巧。而变成一种 capability extraction process。这可能意味着未来很多复杂 finetuning 方法最终都能被压缩成一个 capability vector。然后像插件一样直接 merge 进 foundation model。重磅全网首个具身智能开源知识库来啦技术/产业/投融资/上下游推荐阅读VLARL方向首个系统教程来啦Online RL/Offline RL/test time RL等具身智能的WAM与世界模型一份完整指南一览具身智能的行业全局从产品经理的角度出发我们用低成本的机械臂完成pi0/pi0.5/GR00T/世界模型等VLA任务好用高性价比面向具身科研领域打造的轻量级机械臂VLA/VLA触觉/VLARL/具身世界模型等具身大脑小脑算法与实战全栈路线来啦~从零训练你的足式机器人让你的足式机器人真正动起来~具身领域的目标导航到底是什么有哪些主流方法具身智能与传统机器人任务有什么区别主流方案有哪些1v1 科研论文辅导来啦重磅具身智能之心论文辅导来啦近20方向顶会/顶刊/SCI/EI/中文核心/申博等

为什么预训练再好的VLA，在新任务上普通SFT 并不好用？CapVector给出了原因和方案

相关新闻

Arm Neoverse CMN-650架构解析与寄存器编程实战

618灭蚊灯家用哪个牌子好？家用电子灭蚊器哪种好？口碑炸裂灭蚊灯十大名牌，母婴家庭必备！

AI Agent交互设计新范式：基于Leader Key的可编程对话流实践

C++ 资深工程师 / 架构师面试题（含标准答案 + 架构设计 + 源码级剖析）

数字认证在京举办电子认证服务新规宣贯会凝心聚力共推合规升级

Swift集成飞书API：使用feishu-swift SDK构建高效机器人

AI 的能源账单：训练一次模型够一个城市用一年、$440 亿投资涌入、核能成为新基建 — 算力背后的环境代价

Neovim原生GitHub Copilot客户端gp.nvim：从安装配置到高级实战

AI Agent技能化开发：从标准化接口到生产级应用实践

终极UE5项目版本控制指南：让大型游戏项目协作提速50%的完整方案

从IMU到UWB：拆解美国队长盾牌自主归位的嵌入式控制核心

5大革新点解析：Faze4六轴机械臂从开源设计到工业级应用的实战指南

贾子竞争哲学与文明范式革命：让对手失去存在的意义

【斯普林格Springer 旗下的Atlantis Press出版社出版 | EI Compendex、Scopus、谷歌学术】第五届区块链、信息技术与智慧经济国际学术会议（ICBIS 2026）

AI 范式文明依附与贾子理论的破局价值：技术主权视角下的中美 AI 竞争伪命题批判

别再手动点关了！用PowerShell永久关闭Windows Defender的保姆级教程（含Server 2016/2019）

别再只换芯片了！BP2832A替换CL1502，你的电感参数算对了吗？

全平台智能资源下载工具：res-downloader 完整使用教程