,后在线RL微调,且引入人工干预)
前言过去一年多我自己读了200来篇具身paper博客内解读的具身paper也有大几十篇了(具体多少篇还没实际统计)读多了便会慢慢的发现一些规律比如IL VLA RL各有神通(单纯的IL 比如ALOHA学习起来足够快单纯的VLA 可推理解析、泛化性强单纯的RL 精准度搞)更可以彼此结合IL VLA学得快且泛化比如微调π0/openpi做智能分拣IL RL学得快且准比如hil-serl再比如以人类动作为参考(模仿)然后RL训练的ASAP、H2O等IL VLA RL 既快且泛化又准 且可触觉最终技术的大融合是通用具身发展的大趋势对于工厂里机械臂的智能化改造很显然如果用单纯RL的话其准度不错但泛化性不行如果想兼具精准度和泛化性RL微调vla 最合适故我相信RL结合VLA的方法很快会成为工厂里 智能机械臂的主流落地方法总之如此文开头所说的对于孔较大的vla 触觉基本可以解决对于孔比较细的1 单纯RL hil-serl可以但对环境过于挑剔泛化性不足2 故如果想兼具精准度和泛化性RL微调vla 暂时最合适如此便关注到了一系列RL与VLA结合的方法比如本文要解读的ConRFT第一部分 ConRFT一种通过一致性策略强化微调的视觉-语言-动作模型方法1.1 引言、相关工作1.1.1 引言如ConRFT原论文所说目前基于人类遥操作数据对 VLA 模型进行有监督微调SFT仍是主流的适配方法但这一过程面临重大挑战模型性能高度依赖于任务特定数据的质量和数量然而由人类收集的数据集由于存在次优数据和动作不一致等固有问题往往难以持续提供最优轨迹[6-RLDG]大型语言模型LLMs和视觉语言模型VLMs的重大进展凸显了强化学习在弥合策略能力与人类偏好之间鸿沟7-Deep reinforcement learning from human preferences8-instructGPT9-ReFT: reasoning with reinforced fine-tuning或或提升模型推理能力[10-Iterative reasoning preference optimization]方面的价值此外利用具有特定任务奖励函数的RL从在线交互数据中学习也是一个很有前景的方向[11, 12, 13]11-Is reinforcement learning (not) for natural language processing: Benchmarks, baselines, and building blocks for natural language policy optimization12-DigiRL: training in-the-wild device-control agents with autonomous reinforcement learning13-Grounding large language models in interactive environments with online reinforcement learning然而将这些洞见扩展到VLA 模型会带来独特的挑战因为与 LLM 不同VLA 模型在现实世界的机器人任务中需要直接的物理交互而在接触密集型环境中采集数据的安全和成本约束使得要求极高的样本效率和具备风险意识的探索这使得直接套用 RL 实现变得不可行近期工作尝试利用 RL 来应对 SFT 中所面临的挑战6-RLDG: robotic generalist policy distillation via reinforcement learning14-Policy agnostic RL: offline RL and online RL fine-tuning of any class and backbone详见policyagnosticrl.github.io但这些方法主要聚焦于使用 RL 进行数据增广或质量提升而不是通过 RL 目标直接优化 VLA模型这限制了策略探索示范数据集之外状态的能力从而削弱了基于 RL 的微调在真实场景中的潜在优势注意了为了利用基于强化学习RL的方法通过在线交互数据高效微调VLA模型来自1 机器感知与智能系统国家重点实验室-中国科学院自动化研究所、2 中国科学院大学人工智能学院的研究者提出了一种强化微调RFT方法ConRFT该方法包括离线和在线两个阶段并采用统一的一致性训练目标其对应的paper地址为ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency PolicySubmitted on 8 Feb 2025其对应的项目地址为cccedric.github.io/conrft尽管这一设计与离线到在线的方法 [15, 16, 17] 相似15-Offline-to-online reinforcement learning via balanced replay and pessimistic qensemble16-Cal-QL: Calibrated offline RL pre-training for efficient online fine-tuning17-Efficient online reinforcement learning fine-tuning need not retain offline data但作者发现专家示范的稀缺性限制了其离线训练性能受CPQL [18-Boosting continuous control with consistency policy]方法的启发作者提出了一种统一的训练目标在离线阶段将有监督学习(行为克隆)与Q学习相结合并在随后的在线RL中通过一致性策略进一步微调 VLA 模型在离线训练过程中作者的方法利用已有示范并处理分布外OOD状态从而在与真实环境交互之前有效地抽取策略与价值函数在随后的在线阶段通过在Human-in-the-LoopHIL学习19-HG-DAgger: interactive imitation learning with human experts20-HIL-SERL框架下通过人类干预结合 CPQL [18] 中与任务相关的奖励解决了样本效率和真实世界安全性这两个挑战1.1.2 相关工作第一大模型的强化微调强化学习RL已被广泛用于微调大语言模型LLMs和视觉语言模型VLMs早期工作主要侧重于将人类反馈引入强化学习7-Deep reinforcement learning from human preferences8-instructGPT9-ReFT21-Open problems and fundamental limitations of reinforcement learning from human feedback22-Fine-tuning large vision-language models as decision-making agents via reinforcementlearning即相当于要么通过学习人类偏好要么在没有显式人类偏好的情况下引入任务特定的奖励函数11-Is reinforcement learning (not) for natural language processing: Benchmarks, baselines, and building blocks for natural language policy optimization12-DigiRL13-Grounding large language models in interactive environments with online reinforcement learning23-PEBBLE: feedback-efficient interactive reinforcement learning via relabeling experience and unsupervised pretraining尽管这些方法中有许多采用了基于策略on-policy的算法例如 PPO [24]来微调预训练策略 [12, 25,26]12-DigiRL25-Relay policy learning: Solving long-horizon tasks via imitation and reinforcementlearning26-DeepSeekMath但它们通常需要大量交互数据才能达到理想性能[27, 28]27-Efficient online reinforcement learning with offline data详见此文《RLPD——利用离线数据实现高效的在线RL不进行离线RL预训练直接应用离策略方法SAC在线学习时对称采样离线数据》28-SELU: selflearning embodied mllms in unknown environments而尽管强化学习在许多领域已经取得成功它通常是在自生成的合成环境中学习而非在真实世界环境中学习这一差距阻碍了其在需要真实世界交互的 VLA 模型中的直接迁移作者的工作通过设计适用于高效真实世界 VLA 微调的RL框架来弥合这一不一致第二真实世界的强化学习系统真实世界中的机器人强化学习系统需要使用在处理高维输入时具有高样本效率、并且足够灵活以适应奖励设定和环境重置等实际需求的算法[20-HIL-SERL]已有多种方法已经成功展示了在真实物理环境中直接进行策略学习29-Reinforcement learning for robot soccer30-Residual reinforcement learning for robot control31-SERL20-HIL-SERL包括采用离线策略32-Offline meta-reinforcement learning for industrial insertion项目地址为sites.google.com/view/offline-metarl-insertion33-RLIF: interactive imitation learning as reinforcement learning项目地址为rlif-page.github.io34-REBOOT:reuse data for bootstrapping efficient real-world dexterous manipulation35-Continuously improving mobile manipulation with autonomous realworld RL项目地址见continual-mobile-manip.github.io在线策略36-Dexterous manipulation with deep reinforcement learning: Efficient, general,and low-cost37-Robot parkour learning方法或将“强化学习视为监督学习”的范式14-Policy agnostic RL38-Reinforcement learning by reward-weighted regression for operational space control尽管已有这些进展许多真实世界的强化学习系统仍然需要耗时较长的训练过程或依赖大量的交互数据[39-The ingredients of real world robotic reinforcement learning]这在高接触密集型任务中既不现实也具有较高风险与以往从零开始训练的方法不同作者的工作专注于利用预训练的 VLA模型来提供高质量的策略初始化该方法能够在强化学习早期阶段有效减少不必要的探索行为从而在训练过程中同时优化策略学习效率和操作安全性第三离线到在线方法离线到在线强化学习(Offline-to-online RL)的目标是利用离线数据集来初始化策略随后通过在线交互进行微调从而提升样本效率 [15][15-Offline-to-online reinforcement learning via balanced replay and pessimistic qensemble]现有的研究工作通常采用先离线预训练然后在线微调的阶段[15, 40, 41, 16]且在线训练过程中将离线数据和在线数据混合使用15-Offline-to-online reinforcement learning via balanced replay and pessimistic qensemble40-Reincarnating reinforcement learning: Reusing prior computation to accelerate progress41-MOTO: offline pre-training to online fine-tuning for model-based robot learning16-Cal-QL这种从离线到在线的流水线与本文提出的两阶段微调方法类似先利用预先收集的数据来启动策略训练然后在真实世界任务中对策略进行微调[32-Offline meta-reinforcement learning for industrial insertion]多数离线到在线的方法假设可以获得大规模、多样化且具有充分状态覆盖度的数据集42-Learning complex dexterous manipulation with deep reinforcement learning and demonstrations43-Overcoming exploration in reinforcement learning with demonstrations而这一条件在真实世界部署中很难满足作者探索将预训练的 VLA 模型作为基础策略以实现高样本效率的策略细化即便在示范数据极其受限的条件下也能获得优越的微调性能1.1.3 问题设定与预备知识作者专注于对预训练的VLA模型进行下游任务的微调。具体而言作者假设可以访问一个预训练的VLA模型该模型能够从视觉输入(例如RGB 图像)和语言指令中编码高层次表征在有监督微调SFT过程中作者的目标是将适配为在目标任务上利用一小部分带标注的示范数据进行训练同时保持模型的通用特征提取能力形式上设为目标任务的一条轨迹则VLA模型的微调旨在求解其中可以是负对数似然NLL或均方误差MSE用于度量模型预测的动作与示范中的动作之间的差异该过程使得能够在机器人任务中高效利用压缩的知识同时将VLA 模型引导到下游环境中由于示范往往是有限的、不一致的且次优的从而使得策略无法覆盖多样的状态SFT 在真实世界、富接触的机器人任务中表现不佳为了解决这些问题作者将每个机器人任务形式化为一个马尔可夫决策过程(MDP)其中RL 的目标是在MDP 中找到最优策略其中表示状态空间表示动作空间是依赖于系统动力学的环境转移概率而表示初始状态分布和分别为奖励函数和奖励折扣因子策略通过最大化奖励的累积期望值进行估计表示为给定策略π 的Q 函数记为其中表示一条轨迹的最大episode 步长通过将VLA 策略与学习到的Q 函数耦合RFT 使VLA 模型能够基于试错交互和任务特定反馈来优化其行为1.2 ConRFT的完整方法论先离线微调后在线微调所提出的 ConRFT 流水线由两个阶段组成先进行离线微调然后进行在线微调以优化机器人策略如图1所示上图展示了用于预训练 VLA 模型的强化微调方法的整体架构该方法包含两个阶段离线的 Cal-ConRFT 和在线的 HIL-ConRFT。两个阶段都使用统一的基于一致性的训练目标在离线阶段仅利用预先收集的示教数据进行微调在在线阶段人类操作员可以通过遥操作工具例如 SpaceMouse介入机器人策略。作者在微调中同时使用预先收集的示范数据、策略执行产生的状态转移以及人类干预数据1.2.1 阶段一使用 Cal-ConRFT 进行离线微调由于预训练的VLA 模型通常缺乏对新颖机器人配置的零样本泛化能力在离线阶段作者专注于在转入在线强化学习之前使用一个小型、预先收集的离线数据集20-30次演示来训练策略作者使用预训练的VLA 模型来初始化强化学习中的策略从而减少探索负担和整体在线训练时间————鉴于有效利用离线数据的能力作者选择Calibrated Q-Learning(Cal-QL) [16]作为他们的基础离线RL 方法因为作者希望Q 函数对分布外OOD动作具有鲁棒性具体而言Cal-QL 通过减小时间差分TD误差以及一个额外的正则项在预先收集的数据集上训练Q 函数当前者超过参考策略的取值时该正则项会惩罚分布外动作的Q 值同时对离线数据集中出现过的动作补偿这种惩罚Cal-QL中用于训练评论家(critic)的目标函数为(定义为方程1)其中是由θ 参数化的已学习Q 函数是由参数化的延迟目标Q 函数是Bellman 备份算子是用于控制保守惩罚的超参数是存储示范的缓冲区示范然而尽管 Cal-QL 在利用离线数据集方面通常较为高效但当仅有少量示范数据例如 20–30 条可用时它在训练出一个有效策略方面会遇到困难。在这种情况下受限的状态覆盖会导致价值估计不准确从而使得策略难以推广到未见过的状态相比之下典型的离线强化学习数据集通常由多个行为策略收集能够提供更广泛的状态覆盖从而减少分布偏移由于缺乏这种广度单靠 Cal-QL 损失可能无法充分引导学习过程导致性能较差为了解决这个问题作者提出在离线训练过程中引入行为克隆BC损失BC损失直接最小化策略生成的动作与演示动作之间的差异。通过引入BC损失作者鼓励模型模仿演示中的行为在离线阶段为模型提供额外的监督信号这有助于VLA模型学习更有效的策略并在仅有少量演示的情况下初始化一个稳定的Q函数尤其是在控制精度至关重要的高接触操作任务中受将BC损失与Q引导结合于一致性目标[18即CPQL-Boosting continuous control with consistency policy]的启发作者在离线阶段引入了Cal-ConRFT该方法采用一致性策略作为动作头对VLA模型进行微调旨在解决两个关键问题有助于利用预先收集数据中常见的不一致和次优演示与基于扩散的动作头相比基于一致性的动作头在推理过程中依然保持计算上的轻量高效[18, 44, 45]一致性策略是一种基于扩散模型的策略[46-Stabilizing diffusion model for robotic control with dynamic programming and transition feasibility]它学习将从单位高斯分布中采样的随机动作映射为在当前状态下由专家动作分布生成的动作对于一致性策略作者将扩散区间离散化为个子区间其边界为且具体而言带有一致性策略作为动作头的VLA 模型表示为(定义为方程2)其中表示以为参数的一致性策略下标表示扩散步数而表示以为参数的预训练VLA 模型的编码状态用于VLA 模型微调的一致性训练目标如下(定义为方程3)其中BC 损失,,表示欧氏距离而Q损失和是用于平衡BC 损失和Q损失的两个超参数这种组合能够实现高效的策略学习和稳定的价值估计即使在只有少量示范的情况下通过使价值估计与专家动作对齐并在离线训练期间提升策略性能此外它为在线阶段提供了可靠的初始化从而促进了安全且有效的探索ConRFT 的完整流程如算法 1 所示1.2.2 第二阶段利用 HIL-ConRFT 进行在线微调虽然离线阶段通过一小部分示范数据提供了初始策略但其性能受限于预先收集的示范的范围和质量因此作者引入了带有HIL-ConRFT 的在线阶段在该阶段中VLA 模型通过一致性策略与真实环境交互从而在在线过程中进一步微调在在线训练过程中离线阶段的示范缓冲区被保留此外作者还设置了一个回放缓冲区用于存储在线数据然后实现对称采样[27]即对于每个批次从这两个缓冲区中均匀采样以组成每个训练批次这个流程和HIL-SERL是一致的由于VLA 模型会根据当前策略不断收集新的转移数据分布会随着策略自然演化。这种持续的交互减少了离线阶段面临的分布转移问题因此作者对在线评论者的更新使用了标准的Q 损失(定义为方程4)VLA 模型微调的一致性训练目标如下所示(定义为方程5)其中BC loss,,表示欧氏距离而Q损失请注意上述方程5的目标与离线阶段的方程3 高度相似使得能够快速适应在线微调用于VLA 模型微调的一致性训练目标如下(定义为方程3)其中BC 损失,,表示欧氏距离而Q损失和是用于平衡BC 损失和Q损失的两个超参数通常在在线阶段作者会减少BC 损失权重同时增加Q 损失权重但作者保持BC损失有两个主要原因首先它确保策略持续与示范数据保持一致防止出现剧烈偏离从而避免性能崩溃。这对于保持接触丰富操作任务中动作的质量非常重要因为策略的突然变化可能导致不安全或低效的行为其次由于强化学习本质上涉及探索在高维状态-动作空间中容易变得不稳定。通过对探索过程提供稳定作用[48]BC损失防止策略过度偏离其离线基线从而降低出现低效或不安全行为的风险这一方面在真实世界的机器人训练中尤为重要尤其是在物理环境下不安全的动作可能导致损坏或其他危险此外作者通过人类在环学习Human-in-the-LoopHIL将人为干预集成到在线阶段具体而言HIL 学习允许人类操作员在探索过程中及时进行干预提供纠正性操作从而接管机器人对VLA 模型的控制这些人工修正被添加到演示缓冲区D 中提供高层次的指导使探索朝着更安全、更高效的方向发展[49]。当机器人出现破坏性行为如碰撞障碍物、施加过大力量或破坏环境时人为干预是必不可少的除了确保安全探索外人为干预还加快了策略的收敛速度。在策略将机器人引入不可恢复或不理想状态或当机器人陷入局部最优且在没有外部协助的情况下需要大量时间和步骤才能克服时人类操作员可以介入纠正机器人的行为并引导其朝着更安全、更有效的方向发展这样可以实现稳定的学习过程使VLA 模型的微调比单靠自主探索更快、更安全1.3 实验与结果1.3.1 实验概述实验旨在评估他们方法在实际场景中对VLA模型微调的有效性和效率为此作者在八项多样化的操作任务上进行了真实环境实验如图2所示这些任务涵盖了多种操作挑战包括物体放置任务如将面包放入烤面包机和将面包放在白色盘子上精确且接触丰富的操作如对齐并将轮子插入椅子底座以及动态物体处理(如悬挂中国结)为了验证他们的微调方法作者选择了Octo-small模型[47]该模型在性能与推理效率之间具有良好平衡并在7自由度的Franka Emika机械臂上采用一致性策略[45]作为动作头对于所有任务状态观测包括来自腕部摄像头的两张RGB 图像128 × 128和侧面摄像头256 × 256结合机器人手臂的本体状态包括末端执行器的位姿、扭转、力/力矩以及夹爪状态动作空间被定义为下游阻抗控制器的6 维末端执行器增量位姿或对于涉及抓取的任务额外包括1 维二元夹爪动作的7 维目标数据采集和策略以10Hz 的频率下达动作在训练之前从人类操作员收集正负示范以训练一个二元分类器为每个任务提供该任务是否成功完成的二元反馈此外每个任务的初始状态通过脚本化的机器人运动或人类操作员手动复位进行随机化作者在真实环境实验中给出了每个任务的描述并在附录B 中提供了有关实验任务、训练和评估流程的更多细节1.3.2 实验结果本节将展示所有任务的实验结果如图2所示针对每个任务作者在表I中报告了结果指标包括成功率、回合长度和总训练时间。训练时间涵盖了脚本动作执行、策略回放以及板载计算的持续时间所有实验均在NVIDIA RTX A6000 GPU上完成在离线阶段作者对比了Cal-ConRFT和SFT其中SFT采用NLL损失进行行为克隆[47]在在线阶段我们将HIL-ConRFT与多个基线方法进行了对比包括HG-DAgger[19-HG-DAgger: interactive imitation learning with human experts]该方法通过引入人工修正并采用监督学习微调策略PA-RL[14-Policy agnostic RL: offline RL and online RL fine-tuning of any class and backbone]该方法通过策略无关的Q函数优化动作并利用优化后的动作通过监督学习微调策略且作者还比较了HIL-SERL[20]该方法从零开始通过人工干预训练RL策略以及RLDG[6]该方法利用RL策略收集的演示结合SFT[47]对VLA模型进行微调首先1ConRFT优于监督学习方法作者在表I中比较了不同的监督学习与强化学习方法并在图3中展示了相应的在线学习曲线。他们宣称他们的方法ConRFT在所有任务中实现了最高的平均成功率在45到90分钟的真实环境训练后平均成功率达到96.3%比监督学习基线提升了144%它优于当前最先进的方法如HG-DAgger和PA-RL后者的平均成功率分别为65%和71.3%HG-DAgger虽然通过人类修正以监督学习方式微调VLA模型但由于人类修正存在次优性和不一致性未能实现显著的策略提升甚至在某些任务上出现性能下降。例如在需要精确、细致操作的高接触任务如插轮和挂中国结中HG-DAgger在在线微调后策略提升有限具体来说在挂中国结任务中对柔性物体的精细操作需要持续且精确的控制。人类修正中固有的变化性如插入角度的差异会为训练过程引入噪声和冲突信息这种不一致性阻碍了策略对精确灵巧行为的学习此外接触动力学的复杂性导致策略的微小偏差也会引起显著的性能下降进一步加剧了不一致人类修正带来的挑战在没有人工纠正的情况下PA-RL提供了一种通过 Cal-QL 训练的与策略无关的 Q 函数进行直接动作优化PA-RL 通过基于奖励信号优化动作克服了人为纠正的次优性并在诸如“取香蕉”和“放勺子”等简单任务中展现出更稳定的策略提升然而在需要精确、细致操作的高接触任务如“插轮子”中PA-RL 未能提升策略性能。在“插轮子”任务中精确对齐和受控插入力至关重要然而由于演示缓冲区和回放缓冲区中的状态覆盖有限与策略无关的 Q 函数难以有效泛化到不同的轮子和槽位位置。这限制了策略处理插入所需微小状态转变的能力导致在复杂操作场景下表现次优因此尽管PA-RL 在简单环境中展现出一定潜力但在需要高精度和灵巧性的复杂任务中仍难以扩展作者认为这些观察结果突显了他们所提出方法的优势该方法能够有效缓解因人为修正不一致和强化学习状态覆盖有限所带来的问题而ConRFT能够高效且安全地探索广泛的状态空间并利用任务特定奖励直接优化策略从而展现出较高的样本效率并减轻了人为修正不一致所带来的影响。这种稳定性和性能进一步证明了他们方法在克服现有微调方法在实际机器人应用中的局限性方面的有效性此外评估策略性能的另一个关键指标是回合长度它表示策略完成任务所需的总步数。如表 I 所示经过 HIL-ConRFT 微调的 VLA 模型平均回合长度为 30.7 步比离线基线短 1.9 倍相比之下HG-DAgger 的平均回合长度为 56.3 步仅比离线基线短 1.1 倍同样PA-RL 的平均回合长度为 51.1 步。由于其策略无关的 Q 函数具有保守特性缺乏策略探索能力因此无法有效优化完成任务的速度或尝试更高效的行为其次2微调VLA优于从零开始训练从零开始的强化学习通常需要大量与环境的交互和频繁的人为干预这会导致训练过程冗长且安全风险较高例如HIL-SERL [20] 是一种通过强化学习从零开始并结合人为干预训练策略的方法在与他们方法相同的训练时间内未能收敛到有效的策略平均成功率仅为31.9%如表II所示图3中的学习曲线显示HIL-ConRFT在在线阶段能够持续提升策略性能虽然HIL-SERL最终也能获得最优策略但通常需要超过两小时的在线训练并且每个任务都需要更高频率的干预导致在探索过程中如与环境发生碰撞出现更多破坏性行为尤其是在训练初期相比之下从预训练的VLA模型出发并进行离线微调可以减少在线训练时间并提高样本效率。在离线初始化策略的基础上ConRFT加速了策略收敛并提升了最终性能因此通过一致性策略微调VLA模型使其能够比完全从零开始训练更快、更少干预地达到更高的成功率充分展示了在实际机器人应用中利用预训练VLA模型的优势最后3分析a) 为什么要从 Cal-ConRFT 微调而不是从 SFT或 Cal-QL 微调如表 I 所示作者观察到在离线阶段Cal-ConRFT 的性能与 SFT 基线相似这一现象引发了一个问题为什么在离线阶段要引入 Q 损失原因在于如果离线阶段仅依赖SFT微调后的策略虽然能从模仿学习中获益但在面对离线数据集中未覆盖的状态和动作时可能需要大量的在线微调而在离线阶段引入 Q损失可以让早期的 Q 值估计为策略改进提供初始值从而在在线微调时实现更快的适应这种方法有助于解决潜在偏差并确保更稳定的学习此外在演示样本较少的场景下作者发现仅依赖 Cal-QL 无法训练出有效的策略所有任务的成功率均为 0%数据的不足影响了策略对Q 值的准确估计导致离线阶段表现较弱且在线阶段的训练时间更长作者在两个具有代表性的任务上对比了从 Cal-ConRFT 和 SFT 基线出发的在线微调曲线以进一步探究引入 Q 损失的影响如图4 所示尽管两条曲线的初始成功率相近但从 SFT 基线训练时观察到更高的干预率表明 SFT 训练得到的策略在在线训练早期阶段存在严重的策略遗忘现象这表明Cal-ConRFT 在离线阶段利用 Q 损失能够加快在线学习过程的适应速度使得仅用少量演示数据即可实现更有效且更稳定的策略改进b增加演示次数是否提升SFT的策略表现通常在一次在45-60分钟的在线微调阶段策略大约收集了80到120条成功和失败的轨迹作者宣称为确保他们的方法与监督训练方法的公平对比他们进一步在三个具有代表性的任务上使用150条演示数据比较了Diffusion PolicyDP[50]和监督微调VLA [47]的训练效果这与他们方法所使用的演示数据总量保持一致此外作者还比较了RLDG [6]与利用RL策略收集的150条演示数据进行微调的表现。如表III所示尽管DP和SFT受益于更多的演示数据其成功率仍未能达到他们方法的表现尤其是在如插入轮子这类接触丰富的任务上这表明仅通过监督学习增加由人类收集的演示数据并不能保证性能提升因为人类演示数据中固有的不一致性和次优动作。同时RLDG利用由RL策略收集的最优数据获得了更高的成功率说明这些RL收集数据的一致性能够提升最终性能另一方面作者的方法直接通过优化基于一致性的训练目标对策略进行微调从而实现了最高的成功率cConRFT在多种VLA模型中的实用性ConRFT具有高度的通用性可以应用于任何基于VLM架构并带有动作头的模型。这种灵活性源于其能够独立于底层视觉编码器优化动作生成过程从而适配多种VLA框架为了进一步验证其适用性和泛化能力他们在RoboVLM [51]的微调实验中采用了两种不同的VLM主干结构如表IV所示结果表明ConRFT能够有效提升多种VLA的性能在多个机器人任务中提高成功率。这种在利用预训练视觉组件的同时微调动作生成能力凸显了ConRFT的广泛适用性1.4 局限性与结论尽管他们的方法在实际操作任务中对VLA模型进行微调时表现出较强的性能和样本效率但仍存在一些局限性1.4.1 对奖励工程的敏感性在本研究中作者实现了一个针对特定任务的二元分类器用于计算强化学习RL的奖励。然而分类器训练数据与强化学习探索过程中生成的状态-动作分布之间固有的分布偏移带来了关键的脆弱性因为这可能导致学习到的策略出现奖励操纵利用分类器提供不准确奖励的非预期行为例如机器人可能将末端执行器移动到某个特定位置从而触发误报导致策略收敛到错误的行为。由于这些奖励分类器通常只提供稀疏反馈即使有人工干预策略的学习速度依然可能较慢另一方面这种以奖励驱动的方法会产生高度专用的策略强烈依赖于任务的具体条件限制了其在新环境中的泛化能力虽然引入多任务密集奖励信号可以提升样本效率并加速策略收敛但这也对实际应用中的奖励工程提出了更高的复杂性要求1.4.2 冻结编码器与Transformer主干网络作者目前的实现将交互和策略学习过程分别在不同线程中运行仅对动作头网络进行一致性策略微调同时保持视觉编码器和Transformer主干网络冻结尽管这种设计选择提升了实时性能但也限制了策略在在线训练过程中对感知与表征模块的进一步优化能力尤其是在面对未见过的场景时。允许对这些冻结组件进行部分或全部更新例如采用参数高效微调技术如LoRA[52]有望在不牺牲安全性或速度的前提下提升最终任务性能与适应性总之作者提出了一种两阶段方法 ConRFT用于在实际机器人应用中对 VLA 模型进行强化微调首先通过少量演示进行离线微调Cal-ConRFT作者利用将 Q 损失与 BC 损失整合到一致性框架中的统一训练目标初始化了可靠的策略和价值函数随后在在线微调阶段HIL-ConRFT结合任务特定奖励和人工干预通过一致性策略对 VLA 模型进行微调针对八项不同实际任务的实验表明作者的方法在成功率、样本效率和回合长度方面均优于当前最先进方法。总体而言本工作展示了利用强化学习对 VLA 模型进行安全高效微调的实用方法// 待更