浙江大学让机器人“用眼睛思考“:比文字快22倍的视觉推理新方案

发布时间:2026/6/5 1:36:02

浙江大学让机器人“用眼睛思考“:比文字快22倍的视觉推理新方案 这项由浙江大学、康奈尔大学、新加坡国立大学及西安电子科技大学联合开展的研究以预印本形式发布于2026年5月28日论文编号为arXiv:2605.30011有兴趣深入探索的读者可以通过该编号查阅完整原文。机器人能不能像人一样看清楚再动手这个问题听起来简单背后却藏着工程师们长久以来的心结。当你把一块蛋糕递给朋友时你的大脑在零点几秒内完成了识别、定位、判断距离和预测路径这一整套动作完全不需要先在脑子里默念一段文字再行动。然而现有的机器人系统往往要么靠背台词——把推理过程转成一大段文字再输出动作结果慢得像在晚高峰堵车要么干脆跳过思考直接行动结果一遇到复杂场景就手足无措。浙大团队这篇论文提出的VisualThink-VLA走了一条完全不同的路让机器人用图像来想事情而不是用文字。一、机器人的思考之苦为什么越聪明越慢要理解这个问题得先弄清楚现代机器人大脑的工作方式。今天最先进的机器人策略叫做视觉-语言-行动模型Vision-Language-Action简称VLA可以理解为一个既能看图、又能读懂指令、还能控制手臂的综合大脑。你给它看一张厨房的照片再说把平底锅里的菠萝拿出来放到右下角它就会控制机械臂完成这个任务。这类系统已经相当厉害但面对一些复杂场景——比如桌子上摆了十几个东西、目标藏在角落里、或者需要连续完成好几步动作——它就容易出错。于是研究者们想了一个办法在行动之前让机器人先想一想生成一段推理过程再据此行动。这个想法本身没问题问题出在怎么想上。主流做法是让机器人用文字推理就像人在脑子里默念好我要先找到锅然后确认菠萝的位置然后判断右下角在哪里……。这种做法确实能提高准确率但代价极其高昂。生成文字是一个字一个字往外蹦的过程——术语叫自回归解码——速度很慢。ECoT这个代表性的文字推理方案每走一步需要8.377秒。对于需要实时响应的机器人来说这个数字就像让一名厨师每切一刀之前都要先写一篇分析报告根本没法实际操作。另一条路是给机器人额外加一堆视觉辅助信息比如深度图、分割图、空间关系图等等让它看得更全。但这条路有另一个麻烦信息太多同样是负担。把所有视觉通道的信息都塞给行动解码器就像给一个厨师同时展示食材照片、切割示意图、成品图、营养成分表和食谱历史——大部分信息在当前这一步根本用不上反而干扰了判断。浙大团队意识到真正需要的是一个恰到好处的视觉推理接口不啰嗦不冗余只在合适的时候提供恰好需要的那部分视觉信息。二、六条视觉线索通道给机器人装上选择性注意力VisualThink-VLA的核心思路可以用一个摄影师的比喻来理解。一个经验丰富的摄影师拍照时不会把镜头对准场景里的所有东西——他会根据主题选择性地聚焦拍人像时注意轮廓和表情拍运动时捕捉动态拍风景时考虑层次和距离。机器人推理也应该如此根据当前任务阶段只看最有用的那部分信息。为此研究团队设计了一套六通道的视觉证据库。每个通道就像摄影师镜头里的一个滤镜专门提取场景中的某一类信息。第一个通道叫BBox边界框负责告诉机器人目标在哪里——它用开放词汇检测工具Grounding DINO / OWL-ViT在图像中框出任务相关物体的位置和大致范围。第二个通道叫Edge边缘负责捕捉物体的轮廓和形状细节——用SAM2这个图像分割工具提取物体的边界线帮助机器人在抓取时精确判断接触点。第三个通道叫Motion运动负责总结上一时刻到现在场景里发生了什么变化——通过比较前后两帧图像的差异加上时序掩码传播技术把最近的动态信息压缩成一个紧凑的向量。第四个通道叫Relation关系负责编码与任务指令相关的空间几何关系——比如锅在平台的右边或者碗在盘子里面通过Qwen2.5-VL这个视觉语言模型解析指令中的空间关系词再用确定性渲染生成关系表示。第五个通道叫Depth深度提供单目深度估计给出场景的几何层次信息。第六个通道叫Segment分割用检测引导的SAM2掩码标注物体区域和场景划分。关键的一步发生在这六个通道建立之后研究团队通过大量实验发现Depth和Segment这两个通道在实际任务中几乎从不被选中带来的准确率提升微乎其微却增加了额外的计算开销和信息干扰风险。于是这两个通道被从日常工作集里剔除只保留BBox、Edge、Motion、Relation这四个通道作为标准工作集。这个通道筛选步骤本身就很有意思它说明并非所有看起来有用的信息都真的有用去掉干扰有时比增加信息更重要。三、任务自适应编排层聪明地按需取用有了四个视觉通道下一个问题是每一步行动时该用哪几个全部都用不是最好的选择因为有些通道在特定阶段根本不相关——机器人刚开始接近目标时运动信息几乎为零没有必要把它塞给决策模块。研究团队为此设计了一个任务自适应路由器它的工作就像一个经验丰富的调度员。每一步决策时路由器会根据当前观察图像、上一帧图像和任务指令预测每个证据通道的有用程度分数然后通过一个硬化操作把软分数转换成0或1的二元选择——用或不用干净利落。被选中的通道其视觉信息会被送入下一环节没被选中的通道完全不参与计算。这就是系统效率的核心来源不是所有通道都要跑只跑当前有用的那几个。从实验数据来看路由器平均每步只选2.22个通道。换句话说机器人在大多数时候只用两个视觉线索就够了而不是全部四个。这个数字不是人为设定的上限而是路由器自己学出来的结果说明系统确实学会了按需索取。四、视觉状态合成器把选出来的线索注入大脑选好通道之后这些视觉证据需要以某种形式传递给机器人的行动决策大脑。传统方式是把辅助图像直接拼接到输入里但那样会增加序列长度、拖慢速度。VisualThink-VLA采用了一种更轻量的方式通过视觉状态合成器Visual State Composer把路由选出的通道向量投影成一小组软状态令牌soft state tokens。这些软状态令牌可以理解为经过浓缩的视觉摘要——它们不是完整的图像而是从图像中提炼出的、与任务最相关的视觉特征以学习到的紧凑表示形式存在。这些令牌会被插入到冻结的VLA主干模型OpenVLA一个70亿参数的视觉语言行动模型的输入序列中就像在演员上台前给他递一张提示卡——不是让他重新排练整出戏只是点醒他当前场景的关键信息。而VLA主干模型本身的参数完全不动这意味着VisualThink-VLA可以作为一个即插即用的模块嵌入任何现有VLA系统而不需要重新训练整个大模型。五、软硬协作训练与师生蒸馏让稀疏路由既准又稳纯粹的硬路由要么全选要么全不选在训练时很脆弱因为梯度无法通过离散的0/1选择反向传播。研究团队采用了一种混合路由掩码策略来解决这个问题在训练时最终使用的掩码是硬掩码和软分数的加权混合混合比例中软分数占35%。这样训练时的梯度可以流动模型能够学习推理时则切换为纯硬掩码保证高效的稀疏选择。为了让稀疏路由继承密集证据的性能优势系统还引入了师生蒸馏机制先训练一个全软教师模型FullSoft它每次都使用全部四个通道因此性能最强再让稀疏路由的学生模型通过知识蒸馏向教师学习目标是在用更少通道的前提下尽量逼近教师的行动预测分布。这个过程用了动态损失函数结合了动作预测损失和KL散度蒸馏损失温度参数设为1.5蒸馏权重0.2。最终的训练目标还加上了来自VisualEvidence-Set的路由监督损失三项合一共同优化。六、VisualEvidence-Kit给视觉思考建一套审计档案以上这些机制回答了怎么做的问题但还有一个更深层的问题没有解决机器人真的在用它声称在用的视觉证据做决策吗还是它只是在走形式实际上根本没依赖路由出来的通道为了回答这个问题研究团队构建了一套叫做VisualEvidence-Kit的监督与审计资源其核心是一个VisualEvidence-Agent视觉证据代理。这个代理会处理机器人操作的原始视频帧和轨迹数据通过四个步骤生成结构化的路由监督数据。第一步是证据提取对每个决策时刻运行全部六个通道的提取器生成一份特征清单。第二步是路由与效用评估通过反事实分析——比如如果去掉Motion通道成功率会下降多少——为每个通道标注其实际效用形成通道级别的路由目标和效用排名。第三步是轨迹构建把操作阶段接近、抓取、放置等、动作类型抓、放、推、关闭……、证据依赖关系、难度等级和选定通道记录成一份结构化的通道级别轨迹而不是一段自由文字。第四步是人工审核实验室学生对生成的记录进行一致性检查和质量过滤剔除不可靠的标签。最终形成的VisualEvidence-Set包含754,700条视觉推理VLA指令覆盖真实世界操作、仿真环境、长时序任务和真实机器人场景四大类涵盖四个操作阶段、八种动作类型、六种证据通道和五个难度等级。这个数据集分为三个子集Full-Clean用于宽泛的统计和加权训练HQ-Trace保留高质量的结构化轨迹用于精细化监督Gold-Faithfulness是最严格的子集754,700条高可靠性指令专门用于反事实可信度审计实验。七、实验结果数字背后的故事研究团队在多个公开机器人学习基准上对VisualThink-VLA进行了全面测试包括BridgeData V2真实厨房和桌面场景、Fractal谷歌的真实机器人操作数据集、RoboTurk众包操作数据、LIBERO系列四个仿真子集物体、目标、空间、长时序以及UT Austin MUTEX多模态任务规范。在所有参与比较的方法中VisualThink-VLA在八个基准中的七个上取得了最高成功率整体平均成功率达到92.63%。最能说明问题的对比发生在延迟这个维度使用文字推理的ECoT在BridgeData V2上每步需要8.377秒而VisualThink-VLA只需0.367秒——速度提升了22.8倍与此同时成功率还从85.09%提升到了89.49%。这个结果意味着视觉推理不仅更快还更准。与密集证据的教师模型FullSoft相比VisualThink-VLA在平均成功率上略高90.10% vs 89.83%而平均延迟更低0.395秒 vs 0.470秒。这说明稀疏路由并没有损失密集证据的大部分优势反而因为过滤掉了冗余信息在某些场景下表现得更好。在真实机器人实验中测试平台是一台PIPER NERO 7自由度机械臂搭载固定外置RGB摄像头每个任务测试50次。四类任务分别是多物体拾放桌上有干扰物需要定位目标、关系敏感放置需要理解放到杯子左边这样的指令、接触敏感重定向抓住杯子并翻转扶正和两阶段复合任务先移动物体到抽屉区域再开抽屉完成放置。VisualThink-VLA在四类任务中有三类超过FullSoft整体平均完成时间25.6秒 vs FullSoft的30.2秒且平均只选用1.83个通道。从路由器的阶段性选择模式来看实验结果非常直观接近阶段BBox通道被选中的概率高达76.1%因为这时候最重要的是找到目标在哪里抓取阶段Motion通道跃升至87%Edge通道达到90.2%因为这时候需要精确的接触信息和动态反馈放置阶段Relation通道占78.9%因为需要判断目标位置与终点的几何关系。路由器不是随机选择也不是固定偏好某个通道而是真实地随任务阶段变化说明系统学到了真正有意义的推理逻辑。八、消融实验哪些组件真的重要研究团队还做了一系列拆零件实验来验证每个设计选择的必要性。在通道重要性测试中分别去掉四个通道中的某一个然后看成功率如何变化。在BridgeData V2上去掉Motion造成最大下降5.33个百分点去掉Relation下降5.05个百分点去掉Edge下降3.55个百分点去掉BBox下降2.98个百分点。在LIBERO-Long上去掉Edge造成最大下降4.77个百分点去掉Relation下降3.90个百分点。不同任务对不同通道的依赖程度各有侧重说明四个通道是互补的没有哪一个可以独当一面。在训练方案对比中纯硬路由直接用0/1掩码在BridgeData V2上成功率只有82.86%加上软硬混合后提升到84.19%再加上教师蒸馏进一步提升到89.46%。这个递进式的提升清楚地说明了每个训练机制的独立贡献。在路由与轨迹监督的消融实验中去掉路由监督会导致路由对齐度从0.929下降到0.758去掉轨迹监督则使效用提及度从0.984下降到0.738而如果把结构化的通道级别目标替换成自由文字描述路由对齐度会暴跌至0.052效用提及度跌至0.039整体成功率也下降近5个百分点。这组数据清楚地表明让机器人推理可信赖靠的不是让它说一段好听的解释而是给它提供结构化的、可验证的证据目标。九、可移植性不止能用在一个机器人大脑上VisualThink-VLA并非专门为OpenVLA定制。研究团队在另外两个完全不同的VLA系统上进行了测试Octo一个通用机器人策略框架和SmolVLA一个轻量级、低成本的机器人视觉语言行动模型。结果显示加上VisualThink-VLA之后OpenVLA的测试集成功率从76.26%提升到92.63%16.37个百分点Octo从49.52%提升到60.39%10.87个百分点SmolVLA从42.73%提升到54.68%11.95个百分点。三个系统都有显著提升延迟增加都控制在0.1秒以内验证了这个视觉推理模块的通用性。归根结底VisualThink-VLA做的事情可以用一句话概括它让机器人学会了看关键点想关键事做关键动——用最少的视觉信息在最短的时间内做出最准确的决策。这条路和人类的直觉推理更接近也更适合实时控制的实际需求。研究的局限性也很诚实地摆在那里目前的视觉通道只覆盖了视觉感知触觉反馈、力传感、声音信号以及更长时序的记忆都还没有纳入进来。测试场景也相对集中在桌面操作任务更复杂的工作空间、更多样的机器人形态、更长的任务链还需要进一步验证。不过对于一个让机器人从先写文章再干活进化到边看边想边干的系统框架来说这已经是一个相当扎实的起点。对机器人感兴趣的读者可以通过arXiv编号2605.30011找到完整原文和代码仓库亲手看看这套系统是如何把视觉思考落地成工程实现的。QAQ1VisualThink-VLA比ECoT快22倍是怎么做到的AECoT在行动前要生成一段文字推理文字是一个字一个字依次生成的速度很慢每步需要约8秒。VisualThink-VLA改用视觉证据令牌不生成文字只提取图像中的关键特征压缩成紧凑向量直接注入行动决策模块每步只需约0.37秒因此实现了22.8倍的加速。Q2VisualEvidence-Set的754,700条数据是怎么生成的A通过VisualEvidence-Agent自动处理机器人操作视频对每个决策时刻运行六个视觉通道的提取器再做反事实分析评估每个通道的实际效用生成结构化的路由标签和轨迹记录最后经过人工审核过滤掉不可靠的标签最终形成这批数据。Q3VisualThink-VLA能用在其他机器人上吗不只是OpenVLAA可以。研究团队在Octo和SmolVLA两个完全不同的机器人系统上测试过成功率分别提升了10.87和11.95个百分点延迟增加控制在0.1秒以内证明这个视觉推理模块可以作为通用插件用于不同的VLA系统。

相关新闻