
这项由清华大学、西北工业大学和北京交通大学联合开展的研究以预印本形式于2026年5月25日发布在arXiv平台论文编号为arXiv:2605.25437v1。有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队提出了一个让很多人意想不到的问题当一台智能机器同时看到来自多个摄像头或传感器的画面时它真的会因为看到的更多而理解得更好吗答案并不总是肯定的。事实上在某些情况下给机器同时展示更多画面反而会让它比只看一张图时表现得更差。这项研究不仅发现了这个现象背后的根本原因还提出了一套名为MARS的解决方案能够让人工智能在面对来自不同传感器的复杂多源信息时真正做到看得多、懂得多。一、 多一双眼睛真的有帮助吗考虑这样一个场景夜里你走在一条昏暗的街道上普通摄像头拍出来的画面漆黑一片几乎什么都看不清。但如果换成红外热成像摄像头前方的行人会清晰地以亮白色轮廓显现出来。现在问题来了如果把这两路画面同时喂给一个智能视觉系统它会利用红外图像的优势准确识别出行人吗按理说信息越多越好。但研究团队发现现有的视觉推理模型在面对这种情况时往往会被清晰度更差的普通摄像头画面带偏导致最终判断错误而单独只给它看红外图像反而表现更好。这个现象并非个例而是在医学影像、自动驾驶、遥感卫星等大量真实应用场景中普遍存在的问题。问题的根源在于现有的智能推理框架在训练时有一个隐含的假设更多的图像意味着更多有用的信息它们应该互相补充、相互加分。但现实中不同传感器采集的图像在物理特性和语义内容上可能差异巨大比如红外图像捕捉的是热量分布深度图像记录的是距离信息普通RGB彩色图像捕捉的是人眼看到的颜色和纹理。这些信息之间不仅不总是互补有时还会互相干扰甚至矛盾。而现有的模型缺乏一种明确的机制来判断当前这张额外的图片到底是在帮我还是在添乱于是便陷入混乱。二、 强化学习让机器学会推理但也带来新麻烦要理解研究团队的解决思路需要先了解一种近年来让人工智能变得更聪明的训练方式——通过可验证奖励进行强化学习RLVR。这种方式有点像给一个学生批改作业每次他答对了就给一个正向反馈答错了就给负向反馈让他在反复练习中逐渐摸索出解题规律。DeepSeek-R1、Kimi等知名大模型都采用了类似的训练机制并由此展现出令人印象深刻的链式推理能力——也就是一步一步有逻辑地推导答案而不是直接猜测。然而当把这套训练方式用于多源视觉任务时麻烦出现了。在单一图像的情况下奖励信号比较清晰模型可以从中学到稳定的规律。但在多源情况下奖励信号来自多张图的共同输入如果其中某张图提供的信息与任务无关甚至产生干扰模型就很难分清哪个信息起了积极作用、哪个起了消极作用。现有方法在计算优势值一种衡量某次回答比平均水平好多少的指标时完全基于多源图像一起输入的结果没有任何参照基准来衡量某个单独的图像单独使用时能做到多好。于是模型被迫在一锅乱炖的奖励信号中学习效果可想而知。三、 单源锚点给多源融合装上一个比较基准研究团队提出的MARS框架核心思想可以用一个生动的类比来理解考试改卷时老师不仅看你本次答题的绝对分数还要看你这次的分数相比只用最好的单一参考资料时能提升多少这个提升量才是真正衡量多参考资料是否有价值的关键。在MARS中单源锚点扮演的就是这个参考基准的角色。具体做法是在训练时除了生成把所有图像一起输入的多源推理结果还分别生成只用单一图像比如只用红外图、或只用深度图的推理结果并记录它们各自的奖励分数。随后在计算优势值时不再只用多源结果之间的相互比较而是把单源结果的奖励分数也纳入进来共同构成一个混合统计量即把单源和多源的奖励放在一个池子里计算均值和方差然后用这个更有参照意义的统计量来规范化多源推理的优势值。这个操作乍看简单但效果却很关键。当多源融合的表现优于单源时由于均值被单源的较低分数拉低多源结果的优势值会被放大从而鼓励模型更积极地融合多源信息。相反当多源融合表现不如单源时均值被单源的较高分数抬高多源结果的优势值会被压低甚至变为负值向模型发出这次多源融合帮了倒忙应该抑制这种混乱融合的信号。更重要的是单源的推理结果并不参与模型参数的梯度更新只是作为统计参考不会改变多源策略的学习目标而是单纯地在规范化阶段发挥调节作用。四、 从数学角度看这个方法为何有效研究团队不只是凭直觉提出了这个方案还从理论上给出了严格的数学证明这里用最通俗的方式来解释这两个核心结论。第一个定理关于无偏性。通俗地说就是证明了MARS的这种计算方式从统计期望的角度看和标准的在线策略优化模型一边玩一边学等价不会引入系统性的偏差或错误方向。换句话说它没有因为引入单源锚点而走歪基本方向仍然正确。第二个定理更有意思叫做梯度分解定理。它揭示了MARS实际上在优化两件事一件是标准的多源推理奖励另一件是多源融合相对于单源的信息增益。具体来说模型的优化梯度可以分解为两个部分之和一部分是传统多源强化学习的梯度另一部分是与信息增益量成比例的额外梯度项这个信息增益量被定义为多源平均奖励减去单源平均奖励的差值。当差值为正多源更好这个额外梯度项推动模型更积极地利用多源融合当差值为负单源更好这个额外梯度项则反向发力抑制模型盲目融合多源信息的倾向。这就在数学层面保证了模型会动态地、有原则地权衡不同来源的信息而不是一刀切地认为更多图像总是有帮助的。五、 实验怎么做的又发现了什么研究团队在多个具有代表性的多源视觉数据集上进行了系统实验。数据集覆盖了四种典型场景用深度图与RGB图结合的空间理解任务SpatialQA数据集、用红外图与RGB图结合的低光照场景人物检测与视觉问答LLVIP数据集、来自自动驾驶的多视角摄像头理解nuScenes数据集以及包含文字的文档理解任务OCR-VQA数据集。基础模型选用的是Qwen2.5-VL-3B一个有30亿参数规模的视觉语言大模型。为了更全面地评估方法的价值研究团队设计了两种比较维度。一种是多源模式即把所有图像同时输入模型这是被测试的主要场景。另一种是单源联合模式即对每张图像单独推理取各个单源结果中最好的那个作为多源融合的理论上限来参照。实验结果揭示了几个令人深思的规律。第一在所有任务中单源联合模式取最好的单源结果都大幅优于朴素多源模式直接把所有图像一起喂给模型这一差距在某些任务中非常悬殊充分证明了看到更多并不等于理解更多这个核心问题的真实性。第二包括SFT监督微调和CoT思维链在内的有监督训练方法以及GRPO、DAPO这样的强化训练方法在多源模式下的表现都显著低于单源联合模式说明现有的主流方法都没能解决这一问题。第三加入MARS之后在GRPO基础上的多源推理平均准确率提升了3.2%在DAPO基础上的提升更是达到了4.9%而且在四个不同任务的数据集上均有提升具有一致性。单独来看红外检测任务上提升了3.8%多视角理解任务上提升了7.0%这两项提升尤为突出。与此同时单源联合模式的性能在加入MARS后也同步提升GRPO下提升了1.1%DAPO下提升了2.2%说明多源信息增益的学习对单源推理本身也有正向迁移效果。六、 细节验证这个方法到底稳不稳研究团队还做了一系列消融实验来验证方法的各个关键设计选择是否合理。关于单源样本数量的选择实验发现当单源样本数量从零逐渐增加时性能先提升后趋于饱和。数量太少时参照基准不够稳定数量太多时单源样本会主导统计计算反而削弱了多源信息的学习。研究团队最终选择每个视觉来源各生成一条单源样本与多源来源数量相等这在性能和稳定性之间取得了最佳平衡。关于计算效率研究团队将MARS与单纯增加多源轨迹数量的方案进行了对比。在同等或接近的GPU计算时间下MARS的性能大幅优于仅靠增加轨迹数量的方案。具体来说用MARS总轨迹数14份含12份多源加2份单源比用更多多源轨迹17份全多源能取得更高的性能计算开销却只是前者的约82%。这说明MARS的性能提升来源于方法本身的设计而不是简单堆砌更多的训练数据。关于奖励质量的变化研究团队比较了模型在训练前后的奖励统计数据。一个关键发现是MARS并没有明显提升多源推理的最好单次表现最大奖励而是显著提升了平均水平从1.49升至1.62并且也带动了单源推理的最大奖励从1.55升至1.63。这说明MARS真正起作用的地方在于让模型整体上更好地利用多源信息而不是靠随机探索碰到一些好的答案。关于视觉退化的鲁棒性研究团队还模拟了真实世界中常见的图像质量问题包括高斯噪声、运动模糊和遮挡对输入图像进行随机降质。实验结果显示MARS在所有退化类型下均保持了更好的性能在高斯噪声下仅下降0.5%在运动模糊和遮挡情况下甚至还额外提升了0.8%比基线方法高出1.3个百分点。这种鲁棒性来自MARS在优化时自动降低表现不佳的图像来源的贡献权重将注意力集中到更可靠的图像上。七、 模型在推理时是怎么想的为了直观展示MARS的效果研究团队还展示了模型推理过程的实际文本输出让我们能看到模型在两种训练方式下的内心独白有何不同。在红外图像辅助的目标检测任务中使用标准GRPO训练的模型看到RGB图像光线不足时只识别出了骑摩托车的人输出了一个人的边界框坐标。而使用MARS训练的模型则在推理过程中明确提到红外图像提供了更好的对比度并进一步注意到在红外图像中还有一个在普通摄像头下几乎不可见的站立行人最终输出了两个人的边界框坐标比前者更准确。在深度图辅助的视觉问答任务中场景是询问飞盘有没有离开男人的手。标准GRPO训练的模型看到深度图是一片白色说明没有有效的深度信息却因为过于依赖这个无效输入而变得犹豫不决最终错误地回答没有离开。而MARS训练的模型则主动识别出深度图无效这一情况在推理文本中明确写到在没有深度数据的情况下依据RGB图像的视觉证据飞盘的飞行轨迹可以判断飞盘已经离手并给出了正确的是的答案。这两个案例直观地展示了MARS赋予模型的能力主动识别哪个来源的信息更可靠并据此做出更准确的判断。八、 这个方法跟其他方法比还有哪些优势除了性能提升MARS还有几个工程层面的重要优势。它只需要一个策略模型不需要训练额外的参考模型或评估模型这与某些需要双模型的方法相比节省了相当的存储和计算资源。单源样本只参与统计计算不计算梯度因此额外的计算开销非常有限。整个方法以插件形式工作不需要修改GRPO或DAPO的核心训练逻辑只需在优势规范化这一步引入单源统计因此可以方便地接入任何基于群组强化学习的视觉推理框架。研究团队在3B和7B两种规模的模型上都进行了验证均取得了一致的性能提升说明该方法与模型大小无关有良好的可扩展性。说到底MARS回答的是一个看似简单却藏着深刻道理的问题多不一定好。在多源视觉推理这件事上关键不是塞给模型更多图像而是让模型真正理解每张图像到底在帮忙还是在添乱。MARS通过引入单源锚点这个简洁的机制让模型在训练时时刻保有一个如果只用最好的单一来源能做到多好的参照从而学会动态地权衡和筛选信息而不是盲目地混合一切。这对于真实世界中的自动驾驶、医疗影像分析、卫星遥感等大量依赖多传感器数据的应用场景都有实际的参考价值。当然目前这项工作主要在有限的几个数据集和模型规模上进行了验证未来在更大规模模型、更多样化的传感器组合以及更复杂推理任务上的表现仍然值得持续关注。这也引出了一个有趣的问题可以继续思考在人类自己处理多种感官信息时是否也存在类似的信息干扰问题我们的大脑又是如何自动筛选的呢有兴趣深入探索原始研究细节的读者可以在arXiv平台搜索编号arXiv:2605.25437v1找到完整论文。QAQ1多源视觉推理中单源锚点是什么意思有什么用A单源锚点是MARS方法中的核心设计指的是在训练时除了用所有图像一起输入模型以外还单独用每张图像分别做一次推理并记录得分。这个单源得分被用作参照基准帮助模型判断多张图一起用到底比单独用最好的那张有没有提升。如果多源融合表现更好模型会受到鼓励如果反而变差模型会受到抑制从而避免盲目融合。Q2MARS方法在哪些场景下会特别有效AMARS在那些不同来源的图像差异较大、且某一来源明显更关键的场景下效果最突出。典型的例子包括夜间的红外与普通摄像头融合、深度图与彩色图融合的空间理解、自动驾驶的多角度摄像头数据以及医疗影像中不同模态的融合。实验中在红外检测任务上提升了3.8%多视角理解任务上提升了7.0%。Q3MARS方法需要修改原有模型结构或增加额外模型吗A不需要。MARS只修改了训练过程中优势值规范化这一步的计算方式不改变模型结构也不需要额外训练参考模型。单源样本只用于统计计算不参与梯度更新因此额外的计算开销很小。它可以像插件一样接入GRPO、DAPO等主流强化学习框架具有很强的通用性。