
这项由四川大学牵头联合西安交通大学、中国电信TeleAI和北京大学共同完成的研究以预印本形式发布于2026年6月论文编号为arXiv:2606.25319。感兴趣的读者可以通过这个编号在arXiv平台检索到完整论文。说到底教会AI看图说话并不难但要让AI真正懂得看哪里却是个相当棘手的问题。当你拿着一张复杂的街景照片问AI图中右下角那个路牌写的是什么你会希望AI不只是模糊地扫一眼整张图而是精准地把注意力集中到那块小小的路牌上。这种能力研究者们称之为细粒度视觉推理——也就是让AI在视觉信息中精准定位关键细节而不是对整张图做笼统理解。然而让AI掌握这种能力代价通常极为高昂。现有的主流方法大致分为两类。一类是有监督微调也就是给AI看海量带有标准答案的图文样本让它对着答案死记硬背。这种方式效果不错但准备这些标注数据需要大量人工而且AI在学完新知识之后往往会忘掉它原本就会的东西出现所谓的灾难性遗忘。另一类是强化学习让AI自己去试错用奖惩机制引导它找到正确行为。这种方式更灵活但需要事先设计好判断对错的规则而且训练过程耗费的计算资源极为惊人动辄需要数天的GPU算力。正是看到了这两条路的局限这支研究团队提出了一个核心问题有没有可能在既不需要大量标准答案标注、又不需要耗费巨大计算资源做强化学习的前提下让AI的视觉推理能力切实提升他们给出的答案就是本文的主角——V-Zero框架。一、老师与学生一种叫在线蒸馏的训练方式要理解V-Zero的核心思路先得了解它所依托的基础训练方式——在策略蒸馏On-Policy Distillation简称OPD。可以用一个老师教学生写作文的场景来理解这件事。假设有一位水平很高的老师教师模型和一位正在学习的学生学生模型。传统的有监督微调就好像老师给学生一篇篇范文让学生照着抄直到能模仿得像为止。强化学习则像是给学生布置题目学生自己摸索着写写得好就给红花写得差就扣分。而在策略蒸馏走的是另一条路学生自己先写一篇作文然后把这篇作文的每一个句子都拿给老师看让老师逐字逐句地告诉学生在这句话之后你应该怎么接。老师给出的意见是基于学生实际写出来的内容而不是预设的标准答案。这样一来老师的指导始终贴近学生真实的思路既精准又高效。这种方式的好处是显而易见的老师的反馈非常密集几乎覆盖了学生写作的每一步同时因为老师是在纠正学生实际犯的错误而不是让学生死记硬背范文所以学生原有的能力不容易被破坏。研究团队对这种方式做了一次深刻的理论梳理他们发现OPD本质上可以理解为一种无负例的停梯度对齐——听起来很晦涩但背后的意思其实很直观老师和学生各自持有对同一个问题的判断训练的目标就是让学生的判断向老师的判断靠拢整个过程中老师的判断是固定的参照只有学生在主动调整。停梯度意味着老师只做参照不受学生影响无负例则意味着这个对齐过程没有明确的反面案例来告诉学生哪条路是错的。正是这个无负例的特点暗藏了一个重要的缺陷。二、一个被忽视的漏洞写完整篇才知道跑偏了回到那个写作文的类比。如果学生在写第二段时就跑偏了——比如把一道关于交通安全的题目写成了旅游攻略——那么老师纵然逐句纠正改的也是这篇跑偏作文里的每一个句子而不是在整体层面告诉学生这整篇文章方向就错了。老师能做的是让这篇错误的作文写得更流畅但无法阻止学生继续在错误方向上越走越远。这就是标准OPD的核心局限它在单个词语、单个句子的层面提供了极其密集的纠正但缺乏一种机制来评估整篇文章也就是整条推理链路是否走在正确的轨道上。研究团队把这个问题称为缺少轨迹级别的判别能力。对于视觉推理来说这个问题尤其棘手。如果AI在开始推理时就没有把注意力放到图片的关键区域后续哪怕每一步推理都很流畅最终也可能给出错误的答案而老师模型并没有一种简便的方式来告诉学生你这整条思路都是因为看错了地方。V-Zero的设计就是为了填上这个漏洞。三、正面图和反面图用对比来判断推理的质量V-Zero的核心创新可以用一个非常直觉性的比喻来理解考官出题时不只给一张图而是同时给出一张有用的局部图和一张无关的局部图然后看AI的推理是否真的依赖了有用的那部分视觉信息。具体来说在V-Zero的训练流程中每道题都准备了三类视觉输入。第一类是完整的原图这是学生模型平时看到的输入第二类是正向证据视图也就是从原图中裁剪出与问题直接相关的区域比如如果问题是路牌上写的什么正向证据视图就是路牌那一小块区域的放大图第三类是负向证据视图做法是先将原图缩小为原来的一半然后从不包含路牌的区域随机截取一块同等大小的图片。学生模型只看完整原图自己生成推理文字。完成推理之后老师模型会回放这段推理但分别在三种不同的视觉条件下计算每个推理步骤的可信度。如果老师模型在看到正向证据路牌区域时对这段推理中每个词的预测概率比看到负向证据无关区域时高得多就说明这段推理确实依赖了正确的视觉证据推理是有根据的。如果两者差别不大则说明这段推理可能没有真正利用到关键的视觉信息质量存疑。这个差值就是所谓的对比证据门控信号。对于同一道题学生模型会生成一组比如8条并行的推理链路研究团队称之为兄弟推理。每条推理链路都会得到一个基于正负视图对比的可信度分数然后在这组分数内部做归一化处理判断哪条链路比其他兄弟链路更有视觉依据。分数高的链路会在蒸馏训练中获得更大的权重也就是说老师模型会更努力地去纠正和引导这条推理分数低的链路则会被相应地降低权重避免学生模型在错误的基础上越走越远。而蒸馏的目标始终是正向证据老师——也就是看到了关键区域的老师给出的指引而不是看到无关区域的老师。负向视图只用于打分不参与最终的学习目标。整个过程完全不需要人工标注的文字答案。唯一需要准备的额外信息就是训练数据中每道题对应的关键区域是哪里这可以通过视觉标注工具以相对低廉的成本获得而不需要逐道题准备正确答案文字。四、训练流程一套精妙的流水线整个V-Zero的训练算法是这样运转的。每一轮训练先从训练数据集中取出一小批题目对于每道题学生模型基于完整原图生成一组推理答案。与此同时数据集中已经准备好了该题对应的关键区域裁剪正向证据并按照前述方法生成了随机的负向证据裁剪。接下来对于每道题的每条推理链路分别计算老师模型在正向证据和负向证据条件下对推理内容中每个词的预测概率相减得到每个词的证据差值再对整条链路的所有词求平均得到这条链路的证据分数。对同一道题的所有推理链路的证据分数进行组内归一化得到每条链路的证据优势值再通过一个截断操作将其转化为介于0到2之间的非负权重。最后以这些权重对所有链路的正向蒸馏损失做加权平均通过梯度下降更新学生模型的参数。如此反复训练60步后得到最终的模型。值得一提的是V-Zero在推理阶段完全不需要任何额外操作。学生模型依然只接收完整原图和问题按普通方式生成答案不需要调用任何外部工具或执行任何裁剪操作。所有看局部区域的能力都在训练过程中内化到了模型参数里。五、实验结果数字背后的故事研究团队在多个细粒度视觉推理基准测试上对V-Zero进行了系统评估基础模型选用了阿里巴巴的Qwen3.5-4B教师模型选用Qwen3.5-27B。在视觉推理能力的测试上V-Zero相比Qwen3.5-4B基础模型在VStar测试集上提升了4.7个百分点在HR-4K超高分辨率4K图像理解上提升了3.4个点在HR-8K上提升了2.5个点在ZoomBench需要精准定位小目标的测试上提升了5.6个点。这四项测试的平均分从75.3分提升到了79.2分进步幅度超过了3个点。更有说服力的是与其他专门针对视觉推理进行优化的方法的比较。DeepEyes、Pixel Reasoner、Thyme等系统都是通过强化学习来提升视觉推理能力它们使用了7B参数量的模型但在HR-4K和HR-8K等测试上的成绩均低于使用4B参数模型的V-Zero。ZwZZooming without Zooming是与V-Zero最具可比性的方法同样基于Qwen3系列模型采用有监督微调方式在其4B版本中HR-4K为82.1、HR-8K为79.6而V-Zero在HR-4K达到87.8、HR-8K达到82.6且在ZoomBench上以57.8对52.5大幅领先。在衡量泛化能力的MMStar测试上V-Zero以74.4分超过了ZwZ的71.1分说明V-Zero在提升视觉推理能力的同时没有损失通用理解能力。训练效率方面V-Zero仅使用8块RTX PRO 6000显卡训练约4.8小时而ZwZ在8块H100显卡上需要约1天DeepEyes则需要约2天。考虑到RTX PRO 6000的BF16计算吞吐量弱于H100实际的计算量差距只会更大。研究团队因此保守估计V-Zero比有监督微调方法快5倍以上比强化学习方法快10倍以上。六、拆解验证每个设计都有必要吗研究团队还做了一系列对照实验验证V-Zero各个设计决策的必要性。在证据门控机制的消融实验中对照方案包括完全去掉门控和用随机证据替代有意义的正负视图对。去掉门控后四项视觉推理测试的平均分从79.2下降到78.0用随机证据替代后平均分更大幅下滑到72.5甚至低于完全去掉门控的情况。这说明不仅证据门控机制本身有价值而且对比的视觉证据必须是有意义的——随机的对比不仅没有帮助反而会给学习引入噪声。在教师模型规模的实验中团队对比了9B和27B两种规模的教师。使用27B教师的整体表现更好尤其在HR-4K87.8对87.3和ZoomBench57.7对54.8上优势明显说明更大的教师模型能提供质量更高的视觉推理引导。在并行推理链路数量的实验中将每道题生成的兄弟推理链路从4条增加到8条四项测试的平均分从78.1提升到79.2在ZoomBench上的提升尤为显著54.1对57.7。这说明组内推理链路越多对比证据门控的判别依据越充分尤其是在需要精准定位小目标的任务上效果更明显。在训练步数的实验中模型在经过一定训练后整体持续提升在第60步时达到最佳的79.2平均分但继续训练到第70步后性能略有下滑至77.8。不同子任务的性能峰值出现在不同训练步数这表明更长的训练可能在某些能力之间存在权衡取舍。七、AI的眼睛真的看对了地方吗除了数字上的验证研究团队还做了直观的注意力可视化分析展示了V-Zero与其他方法在处理细粒度推理题时模型眼睛究竟聚焦在图片的哪个位置。在一道关于图中右下角的装裱海报上写的是什么的题目中DeepEyes和ZwZ都没有在正确区域产生明显的注意力激活而V-Zero和Qwen3.5-4B基础模型都能覆盖到正确区域但V-Zero的激活强度更高说明它更确信地聚焦在了正确位置。在一道关于图中路牌显示的限速是多少的题目中V-Zero在路牌区域产生了所有对比方法中最强的注意力激活。在一道需要同时定位白色卡车和有轨电车并判断两者位置关系的题目中V-Zero是唯一一个同时在两个目标上都产生了清晰注意力高亮的方法其他方法要么只关注了一个目标要么两个都没有准确定位。这些可视化结果说明V-Zero的训练效果不只是反映在分数上的统计涨幅而是切实改变了模型处理视觉信息的方式让它真正学会了把注意力放到与问题相关的图片区域。说到底V-Zero做的事情是在不需要昂贵人工标注、不需要复杂强化学习机制的条件下用正确区域的图和随机区域的图这一对简单的训练信号教会了AI模型在视觉推理时真正看对地方。这项研究的意义不只在于某几个测试集上的数字提升更在于它表明视觉信息本身就可以作为训练信号——不一定非得告诉AI答案是什么只需要告诉AI关键的视觉依据在哪里AI就能自己学会如何推理。这对于实际应用的潜在影响是相当直接的。构建细粒度视觉理解系统的成本很大程度上来自于为每道题准备文字答案的标注工作。如果标注者只需要画出关键区域的边框而不需要逐道题写出参考答案准备训练数据的成本将大幅降低。与此同时V-Zero在保持训练效率极高不到5小时的同时模型的通用理解能力并未下降这意味着在实际部署中不需要担心为了改善一个能力而损害另一个能力的困境。当然这项工作也并非没有局限。V-Zero的训练数据来自ZwZ项目整理的2.3万条高质量样本训练中依然需要关键区域的标注信息只是不再需要文字答案。如何在完全无需任何人工标注的条件下实现同等效果依然是一个值得探索的开放问题。此外V-Zero当前的教师模型规模27B远大于学生模型4B在资源受限的环境下能否使用更小的教师模型保持同等效果也是未来值得研究的方向。有兴趣深入了解技术细节的读者可以通过arXiv编号2606.25319查阅完整论文代码和数据集也将在论文所附的GitHub仓库中公开发布。QAQ1V-Zero训练时需要准备什么数据AV-Zero训练不需要为每道题准备文字答案只需要准备原图、对应问题以及标注出图中与问题相关的关键区域边框。训练过程中系统会自动从关键区域裁剪正向证据图并从图片其他位置随机采样负向证据图。这两类图片只在训练阶段使用模型推理时只看完整原图。Q2V-Zero和强化学习方法相比优势在哪里AV-Zero的训练时间约为4.8小时而强化学习方法如DeepEyes需要约2天保守估计速度相差10倍以上。此外强化学习需要预先设计判断对错的规则对于开放性视觉问题很难精确定义V-Zero则用正负视觉证据对比来评估推理质量不依赖预设的答案验证规则。Q3V-Zero提升视觉推理能力会不会影响模型的其他能力A根据论文的实验结果V-Zero在MMStar通用多模态理解测试上的得分为74.4高于基础模型Qwen3.5-4B的71.8说明视觉推理能力的提升同时伴随了通用理解能力的小幅改善并未出现其他方法常见的灾难性遗忘现象即提升某项能力时损害了其他已有能力。