浙大联合多校突破:全景图理解实现机器人导航与视觉搜索能力提升

发布时间:2026/5/21 20:54:10

浙大联合多校突破:全景图理解实现机器人导航与视觉搜索能力提升 这项由浙江大学、加州大学圣地亚哥分校、加州大学尔湾分校和香港大学联合开展的研究以预印本形式发布于2026年5月论文编号为arXiv:2605.13169感兴趣的读者可通过该编号查阅完整论文。**当AI只能管中窥豹时**你有没有试过在一个陌生的房间里蒙着眼睛只能通过一根细细的吸管向外看然后被要求回答椅子在桌子的哪边这种问题对于现在大多数视觉AI来说这就是它们每天面对的处境——它们看到的永远只是一个局部的窗口而不是完整的环境。现实世界里无论是家用机器人在房间里寻找落下的遥控器还是导航系统引导你在商场里找到出口抑或是安防摄像头判断人物的方位关系这些任务都需要AI对整个周围环境有完整的感知而不是只盯着正前方的一小块区域。正因如此360度全景摄像头成了一个极具潜力的感知工具——它可以一次性捕捉观察者四面八方的所有场景相当于给AI装上了千里眼。然而有了全景图还不够。研究团队发现当前几乎所有的视觉AI在处理全景图时都采用一种笨办法把一张完整的360度全景图切碎成好几张普通视角的小图然后一张一张地分析最后再拼凑结论。这就像你要了解一座城市的全貌却非要把一张完整的城市地图撕成几十张碎片一片一片地阅读——不仅麻烦还会丢失很多关于各个区域之间位置关系的关键信息。这支由浙江大学主导的研究团队决定从根本上改变这一局面。他们的目标是训练一个AI让它能够像人站在房间正中央环视四周一样直接理解一张完整的360度全景图——不切片、不拼凑一次性感知整个球形空间的所有内容并推理出各个物体的位置关系和三维空间结构。他们把这个能力称为全景原生理解并为此构建了一套完整的研究框架命名为PanoWorld。**一、普通相机和全景相机拍出来的图差别有多大**在深入了解PanoWorld是如何工作之前有必要先搞清楚全景图和普通图片之间的根本差异因为这是整个研究的出发点所在。普通照片对应的是人眼的视角你看向哪里就拍下那个方向的画面视野大概只有90度到120度。而360度全景图则是把观察者周围整个球形空间的光线压扁映射到一张矩形图片上——专业上叫做等矩形投影Equirectangular Projection简称ERP。可以用地球仪和世界地图的关系来理解地球仪是真实的球形而世界地图是把这个球形摊平后的结果。如果你仔细看世界地图会发现北极圈和南极圈附近的陆地被拉伸得很厉害——格陵兰岛看起来几乎和非洲一样大但实际上非洲是格陵兰的14倍。全景图也有同样的问题。在全景图中图片中间的水平区域对应观察者正前方和正后方的区域是相对准确的而图片的顶部和底部对应天花板和地板方向则会发生严重的拉伸变形。此外全景图的左边缘和右边缘在真实空间里其实是紧挨着的——它们都代表观察者的正后方——但在图片上却是分隔在两端的仿佛是两个不相关的区域。这些特性带来了一个大问题普通图片训练出来的AI其视觉理解能力是建立在图片上的位置关系等于真实空间中的位置关系这一假设上的。一旦换成全景图这个假设就不成立了。比如AI可能会认为全景图左侧边缘的物体和右侧边缘的物体距离很远但实际上它们背靠背近在咫尺。研究团队把AI从普通图片迁移到全景图时面临的这些挑战归结为三大鸿沟几何变形、非均匀空间采样、以及边界不连续性。要跨越这三道鸿沟光靠普通图片训练出来的AI是远远不够的。**二、一套专门训练空间超感知的能力体系**要让AI真正理解全景图首先需要明确理解意味着什么。研究团队并没有含糊其辞而是系统地将全景图理解能力分解为四个层次递进的核心能力家族就像学武功必须先扎马步、再练套路、最后融会贯通一样。第一个能力家族叫做语义锚定。这是最基础的能力——AI需要能够把语言描述和全景图中的视觉内容对应起来。比如你问房间里有沙发吗AI需要在360度的全景图中找到那个沙发并识别出它的类别、颜色、材质等属性信息。这是后续所有空间推理的基础没有这个能力AI连在讨论什么物体都搞不清楚。第二个能力家族叫做球面定位。这不是普通图片上的在图片左上角这种说法而是要用真正的球面坐标来描述位置偏航角左右方向从正前方的0度到左右各180度和俯仰角上下方向从正上方90度到正下方-90度。比如说桌子在偏航角45度、俯仰角-10度的方向——这才是全景图中真正有意义的位置描述方式。研究团队还要求AI能够给出球形视场角BFOV也就是一个物体在球面空间中占据的角度范围类似于确定一个物体的视觉大小。第三个能力家族叫做参考系变换。这是更高级的空间推理能力。假设AI站在房间中央看到沙发在它的正前方、电视在它的右手边。现在如果AI转身90度让沙发变成它的右手边那么电视现在在哪里这种在脑海中旋转视角后重新计算位置关系的能力对于机器人导航和人机交互至关重要。此外全景图左右边缘连通的环形连续性也需要AI专门理解——如果一个物体在全景图的右侧边缘附近那么紧邻它的物体可能出现在全景图的左侧边缘而不是图片中间某处。第四个能力家族叫做深度感知三维空间推理。仅仅知道方向还不够AI还需要判断谁更近、谁更远以及在三维空间中的上下、左右、前后关系。这需要AI从二维的全景图中恢复出三维空间结构的信息。这四个能力家族共同定义了一个完整的全景理解系统从这里有什么到它在哪个方向再到换个角度看它在哪里最后到它在三维空间中如何分布——层层递进缺一不可。**三、从原始全景图到带标注的知识库——数据工厂是如何运转的**有了明确的能力目标接下来的挑战就是如何收集足够多的训练数据来教会AI这四种能力这是整个研究中最耗费工程心血的部分。研究团队建立了一条精密的全景图数据生产流水线最终生产出了包含57万张高质量全景图的大规模数据集并为每张图生成了丰富的结构化标注信息。这条流水线分为四个主要环节每个环节都像工厂里的一道质检工序。原材料的来源非常多元一部分来自已有的全景图数据集比如真实室内场景的Realsee3D数据集包含24025张真实拍摄图和273451张合成图一部分来自网络爬取的室外全景图一部分来自街景API还有一部分来自社区用户上传的内容。经过质量筛查——包括检查全景图的左右边缘是否真正连通、过滤模糊低分辨率的图、去除地理位置重复的图片——最终形成了约57万张室内室外各占一半的高质量全景图库。第一道加工工序是几何感知检测。直接在全景图上识别物体是不靠谱的因为变形问题会让检测器把一张沙发识别成各种奇怪的形状。研究团队的做法是把每张全景图切成若干张相互重叠的普通视角小图120度视场角60度步长相邻图之间有60度重叠然后用一个叫做WeDetect-Large的开放词汇检测器在每张小图上识别物体再把检测结果反投影回全景图的球面坐标系中并合并来自不同视角的重复检测结果。经过置信度过滤、重叠度去重、跨视角一致性检查等几道筛选最终保留下来的才是可靠的物体候选。第二道加工工序是语言对齐语义标注。对于每个通过几何验证的物体研究团队裁取它对应的最清晰视角图像调用大语言模型Qwen3-VL-32B生成详细的语义描述包括物体类别、视觉属性、完整描述文字以及一个专门用于区分这个物体和其他同类物体的指代短语。随后还有一道语义验证把生成的指代短语再次输入给一个检测模型让它重新在图中定位该物体——如果重新定位的结果和原始检测结果足够吻合IoU大于0.7才最终认为这个物体的语义标注是可靠的否则丢弃。这道验证确保了语言描述和视觉内容之间的严格对应。第三道加工工序是深度信息关联。研究团队为每个验证过的物体附上深度信息——如果原始数据有对齐的深度图就直接用否则使用一个专门针对全景图训练的深度估计模型来生成伪深度图。深度值在物体的球面区域内取平均作为估算的观察者距离。最后把语义信息、球面位置、角度范围、深度信息整合在一起形成一个元数据图。在这个图中每个节点代表一个验证过的物体包含它的语义描述、属性、球面坐标、角度范围、观察者距离和局部视觉上下文每条边代表两个物体之间的关系包括它们在球面上的角度偏差、相对深度差、以及球面空间和三维空间中的方向关系。从这个结构化的元数据图出发研究团队自动生成了近800万条候选训练问答对覆盖了前述四个能力家族的所有任务类型最终采样形成了约300万条规范训练数据。**四、PanoWorld的球形神经系统——模型是如何工作的**光有数据还不够研究团队还在模型结构上做了针对性的改造。他们以Qwen3.5-VL作为基础大模型并在其视觉编码器的入口处插入了一个全新设计的模块叫做球面空间交叉注意力Spherical Spatial Cross-Attention简称SSCA。要理解SSCA的作用可以用这样一个类比普通视觉编码器处理图片时就像一个只会看平面地图的向导它告诉你沙发在图片左上角但无法告诉你这对应球面空间的哪个方向。SSCA相当于给这个向导额外配备了一张球形空间地图让它在理解每个图片区域的时候同时知道这个区域对应的是观察者周围哪个球面方向。具体来说SSCA的工作流程是这样的首先对于全景图中的每一个图像块patch根据它在图片上的像素位置计算出对应的球面方向偏航角和俯仰角然后用正弦函数编码这个球面方向生成一个球面位置标记接着通过交叉注意力机制让每个图像块的视觉特征去询问自己对应的球面位置标记获取几何信息并通过一个可学习的门控系数把这个几何信息融入到原始视觉特征中。这个门控系数初始化为接近零意味着训练开始时模型基本维持原来的状态随着训练进行逐渐学会利用几何信息。SSCA的插入位置也经过了仔细的实验对比放在图像块编码之后最早效果最好比放在视觉特征合并之后或视觉编码器输出之后都要强。这说明球面几何信息越早注入对后续所有视觉特征的处理就越有益——就像做菜时调味料越早放渗透得越彻底。训练时整个视觉编码器、视觉-语言接口层和语言模型都参与微调而不只是训练SSCA模块或语言模型部分。消融实验证明如果只微调语言模型而不更新视觉端或者只更新接口层而不更新语言模型性能都会明显下降。全景空间理解是视觉感知和语言推理共同作用的结果缺少任何一方都不完整。**五、一个专门测量空间感的考场——PanoSpace-Bench**为了客观评估模型能力研究团队还构建了一套全新的评估基准叫做PanoSpace-Bench。这套基准涵盖四个能力家族、八类任务共计2000道题每类250题。绝大多数任务是选择题用答对率来衡量。另外还有一类特殊任务叫做BFOV定位要求模型预测一个物体在球面空间中的角度矩形范围用角度IoU预测范围和真实范围的重叠面积除以合并面积来评分。八类任务覆盖的范围包括绝对方向判断这个物体在左前方还是右后方、BFOV定位给出物体的精确球面范围、相对方向推理A在B的哪个方向、相机旋转变换转了多少度之后这个物体在哪里、物体条件朝向变换面朝A时B在哪个方向、观察者距离比较哪个物体离我更近、相对三维位置推理综合方向和深度A相对B是在左前上方还是右后下方以及全景图边界连续性理解靠近全景图右边缘的物体它在360度真实场景中的近邻是哪个。为了防止数据泄露PanoSpace-Bench的全景图来自与训练数据完全不重叠的图片来源而且题目的形式和格式也与训练时的问答模板刻意设计得不同——测试的是模型真正的泛化能力而不是对训练数据的记忆。**六、数字会说话——PanoWorld在各项测试中的表现**研究团队在三个基准测试上对PanoWorld进行了评估结果展示了一幅相当清晰的图景。在PanoSpace-Bench上研究团队将PanoWorld和一批知名的视觉语言模型进行对比包括GPT-4o、Gemini-2.5-Pro、InternVL系列、Qwen系列等。这些通用模型在这套全景空间推理题上的整体准确率普遍徘徊在23%到37%之间——要知道如果随机选择四个选项中的一个期望准确率就是25%所以很多模型的表现只是略好于瞎猜。PanoWorld的整体准确率达到了56.5%相比作为基础的Qwen3.5模型从30.8%提升了近26个百分点。分项来看改善尤为显著。BFOV定位任务中所有通用模型的平均IoU都不超过18%大多数在3%以下这意味着模型几乎无法给出有意义的球面定位PanoWorld将这一指标提升到了73.3%相当于精确度的数量级式跳跃。绝对方向判断从25.2%提升到93.7%全景图边界连续性理解从41.2%提升到65.5%球面关系平均准确率从26.1%提升到47.4%三维空间平均准确率从36.9%提升到49.8%。值得关注的是研究团队还测试了一种只改提示词的做法——在输入给模型的指令中详细解释ERP坐标系的含义如图片中央对应正前方偏航角0度图片左右边缘对应正后方等而不对模型做任何训练。这种方法确实有些效果整体准确率可以从30.8%提升到36.4%但在球面关系推理和三维空间推理等需要深层几何理解的任务上提升非常有限。这说明告诉模型坐标系的规则和让模型真正理解球面空间是两件不同的事情。在第二个基准测试H*Bench人形视觉搜索基准上结果更加引人注目。这个基准测试的传统做法是给AI模型一张小视角的局部图让它决定下一步往哪个方向旋转反复执行多步探索直到找到目标。这个过程平均需要6.27步、调用大模型6.27次。研究团队最强的传统方法一个专门针对这项任务训练的3B参数模型整体成功率是38.4%。PanoWorld在不做任何H*Bench专项训练的情况下直接输入完整全景图并一次性输出答案零样本成功率就达到了56.1%。在专门针对H*Bench数据进行额外微调之后成功率进一步提升到70.1%比最强基线高出了31.7个百分点所需模型调用次数只需1次而不是6次以上。相比之下如果只把Qwen3.5基础模型拿来在H*Bench上做专项微调不经过PanoWorld的全景原生训练反而成绩下降到17.8%——这清楚地说明全景空间理解能力不是靠单一下游任务的数据微调就能补上的必须通过系统性的全景原生学习。在第三个基准测试R2R-CE视觉语言导航基准上PanoWorld同样表现优异。与那些使用专门的路径点预测器、或利用全景图采样多个候选视角进行选择的方法不同PanoWorld直接把完整全景图作为输入一次性预测导航方向无需任何辅助工具。在只使用80%训练数据的情况下PanoWorld在未见过场景上的成功率达到54.3%、路径效率SPL达到52.1超过了包括GridMM、StreamVLN等在内的多个近年SOTA方法。**七、拆开来看——每个设计决策到底贡献了多少**研究团队还通过大量消融实验把各个设计决策的贡献精确地量化了出来确认每一块零件是否真的有用。从训练数据的角度来看四类能力数据各有其侧重、互相补充。只用语义理解类数据训练时模型在空间定位和三维推理方面表现很差加入球面定位数据后定位精度大幅跳升加入参考系变换数据对球面关系推理最有帮助加入深度三维数据则显著改善了距离比较和三维位置判断。四类数据全部组合在一起时整体效果最好——这验证了全景理解是一个多维度、互相依赖的综合能力不能只偏重某一方面。从数据质量验证的角度来看不经过任何验证的原始数据训练出来的模型整体准确率只有38.8%加入几何验证过滤不稳定的检测结果后提升到46.4%加入语义验证过滤语言和视觉不匹配的标注后提升到48.0%两种验证都加上后达到55.1%。数据质量对最终效果的影响非常显著好数据的重要性不亚于好模型。从模型架构角度来看SSCA在图像块级别插入交叉注意力是最优方案比在视觉特征合并后或编码器输出后插入都要好交叉注意力机制也比简单的残差加法效果更好尤其在球面关系推理方面优势明显。从训练范围角度来看全面微调视觉编码器、接口层和语言模型三部分都更新比任何部分微调方案都更好仅微调语言模型虽然定位能力还行但球面关系和参考系变换方面明显不足仅微调接口层则几乎全面落后。**八、效率也是实力——一步到位胜过走走停停**除了准确率研究团队还专门比较了PanoWorld和传统迭代式方法的效率差异。在H*Bench的任务上传统的转一步看一下再转的方法平均需要6.27次模型调用处理约3万个输入token而PanoWorld只需要1次模型调用处理约1.65万个输入token相对计算成本是传统方法的1/1.81到1/1.13。一步到位不仅更准确还更省资源。这一效率优势的背后是全景原生理解的本质优势传统方法需要通过多次局部观察来拼凑出整个场景的空间认知而PanoWorld从一开始就获取了完整的全局视野无需迭代探索。说到底这项研究的核心贡献在于证明了一件事AI对360度全景空间的理解不能靠把全景图骗成普通图片来偷懒解决而必须直面全景图本身独特的几何特性从数据到模型都进行针对性的设计。研究团队构建的57万张全景图数据库、300万条全景训练问答、PanoSpace-Bench评估体系以及带有球面空间交叉注意力的PanoWorld模型共同组成了一套让AI真正看懂全景空间的系统性解决方案。这套系统的实用价值非常直接配备了全景相机的家用机器人、服务机器人、自动驾驶汽车、工厂巡检机器人都可以因此获得更可靠的空间感知能力。人们在商场、地铁站、机场的视觉导航体验也可能因此变得更加流畅自然。而从更长远的角度看这项研究开辟了一种思路感知并不是只能模仿人眼的管中窥豹通过合适的硬件和算法AI完全可以拥有远超人类的全局感知能力在这一维度上实现真正的超感知。当然这项研究也存在一些已经被作者坦诚指出的局限。数据生产流水线依赖自动检测和大模型标注尽管有两级验证错误仍然可能传递到最终数据中。PanoSpace-Bench作为诊断基准聚焦于静态全景图的空间推理尚未涵盖动态场景、长时序互动或多机器人协作等更复杂的情境。这些都是未来工作的自然延伸方向。---QAQ1PanoWorld是什么和普通视觉语言模型有什么区别APanoWorld是一个专门为360度全景图设计的视觉语言模型由浙江大学联合多所高校研发。普通视觉语言模型处理全景图时通常把全景图切成多张普通视角小图再分析而PanoWorld直接把整张360度全景图作为输入通过一个叫做球面空间交叉注意力的特殊模块让模型理解全景图中每个区域对应的真实球面方向从而实现完整的360度空间感知无需反复切图拼凑。Q2PanoSpace-Bench测的是什么为什么需要专门建一个新基准APanoSpace-Bench是专门用于测试AI对全景图的空间理解能力的评估基准包含2000道题覆盖物体方向判断、球面定位、视角变换、深度比较、三维位置推理和全景图边界连续性理解等八类任务。之所以要专门建立是因为现有的全景图评估基准大多只测VQA问答或字幕生成缺乏对空间感知这一核心能力的系统性诊断而现有通用模型在这些空间任务上的表现只略好于随机猜测说明这是一个被现有评估体系忽视的重要能力缺口。Q3全景图训练数据是怎么生成的为什么不直接用人工标注A研究团队构建了一套自动化的数据生产流水线先把全景图切成小视角图并用检测器识别物体再把检测结果反投影回全景图坐标经过几何一致性验证后调用大语言模型生成语义描述再通过语义重定位验证确保语言和视觉的对应准确最后关联深度信息并构建结构化元数据图。全流程自动化是因为57万张全景图、300万条问答对靠人工标注完全不现实而两级验证机制几何验证加语义验证保证了自动化数据的可靠性消融实验也证实数据验证对最终效果的提升非常显著。

相关新闻