
Meta与普林斯顿联合提出VLM³标准VLM细粒度三维感知能力边界获系统评估Meta与普林斯顿大学联合提出了VLM³该研究以标准视觉语言模型为基础通过统一的数据组织方式和训练范式实现了物体级三维理解、公制深度估计、像素匹配以及相机位姿求解四类任务的统一建模并系统评估了标准VLM在细粒度三维感知中的能力边界。三维空间感知的挑战与现状三维空间感知是自动驾驶、机器人、三维重建等领域的核心基础能力其目标是从二维图像中恢复真实世界的空间结构、尺度信息与几何关系。与图像分类、目标检测等二维视觉任务相比三维感知不仅要求语义理解能力还需要精确的空间推理与几何建模因此长期以来被视为计算机视觉领域最具挑战性的研究方向之一。近年来视觉语言模型Vision - Language Models, VLMs凭借统一架构和大规模预训练在分类、检测、分割等二维任务上取得了显著进展。然而在深度估计、像素匹配、相机位姿求解等需要精确空间推理的细粒度任务中标准VLM的性能仍难以与专业三维模型匹敌。目前三维视觉领域尚未形成类似二维视觉中的通用基础模型主流方法仍然依赖针对具体任务设计的专家模型包括专门的网络结构、损失函数以及训练策略。研究背景与VLM³框架提出近期研究发现未经专门三维改造的标准VLM已经表现出一定的像素级深度感知能力。这一现象表明通用视觉语言模型可能具备比预期更强的三维表征能力也引出了一个值得深入探讨的问题在不引入额外编码器、视觉提示或任务专属模块的前提下标准VLM能否胜任更广泛的细粒度三维感知任务针对这一问题Meta与普林斯顿大学联合提出了VLM³VLM Cubed框架。相关研究成果以「VLM3: Vision Language Models Are Native 3D Learners」为题已发表于预印本平台arXiv。研究亮点如下在SpatialRGPT评测基准上VLM³ - 4B无需额外编码器即以更精简的架构超越参数规模更大的SpatialRGPT - 8B相比此前最优视觉语言模型DepthLM - 7BVLM³ - 4B将平均精度δ₁从0.84提升至0.90与专业深度估计模型UnidepthV2性能持平VLM³将基线视觉语言模型的端点误差EPE降低一个数量级性能优于DKM和RoMa等经典专家模型VLM³将AUC₃₀°指标从接近随机水平的5%大幅提升至94%超越VGGT并达到与DA3 - Giant相当的水平。面向多任务三维感知的混合数据集三维感知任务涉及场景尺度、视角变化、相机参数以及几何关系等多种因素对训练数据的质量和覆盖范围提出了较高要求。为支撑统一三维表征能力的学习该研究构建了一套覆盖单视图与多视图场景的混合数据体系整体涵盖公制深度估计、物体级三维理解以及像素匹配与相机位姿估计三类任务。在公制深度估计任务中研究人员采用大规模多场景混合数据集。基础数据继承自DepthLM包含Argoverse2、Waymo、NuScenes、ScanNet、Taskonomy、HM3D、Matterport3D等主流三维场景数据并进一步引入1,000万张自建室外街景图像将训练规模从1,600万张扩展至2,600万张。最终模型训练共使用约3,200万张图像和3.2亿个深度标注点覆盖室内、室外、街景以及复杂开放环境等多种场景。与现有工作不同VLM³并未采用均匀采样策略而是根据数据集规模、学习难度以及泛化价值设计差异化训练权重。实验表明小规模数据集在混合训练过程中更容易引发过拟合简单增加数据来源并不一定能带来性能提升。因此研究团队适当降低了部分小规模数据集的训练权重以提高整体泛化能力。物体级三维理解任务完全沿用SpatialRGPT所使用的标准数据集包括约100万张训练图像以及配套的定性、定量问答样本。该数据集已成为当前物体级三维理解任务的重要评测基准其中大量图像缺失相机内参信息与实际应用场景更加接近因而能够更真实地反映模型的空间推理能力。对于像素匹配与相机位姿估计任务研究团队构建了统一的多视图训练数据集。该数据集整合了BlendedMVS、DynamicReplica、SailVOS3D、ScanNet等14个主流数据源共包含约990万组图像对。为保证训练质量研究人员仅保留图像间可视重叠区域超过25%的样本同时从ScanNet中预留30个独立场景作为专属测试集从而避免训练集与测试集之间的数据泄露。数据集权重配置以各数据源原始图像对数量为基础进一步增强了训练过程的稳定性与适配性。VLM³模型最小改动原则下的统一三维学习VLM³的设计目标并非构建新的三维视觉架构而是在保持标准视觉语言模型原生结构不变的前提下评估其在细粒度三维任务中的潜在能力边界。因此整个框架遵循「最小改动原则」不引入额外编码器、专属损失函数或任务定制模块而是重点从输入表示、空间定位方式和数据组织策略三个方面进行优化。研究以Qwen3 - VL - 4B作为基础模型全程采用标准监督微调Supervised Fine - Tuning, SFT范式进行训练与现有视觉语言模型的预训练和微调流程保持一致。这种设计保证了框架能够直接兼容主流VLM体系而无需额外构建专用训练管线。VLM³概述首先针对不同数据源之间相机参数不一致的问题VLM³提出了统一的图像标准化策略。研究发现多源三维数据集之间往往存在显著的相机内参差异部分网络图片甚至缺失相机参数信息这会直接影响模型学习空间几何关系的能力。为此框架将所有输入图像统一映射到标准焦距空间并对缺失内参的数据利用现有单图像标定模型进行估计从而减少由成像条件差异带来的分布偏移。其次VLM³采用了统一的文本化空间定位范式。传统三维视觉模型通常依赖额外视觉提示、渲染标记或专门设计的位置编码模块来完成像素级定位而VLM³则将图像坐标归一化到统一坐标空间并以文本形式表达位置关系。通过这种方式模型能够利用原生语言建模能力完成像素定位、区域定位以及跨视图对应关系学习而无需引入额外视觉模块。与此同时单张图像可以同时包含多个定位问答样本显著提高训练效率。在深度估计任务中单样本可提供的监督信号相比传统方案提升约10倍而计算开销几乎保持不变。第三个核心设计是精细化的数据混合策略。与许多依赖复杂网络结构提升性能的方法不同VLM³将优化重点放在数据组织层面。研究团队通过大量实验发现盲目扩大数据规模或采用均等权重混合训练往往会导致性能饱和甚至退化。相比之下根据数据规模和任务特征设计差异化采样策略能够更有效地提升模型的三维表征能力。因此数据配比被视为整个框架的重要组成部分而不仅仅是训练过程中的辅助因素。基于上述设计VLM³进一步实现了四类三维任务的统一建模。深度估计通过文本化像素定位构建监督样本物体级三维理解使用文本坐标框替代专用掩码编码器像素匹配任务将跨视图对应关系转化为坐标预测问题相机位姿估计则将复杂几何参数拆解为平移距离、平移方向以及旋转角度等文本问答形式。原本依赖不同模型分别处理的任务最终被统一到标准VLM的自回归生成框架之中。VLM³的使用示例首次令标准视觉语言模型在多项细粒度三维任务上实现高精度三维理解为了系统评估VLM³的有效性研究团队围绕公制深度估计、物体级三维理解、像素匹配以及相机位姿估计四类任务开展实验并分别与通用视觉语言模型和当前主流专家模型进行比较。在公制深度估计任务中研究选取9个公开数据集与通用VLM进行比较并在5个代表性基准上对标当前最优专家模型以δ₁作为主要评测指标。结果显示VLM³ - 4B全面超过此前代表性方法DepthLM - 7B平均精度由0.84提升至0.90在多个数据集上刷新了已有纪录。与此同时其整体性能已经达到UnidepthV2、MoGe - 2等专业深度估计模型的水平。在物体级三维理解任务中研究完全复用了SpatialRGPT的评测体系。结果显示参数规模仅为4B的VLM³在定性与定量评测中均超过8B规模的SpatialRGPT。后者依赖额外的掩码编码器完成空间定位而VLM³仅依靠统一文本定位机制即可获得更优结果表明统一文本化建模在空间推理任务中具备较强的有效性。像素匹配任务采用UFM评测体系以端点误差End Point Error, EPE作为核心指标。实验结果表明VLM³相较基础VLM将误差降低一个数量级并超过DKM、RoMa等经典专家模型仅略低于当前最优方法UFM。这说明统一的文本化建模方式不仅适用于单视图场景同样能够有效学习跨视图几何对应关系。在相机位姿估计任务中研究分别在ETH3D和ScanNet数据集上采用AUC₃₀°指标进行评估。结果显示VLM³将基础VLM的性能从接近随机预测水平提升至94%的AUC₃₀°超过VGGT、MapAnything等主流方法并接近当前最优模型DA3 - Giant的性能水平。写在最后长期以来三维视觉研究主要沿着「任务驱动」的路线发展针对深度估计、像素匹配或位姿求解等不同任务分别设计专用模型。VLM³则展示了一种不同的可能性——在不引入额外编码器、专属损失函数和复杂视觉提示机制的前提下仅通过标准化图像处理、文本化空间建模以及精细化数据策略标准视觉语言模型便能够在多项细粒度三维任务上达到甚至超过部分专家模型的性能。这一研究结果表明通用视觉语言模型所具备的三维表征能力可能远超此前预期也为三维视觉从「任务专属优化」走向「统一基础模型」提供了新的实证依据。