从“聚光灯”到“扫街角”:UFV-Splatter 让三维重建学会“直面刁钻”

发布时间:2026/6/8 13:46:44

从“聚光灯”到“扫街角”:UFV-Splatter 让三维重建学会“直面刁钻” 它不再依赖“物体居中、相机指向中心”的理想化训练条件——而是让模型自己学会从任何一个随性拍摄的刁钻角度看懂真实世界的几何结构。想象你拿着手机蹲在街头对着一个雕塑连拍三张照片一张是从侧面平视一张是从45度角仰视还有一张是绕着雕像顺时针转了小半圈。回到桌面你打开一个三维重建 App原本期待能把这个雕塑从任意角度拖拽查看——但 App 生成的结果却严重扭曲、残缺不全。为什么答案藏在模型的训练范式里。当前主流的无姿态前馈式 3D 高斯泼溅3DGS模型虽然在合成数据和实验室环境下表现出色但它们无一例外地继承了一个隐含的“训练偏置”在训练阶段物体被放置在世界原点相机被设置成指向原点——也就是说相机永远“对着”物体拍。训练时的所有图像几乎都是围绕物体正面和正面周边小幅变化的“有利视角”favorable views。然而现实世界中用户的拍摄充满了随意且不可预知的角度相机可能大幅偏离中心物体可能位于画面角落甚至不同视图之间相机视角的分布毫无规律可循。这些“不指向中心、高度不规则”的输入正是当前模型难以消化的“不利视角”unfavorable views。现有的无姿态前馈 3DGS 模型有两种典型路线一种是像 PF3plat 那样用几何先验“硬解”位姿和深度——但它们在面对视角极度不规则的输入时对齐精度仍会显著下降另一种则是纯粹的端到端学习方法其泛化能力完全受限于训练数据的分布。NAIST 等研究团队给出了一个截然不同的答案。他们提出的UFV-Splatter是一个面向不利视角的无姿态前馈 3D 高斯泼溅适配框架。UFV-Splatter 的核心逻辑可以概括为“先居中再利用先验再用适配器把高斯‘拉正’”。它不再试图从零开始学习真实世界中千变万化的拍摄角度而是巧妙地采用“模型适配”的思路——利用预训练模型在“有利视角”上已建立起的强大先验再通过轻量级的可学习模块将这些先验迁移到任意输入视图中使模型在面对刁钻角度时依然能够稳定、高质量地重建三维场景。实验结果证明UFV-Splatter 在 Google Scanned ObjectsGSO数据集的合成图像和 OmniObject3D 数据集的真实图像上显著超越基线方法尤其在极端不规则视角输入下展现出极强的鲁棒性和泛化能力。以下我们从问题起点、核心方法、实验验证、创新价值与未来方向几个维度逐层拆解这篇论文的精妙之处。一、问题的起点为什么“不利视角”让最先进的无姿态模型集体失效1.1 无姿态前馈模型一项开创性的突破却隐藏着一个被忽视的盲区近年来无姿态前馈 3D 高斯泼溅模型的出现可以说是 3D 重建领域的一次范式飞跃。它通过大规模合成数据训练使模型能够在推理时直接从稀疏输入图像输出高质量 3D 高斯完全摆脱了对相机位姿的依赖。相比于传统的 NeRF 和 3DGS 方法无姿态前馈模型不需要耗时数十分钟的迭代优化这是传统 3DGS 在无姿态条件下常见的困境也不需要依赖 COLMAP 等脆弱且耗时的位姿估计步骤SfM 在稀疏输入下往往直接宣告失败。用户只需提供几张图像模型即可在毫秒到秒级内完成重建。然而这种“一次前向、秒级重建”的能力并非无代价得来。大量无姿态前馈模型的训练依赖于一个精心设计的数据生成规则在训练阶段3D 物体被锚定在世界坐标系的原点相机被布置成从各个角度“指向原点”进行渲染。这种设置确实让训练变得非常稳定——模型只需要学习从以原点为中心的相机到场景几何的映射数据结构高度规则化。其问题在于当推理时输入的图像是从“不指向原点”的相机拍摄的即相机的主光轴没有穿过物体中心甚至相差很远时输入图像的坐标系与模型的训练经验发生了本质的漂移。模型从未见过这种分布的数据自然也就无从正确重建。1.2 三个不可回避的硬骨头视角偏差的累积效应训练时的所有视图都是“原点指向型”的这意味着物体的位置在训练数据中具有极强的一致性和中心性。当现实输入中物体不再居中时模型对不同视图之间的几何对应关系会产生系统性偏差——由于缺乏坐标先验模型误认为物体仍在“中心”导致 3D 高斯在不同视图之间“错位”重建结果出现几何混乱。“不利视角”的定义困境所谓“不利视角”并不仅仅是相机指向偏离中心这么简单。广义上不利视角泛指“与训练分布相左的任何输入视图”——包括相机主光轴偏离物体中心、物体在画面中偏移严重、不同视图之间相机分布极不规则、甚至相机距离物体的远近与训练数据显著不同等。这些问题在真实的随手拍摄场景中随处可见但现有无姿态前馈模型几乎没有进行过系统性的评估和处理。“有利先验”与“不利视角”之间的结构性矛盾模型的能力建立在有利视角的几何先验上——它知道当相机指向物体中心时对应的深度和几何应该如何投射。但当输入不再是这种结构时模型所依赖的先验仍然被强行调用导致产生错误的深度估计和错误的 3D 高斯位置。简而言之模型“输入数据的表征分布”与“内部先验的表征分布”发生了严重错位。1.3 既有的失败之路端到端从头训练与约束注入UFV-Splatter 之前学界处理这一问题的常见尝试主要分为两类扩大训练数据分布试图在训练集中加入更多“不规则视角”的图像直接让模型见过更多不利视角。然而合成数据集中添加不规则视角后模型往往会在有利视角和不利视角之间产生“矛盾”很难同时兼顾两者。在模型中显式注入位姿约束引入各种几何约束如极线约束、深度一致性正则项来强制模型学习跨视图几何。然而这类方法在极其稀疏或极不规则的输入下仍然效果有限因为显式几何约束需要依赖一定程度的先验几何信息当输入视角极端不规则时本身就缺乏可信的几何初始值。1.4 适配式迁移先“拉回到有利视角”再利用先验UFV-Splatter 的核心洞察简洁而有力与其试图让模型从零学会所有不规则视角不如先把“不利视角”的输入图像变换到模型熟悉的“有利视角”范畴内然后利用模型已有的强大先验进行重建最后再通过一个轻量级的“高斯适配器”模块将重建结果重新对齐到原始的不利视角空间。这种方法不是从零训练一个庞大的模型去覆盖所有可能的不利视角而是在现有最先进的无姿态前馈模型如 PF3plat 等基础上设计了一个优雅的“适配层”使其在面对完全不同的输入分布时仍然能够表现出与有利视角相当的重建质量。二、方法的核心UFV-Splatter——模型不够泛化就给它加上一个“转接头”UFV-Splatter 不是重新设计一个无姿态前馈 3DGS 架构而是一套即插即用的适配框架。其核心逻辑可以概括为“最近中心 → LoRA 增强 → 高斯适配器 → 高斯对齐 → 光照恢复”。以下我们逐步拆解每个模块的运作机制深入探索这一框架的精妙设计。2.1 阶段一图像最近中心Recentering——把“不好的角度”掰正UFV-Splatter 面临的第一个核心问题是给定一个“不利视角”的图像即物体的包围盒偏离了画面的中心区域如何让它“进入”模型的有利视角范式直接输入原始图像是行不通的因为预训练模型从未见过这种坐标分布。因此UFV-Splatter 的第一步是对输入的每张图像进行最近中心变换。以 3D 物体重建为例首先通过现成的 2D 前景分割模型如 SAM提取物体的前景掩码计算其边界框然后通过一个仿射变换将物体的边界框平移到图像的正中心。这一操作保证了变换后的图像中物体的中心大致对齐到图像的几何中心使其分布与模型训练时的有利视角高度相似。然而这种平移变换并非完美无缺。平移操作会自然地在图像中引入一些空白区域背景区域被拉伸或填充以及一些轻微的几何畸变尤其是在物体原本就靠近画面边缘时。因此UFV-Splatter 并不满足于仅仅做了“平移”而是让后续的可学习模块去修正这些平移带来的细微副作用。这一最近中心步骤构成了 UFV-Splatter 整体框架的第一块基石。2.2 阶段二LoRA 层增强——让预训练模型“记住”不利视角的微调虽然最近中心变换让输入图像的空间分布更接近有利视角但模型训练时所观察到的不仅仅是空间位置还有与空间位置紧密耦合的各种细节——例如不同视角下物体各部分的纹理分布、不同距离下的深度先验、物体的朝向分布等等。仅仅靠平移不足以让模型完全适应不利视角。因此UFV-Splatter 在预训练的无姿态前馈模型中引入了低秩适配LoRA层。LoRALow-Rank Adaptation是一种针对预训练大模型的高效微调策略其基本思路是冻结原始模型的全部参数仅在模型的核心权重矩阵旁添加低秩可训练的旁路矩阵。在微调过程中只有这些极小规模的 LoRA 参数参与梯度更新。在 UFV-Splatter 的应用场景中LoRA 层的核心作用是让模型学会在“有利视角”的基础之上去适应最近中心变换后的“类有利视角”输入所带来的微小分布偏移。LoRA 层捕捉的是“相对于有利视角的增量特征”——包括平移变换引入的畸变、背景区域的变化、物体空间位置和朝向的细微差异等。因为 LoRA 层的参数量极小通常仅为原始模型参数量的 0.1% 到 1%可以高效、稳定地进行微调同时完全保留了原始模型在有利视角上的强大泛化能力避免破坏其已有的几何先验。这种设计的精妙之处在于预训练模型仍然是那个“善于处理有利视角”的专家而 LoRA 层则像一个“翻译器”把最近中心后的输入转换成预训练模型能够高效理解的形式。2.3 阶段三高斯适配器——逐高斯调整几何一致性经过 LoRA 增强的预训练模型可以从最近中心后的输入图像中预测出 3D 高斯参数。然而这些高斯仍然是在“最近中心的坐标系”中输出的直接用于原始的不利视角渲染会导致几何错位——因为物体虽然被平移了但高斯的几何位置仍然是按照“假设物体在中心”的逻辑输出的。UFV-Splatter 为此设计了一个全新的模块高斯适配器Gaussian Adapter。高斯适配器的输入是从 LoRA 增强模型输出的、在最近中心坐标下预测的 3D 高斯 {G~}以及原始图像中的各种特征。高斯适配器的输出是经过几何调整后的、与原始不利视角输入对齐的高斯。具体来说高斯适配器通过一个轻量级的 MLP多层感知机对每个高斯的位置均值、协方差矩阵乃至不透明度进行微调位置适配在最近中心坐标中预测的高斯均值需要在 3D 空间中经历一个逆变换以适应原始的相机坐标系。高斯适配器预测每个高斯的残差位移 Δμ使最终的高斯能够准确反映原始输入视角下的几何结构。协方差适配平移变换对高斯的形状和朝向也有间接影响。高斯适配器通过预测协方差矩阵的修正项确保高斯在空间中保持符合物理逻辑的椭球形状。不透明度适配最近中心变换带来的背景区域变化可能导致部分高斯的不透明度估计不够准确。高斯适配器对不透明度也进行精细化调整抑制背景区域的虚假高斯点增强前景区域的透明度准确性。这一逐高斯的精细化适配确保了即便输入经过了几何变换最终输出的 3D 高斯仍然能准确表达原始场景的几何结构。2.4 阶段四高斯对齐——用可微渲染“拉通”全局几何高斯适配器产生的 3D 高斯需要在一个统一的训练框架下进行优化和校准。UFV-Splatter 引入了高斯对齐方法Gaussian Alignment其核心思路是将适配后的 3D 高斯通过标准的 3DGS 可微渲染器渲染成目标视图然后与原始图像或训练中可用的其他视图计算渲染损失通过反向传播来整体优化预训练模型、LoRA 层和高斯适配器。高斯对齐的另一个关键作用是在多个视图之间施加隐式的几何一致性约束。即使输入视图的分布极其不规则不同视图之间仍然存在同一个 3D 点的重投影一致性约束。当模型生成的 3D 高斯在不同视图中的重投影产生不一致时渲染损失会放大这种不一致性进而驱动模型修正高斯的几何位置。高斯对齐的这一特性很大程度上解释了为什么 UFV-Splatter 在面对极其稀疏、不规则视图时仍然能够保持几何一致性。2.5 训练策略与光照恢复只靠有利视角数据就能学会不利视角UFV-Splatter 最引人注目的设计之一是它利用的训练数据集完全只包含有利视角图像。换句话说UFV-Splatter 在训练过程中从未见过任何不利视角的真实图像却学会了如何在推理时优雅地应对这些“刁钻输入”。这种独特的能力来源于其“适配”的本质它只是在预训练模型基础上学习一个“输入变换→输出逆变换”的适配映射而非学习新的几何分布。具体而言训练过程中UFV-Splatter 首先从数据集中采样一组有利视角的图像相机指向物体中心对这组图像执行随机的仿射变换——模拟不利视角下的平移、缩放和旋转。变换后的图像被送入 UFV-Splatter 进行适配和重建输出 3D 高斯后再通过渲染原始有利视角图像计算损失反向传播适配过程中学习的梯度。这种“自监督”式的训练策略使模型在真实推理中面对不利视角时能够“举一反三”地进行高质量重建。此外UFV-Splatter 还设计了一个光照恢复模块。最近中心变换中的几何变换和仿射变换不仅会改变空间位置还可能改变图像的光照分布——例如一个原本在画面角落的物体在平移到中心后其纹理亮度可能会因为插值操作而略微改变。光照恢复模块通过对渲染图像的色彩分布进行微调进一步提升了最终渲染的视觉质量。三、实验的答卷从未见过不利视角却能在不利视角下吊打所有基线3.1 评估设置合成数据与真实数据的双重考验论文在两大基准数据集上进行了系统评估一个是Google Scanned ObjectsGSO合成图像数据集包含大量高质量 3D 物体的多视角渲染图像另一个是OmniObject3D 真实图像数据集由真实场景下的手机拍摄图像构成包含更多的背景杂讯、光照变化和真实拍摄噪声。UFV-Splatter 选择的无姿态前馈骨干模型包括 PF3plat已由微软亚洲研究院提出当时为当前最先进的无姿态前馈模型之一等。基线的对比包括不经过任何适配、直接将不利视角输入原始预训练模型仅通过最近中心变换而不进行适配以及一系列后处理或端到端的视角对齐方法。评价指标包括新视角合成的视觉质量PSNR、SSIM、LPIPS以及对极端视角偏离程度的鲁棒性评估。3.2 核心实验结果UFV-Splatter 全面超越所有基线不利视角下的新视角合成质量在 GSO 数据集上当输入视图被随机仿射变换到高度不利的视角时原始预训练模型的 PSNR 急剧下降LPIPS 感知损失急剧上升而 UFV-Splatter 在各项指标上均显著超越所有基线在极端不利视角下甚至依然能够保持接近有利视角的质量水平。泛化到真实图像OmniObject3D 真实图像数据集的测试进一步证实了 UFV-Splatter 的现实价值。由于真实拍摄的照片往往伴随视角偏移、背景杂乱和光照变化对无姿态前馈模型的挑战远大于合成数据。UFV-Splatter 在真实图像上仍然保持了显著的性能优势。消融实验分别移除“最近中心模块”、“LoRA 层”和“高斯适配器”后各自在不同程度的不利视角下性能均出现明显下降移除 LoRA 层和高斯适配器的组合后模型几乎丧失了对不利视角的适应能力——这充分说明了“先调视角、再调高斯”的双适配机制缺一不可。3.3 定性结果从“飘浮的错位碎片”到“结构工整的立体模型”论文展示了 UFV-Splatter 与其他方法在不利视角输入下的重建和渲染对比。直接使用原始预训练模型输出的 3D 高斯在不利视角输入下会产生大量偏离正确位置的“漂浮高斯碎片”新视角渲染结果严重失真仅使用最近中心变换而不引入适配模块虽然改善了部分几何对齐但依然会在物体边缘产生几何错位和纹理模糊而 UFV-Splatter 输出的 3D 高斯结构清晰、几何对齐精准新视角渲染结果在纹理细节和几何结构上均与真值高度一致。四、创新的价值UFV-Splatter 为无姿态前馈模型带来了什么范式转变4.1 首次将“适配式迁移”引入无姿态前馈 3DGSUFV-Splatter 是在无姿态前馈 3DGS 领域第一个系统地提出模型适配框架的工作。它不依赖于从零训练一个庞大的模型来覆盖所有输入分布而是巧妙地利用预训练模型积累的宝贵先验在冻结原始模型的基础上增加轻量级适配模块实现了对未来未知输入分布的“自适应”。4.2 仅靠有利视角数据学会处理不利视角——打破数据采集的魔咒UFV-Splatter 的训练数据全部来自结构规整的有利视角数据集模型从未在训练时见过任何不利视角的真实输入。这一特性在实际应用中具有极高的价值真实不利视角的数据往往难以系统性地收集和标注而有利视角的合成数据集却非常容易获取。UFV-Splatter 证明了通过合理设计的适配框架模型可以从一种分布“举一反三”到另一种完全不同的分布。4.3 一系列可插拔的模块设计UFV-Splatter 提出的最近中心模块、LoRA 层、高斯适配器和高斯对齐是一系列可插拔的、与骨干模型无关的模块。这意味着 UFV-Splatter 的技术可以独立于底层骨干模型的变化而持续改进——即使未来出现比 PF3plat 更强的无姿态前馈模型UFV-Splatter 的适配框架仍然可以直接迁移使用。五、未来的追问当模型学会处理刁钻角度之后下一站是哪里5.1 从“单物体适配”到“全场景适配”UFV-Splatter 目前主要针对以单个物体为中心的场景进行适配。当扩展到全场景级重建时场景中物体的位置分布、尺度变化和遮挡关系都更为复杂单一的全局“最近中心变换”可能不再适用。将 UFV-Splatter 的适配思想扩展到多物体场景或城市场景的 3DGS 模型中是一项重要且自然的前进方向。5.2 从“图像空间变换”到“特征空间对齐”UFV-Splatter 目前采用的是对输入图像进行显式的几何变换再通过适配器修正几何错位。一种更前沿的思路是在模型的特征空间内部直接学习“从不利视角特征到有利视角特征”的映射从而避免几何变换带来的信息损失。这一方向将 UFV-Splatter 的经验从“图像级适配”提升到“表示级适配”。5.3 更高效、更轻量化的适配当前 UFV-Splatter 在推理时仍然需要对每张输入图像执行最近中心变换和高斯适配器前向计算虽然相比重新训练模型已经极为高效但在实时应用如 AR/VR、自动驾驶仿真中仍有进一步压缩的空间。探索更轻量化的高斯适配器结构甚至将适配过程融合到骨干模型的单次前向中是 UFV-Splatter 走向实际部署的关键。关键信息速览维度内容论文标题UFV-Splatter: Pose-Free Feed-Forward 3D Gaussian Splatting Adapted to Unfavorable Views作者Yuki Fujimura, Takahiro Kushida, Kazuya Kitano, Takuya Funatomi, Yasuhiro Mukaigawa所属单位奈良先端科学技术大学院大学NAIST、立命馆大学、京都大学发表状态arXiv:2507.22342v22025 年 7 月提交8 月修订模型名称UFV-Splatter核心架构最近中心变换 → LoRA 层增强 → 高斯适配器 → 高斯对齐 → 光照恢复输入输出输入任意视角的未标定稀疏图像包含不利视角 → 输出几何对齐的 3D 高斯场支持实时新视角渲染核心创新1. 首次提出无姿态前馈模型的适配框架2. 仅靠有利视角数据训练即可泛化到不利视角3. LoRA 高斯适配器联合实现几何对齐评估数据集Google Scanned Objects合成、OmniObject3D真实代码与项目https://yfujimura.github.io/UFV-Splatter_page/arXiv 链接https://arxiv.org/abs/2507.22342相关文献PF3plat MVSplat PixelSplat FreeSplatter当你举起手机绕着一个雕塑随手拍下几张歪歪扭扭的照片——有的视角高度偏斜、有的画面里物体都快要“溜出”画面——而模型能够在瞬间输出一个结构清晰、无错位、无漂浮鬼影的完整 3D 模型时让这一切成为可能的可能正是 UFV-Splatter 这类适配框架的贡献。它验证了一条在快速发展的 3D 视觉领域中被一再证明的道理有时候与其费尽心力让一个模型学会所有“刁钻”的情况不如设计一个优雅的“转接头”让已有模型的强大能力流动到它未曾见过的新领域中。UFV-Splatter 给无姿态 3D 重建带来了一个全新的维度——适配而这条适配之路才刚刚开始。

相关新闻