解读 GigaGS:面向大规模场景的高质量表面重建

发布时间:2026/5/19 7:56:41

解读 GigaGS:面向大规模场景的高质量表面重建 3D 高斯泼溅3D-GS因其优秀的渲染性能和灵活性迅速成为三维重建领域的新宠。然而其应用大多局限于单个物体或有限小场景。面对城市级的大规模环境现有的 3D-GS 方法在高精度几何表面重建上显得力不从心GPU 内存消耗过高、几何表示的细节层次LoD难以统一、外观存在明显不一致性等问题尤为突出[reference:0]。为了填补这一空白来自上海人工智能实验室、上海交通大学和浙江大学的研究团队提出了GigaGS。这是首个基于 3D-GS 框架、专为大规模场景高质量表面重建设计的工作[reference:1]。该方法旨在从海量图像中直接生成可供导航、仿真使用的光滑网格模型兼具渲染实时性与几何精度。本文将以第三方博客的形式客观讲解 GigaGS 的技术管线、核心创新点及实验结论。1. 背景与动机1.1 核心挑战为什么大规模场景这么难目前的 3D-GS 方法在面对大规模场景时面临三大核心挑战[reference:2]GPU 内存消耗爆炸随着场景规模扩大3D-GS 需要存储数百万甚至上亿个高斯原语远超普通 GPU 内存上限。要同时处理所有相机视角光是浮点运算量就足以让训练中止。细节层次LoD难以统一大型场景既需要远处的粗糙结构也需要近处的微小细节。单一的高斯表示无法同时满足这两种需求导致几何重建常常是“形在神不在”——大范围几何倾斜小范围细节缺失。外观不一致性显著大规模户外场景中不同区域的图像常因光照、拍摄时间等差异而亮度不同。这种外观不一致性严重干扰多视图几何一致性约束导致重建的表面产生噪声或伪影。例如同一栋楼在上午和下午的采集图像中阴影方向和曝光都可能不同单纯依赖 RGB 损失优化很容易被这类跨时图像“误导”。1.2 GigaGS 的设计目标与贡献GigaGS 的核心目标是在保持渲染效率的同时准确恢复大规模场景的几何表面适用于城市规划、自动驾驶仿真、虚拟现实等实际应用。其核心贡献包括[reference:3]基于相互可见性的场景分区策略将大场景切分为多个独立训练块实现并行训练与无缝合并。层次化平面表示Hierarchical Plane Representation用不同粒度的高斯原语描述场景在不显著增加计算负担的前提下适应不同细节需求。多视图光度与几何一致性约束引入针对性的正则化损失有效抑制由于光照、曝光差异带来的噪声显著提升重建表面的保真度。综合实验表明GigaGS 在渲染质量和几何重建精度上均超越了 MegaNeRF、Neuralangelo、SuGaR、PGSR 等先进方法[reference:4]。2. 整体技术管线PipelineGigaGS 的整体框架可以概括为“分区并行训练 层次化高斯表示 多视图一致性约束”三部分协同工作。2.1 基于相互可见性的场景分区策略这是解决 GPU 内存瓶颈的关键第一步。GigaGS 并非随意切分场景而是采用基于空间区域相互可见性的分区策略[reference:5]。何为“相互可见性”在场景中某些相机之间存在高重叠图像区域它们共同构成一个“视觉子图”。这些相机彼此之间的图像一致性高容易建立稳定的多视图对应关系。GigaGS 利用这种信息将空间上接近且相互可见的相机划分到同一个训练块Block中。具体操作将所有输入相机的视图按空间位置和重叠度划分为多个重叠区块Overlapping Blocks。每个区块包含的相机数量适中可以独立加载到单块 GPU 上进行 3D-GS 训练。各区块并行训练互不干扰实现了训练速度的线性提升。最终利用区块之间的重叠区域对各区块生成的高斯模型进行加权融合消除接缝合并为一个完整的高斯模型。这种设计使得 GigaGS 可以在多块 GPU 上分布式优化能够处理远大于单卡内存的城市场景且合并后的场景在视觉和几何上均保持连贯。2.2 层次化平面表示Hierarchical Plane Representation解决了“内存装得下”之后下一步要解决“细节看得清”的问题。GigaGS 引入层次化平面表示——用不同分辨率的平面高斯Flattened Gaussian组合来建模场景每层对应一个细节级别。平面表示的原理该设计建立在 PGSRPlanar-based Gaussian Splatting的基础上每个 3D 高斯核可以被压扁成一个平面这个平面与物体的真实表面贴合。然后该方法利用从相机原点到高斯平面的有符号距离与视线方向交汇直接计算出准确的深度和法向而非依赖传统光栅化混合深度[reference:6]。这种平面建模从根本上保证了高斯分布不悬浮于空中表面走向符合物理规律。细节层次构建过程在此基础上GigaGS 进一步构建了层次化结构[reference:7]从 SfM 的稀疏点云开始。定义一个基础体素尺寸 (v_0)利用八叉树结构(k2)第 i 层的体素尺寸为 (v_i v_0 / k^i)。每一层为一个独立的特征等级分别训练独立的平面高斯集群。训练时所有层次的高斯一起更新渲染时根据相机与目标的距离决定参与计算的层次——近处调用高分辨率层远处调用低分辨率层。这就相当于一个“金字塔”底层铺满细节顶层仅保留轮廓系统在渲染时自动按需取用既保证了细节不丢失又控制了实时渲染时的计算量。2.3 多视图光度和几何一致性约束即使有了分区和 LoD 表示仍然存在两个问题外观不一致大规模场景不同子区域的曝光度和光照差异会导致重建出深浅不一的表面。局部过拟合RGB 损失本身对深度变化的误差容忍度较高会导致高斯形状偏离真实表面[reference:8]。GigaGS 通过两种正则化损失加以约束外观模型Appearance Model为了消除光照差异GigaGS 为每个训练视角学习了一个额外的隐式嵌入参数 (emb_v)并通过一个小型网络 (\phi) 预测一个像素级调整值与原图相乘后得到模拟光照调整后的图像 (I_a \phi(I, emb_v) I)再与真实图像 (I_0) 计算损失[reference:9]。这种方法在不破坏几何平滑性的前提下有效抵消了曝光差异对色彩重建的影响。几何一致性约束Geometry Consistency为了迫使高斯平面贴合真实物体表面GigaGS 在训练过程中除了常规 RGB 损失外还额外引入压扁损失((\mathcal{L}_{flatten}))在训练中强制每个 3D 高斯的最小轴压缩促进其退化为平面保证它与真实表面重合[reference:10]。法向-深度一致性损失利用相邻像素的 3D 点构建局部三角面并计算估算法向与渲染法向图作差。该损失能在物体表面平滑区域有效抑制因深度误差而产生的褶皱[reference:11]。3. 核心创新点创新点解决的问题实现方式基于相互可见性的分区策略高 GPU 内存消耗、单卡无法容纳大场景通过空间重叠区域将相机分组为多个独立训练块实现并行训练与无缝合并[reference:12]层次化平面高斯表示LoD细节层次难以统一近远视图间几何精度不均基于八叉树的体素划分构建多层等级根据相机距离动态选择渲染层级[reference:13]平面高斯压扁机制传统 3D-GS 高斯核“悬浮”难以准确提取表面网格强制压缩高斯核的最小轴并渲染从相机原点到高斯平面的深度实现面元对齐[reference:14]外观模型Appearance Modeling大规模场景中不同视角下光照与曝光度差异大每个视角学习独立嵌入参数通过少量非线性映射调整像素值抵消光照影响[reference:15]法向-深度局部几何一致性损失RGB 损失易导致高斯形状偏离真实表面利用局部邻域像素建立三角平面约束渲染法向与几何法向一致提升表面平整度[reference:16]4. 实验与结果4.1 数据集GigaGS 在以下大规模场景数据集上与多种 SOTA 方法进行了定量和定性对比Mill-19大规模工业区航拍数据集。UrbanScene3D大规模城市场景数据集包含多种复杂的建筑结构和光照条件。MegaNeRF等自采/开源基准。4.2 对比方法新视角合成MegaNeRF, VastGaussian, 3DGS, Scaffold-GS 等。表面重建NeRF, Neuralangelo, SuGaR, PGSR, 2DGS 等。4.3 定量结果Mill-19 和 UrbanScene3DGigaGS 在渲染和几何重建任务上均取得了 SOTA 或具备竞争力的结果[reference:17][reference:18]方法新视图合成 (PSNR↑ / SSIM↑ / LPIPS↓)表面重建 (精度/完整性)核心特点MegaNeRF中等不支持大规模 NeRF但无显式几何输出VastGaussian中等不支持城市级 3D-GS但侧重渲染而非表面3D-GS高差渲染快速但几何噪声大无法直接网格化SuGaR / PGSR较高中等在小物体或室内场景较好大场景泛化差细节容易丢失GigaGS最高 / 最高 / 最低最高同时兼顾大规模渲染质量与高精度几何提取注上表数据来源于论文原文及外部解读的汇总整理反映了 GigaGS 在综合评价指标上的领先地位[reference:19][reference:20]。4.4 消融实验GigaGS 对各个创新模块进行了详细的消融实验验证分区策略的必要性如果不分区单卡 24GB 显存在处理大型城市场景时会直接 OOM。只有启用分区训练才能跑通。法向-深度一致性正则化去除该项后重建的表面尤其是屋顶、路面等平滑区域会出现明显的褶皱和噪声几何精度大幅下降[reference:21]。外观模型的作用在不应用外观模型时由于正午、黄昏、阴影等不同光照视图交错重建最终模型会产生颜色渐变明显的“色块拼接”伪影。加入外观模型后整体色彩过渡自然。5. 数据与代码开源GigaGS 已在AAAI 2025上正式发表并开放了完整源代码。论文全文、项目主页和代码仓库如下论文主页https://open3dvlab.github.io/GigaGS/[reference:22]GitHub 仓库https://github.com/open3dvlab/GigaGS预训练模型提供在 Mill-19 和 UrbanScene3D 上训练好的模型权重可直接用于推理。数据准备脚本提供了将原始数据集转换为 GigaGS 训练格式的完整脚本便于复现实验和适配新场景。6. 局限性与未来工作动态场景建模GigaGS 目前主要针对静态场景。而城市场景中包含大量运动物体车辆、行人如何在保持几何一致性的同时处理动态物体是下一步的研究方向。极端弱纹理区域在大面积玻璃幕墙、水面、纯色墙壁等区域平面高斯拟合仍然存在歧义几何精度下降。引入更多结构先验如语义感知正则化可能是一个有效方案。计算资源门槛分区并行策略虽然已经降低了单卡内存需求但训练一个大面积城市模型1000 张 8K 航拍图仍然需要至少 4–8 块 24GB GPU对一般科研团队而言门槛依然较高。7. 总结GigaGS 是首个专门针对大规模场景设计的 3D-GS 表面重建框架。通过基于可见性的场景分区策略、层次化平面高斯表示和多视图光度/几何一致性约束该系统成功将 3D-GS 的适用范围从物体级/室内级扩展到了城市级野外场景。实验证明GigaGS 在公开的大规模数据集Mill-19、UrbanScene3D上不仅渲染质量优于现有大规模 NeRF 和 3DGS 方法而且能够稳定提取高质量的表面网格为自动驾驶仿真、数字孪生城市、混合现实等实际应用提供了关键基础设施[reference:23]。这项工作的直接贡献是确立了3D 高斯泼溅在大场景几何重建上的可行性而更深层的影响是向 3D 视觉社区传递了一个信号将几何约束法向、平面深度与点云先验深度嵌入 3D-GS 优化流程也许才是让 3D-GS 走向实用化的真正出路。论文信息GigaGS: Scaling up Planar-Based 3D Gaussians for Large Scene Surface ReconstructionAAAI 2025 | 代码与模型已开源作者团队Junyi Chen上海交通大学 / 上海人工智能实验室、Weicai Ye上海人工智能实验室 / 浙江大学、Yifan Wang上海交通大学 / 上海人工智能实验室、Danpeng Chen浙江大学、Di Huang上海人工智能实验室、Wanli Ouyang上海人工智能实验室、Guofeng Zhang浙江大学、Yu Qiao上海人工智能实验室、Tong He上海人工智能实验室[reference:24]参考文献[1] Chen et al. GigaGS: Scaling up Planar-Based 3D Gaussians for Large Scene Surface Reconstruction. AAAI 2025.[2] Kerbl et al. 3D Gaussian Splatting for Real-Time Radiance Field Rendering. SIGGRAPH 2023.[3] Chen et al. PGSR: Planar-based Gaussian Splatting for Efficient and High-Fidelity Surface Reconstruction. 2024.[4] Turki et al. Scaffold-GS: Structured 3D Gaussians for View Synthesis. CVPR 2024.[5] Li et al. Neuralangelo: High-Fidelity Neural Surface Reconstruction. CVPR 2023.

相关新闻