
这项由哈尔滨工业大学、华为诺亚方舟实验室与深圳技术大学合作完成的研究以预印本形式于2026年5月8日发布在arXiv平台编号为arXiv:2605.07287。感兴趣的读者可通过该编号检索完整论文。**研究背景当AI开始看懂三维世界**手机拍几张照片电脑就能还原出一个可以任意角度游览的三维场景——这件事听起来像科幻但它正是计算机视觉领域近年来最热门的研究方向之一专业上叫做新视角合成Novel View Synthesis。简单说就是给AI几张照片让它补全那些没有被拍到的角度。支撑这一能力的核心技术之一叫做3D高斯泼溅3D Gaussian Splatting简称3DGS。这项技术把三维场景想象成由无数个半透明的气泡专业上称为高斯基元堆叠而成每个气泡都有自己的位置、大小、颜色和透明度。当你从任何一个角度去看这堆气泡渲染引擎就会把它们投影合成呈现出那个角度下场景应有的样子。这种方法渲染速度极快效果也相当逼真。不过现有的大多数方法在怎么分配这些气泡这件事上犯了一个直觉性的错误——它们对场景里的每一个像素点都分配固定数量的气泡不管那个像素点对应的是精细的砖墙纹理还是一整块白色的天花板。这就像一位画家不管是在画精细的人物表情还是在刷背景的大片天空都强迫自己用完全相同数量的笔触——结果必然是在简单区域浪费了大量笔墨却在复杂区域力不从心。正是为了解决这个一刀切的问题研究团队提出了名为**SplatWeaver**的新框架。---一、画师的智慧为什么按需分配比平均主义聪明得多回到那位画家的比喻。一位真正有经验的画师在面对一幅风景画时会本能地把大量笔触集中在山峰的棱角、树叶的层叠纹理、人物的五官表情上而在处理远处连绵的山体或者均匀的天空时则会大笔挥洒、简单带过。这种复杂处精细、简单处粗放的直觉正是艺术创作中长期积累出来的效率智慧。然而现有的AI三维重建方法做不到这一点。以像素对齐方案为例它对输入图像的每个像素都预测固定数量的高斯气泡图像有多少像素气泡数量就成倍增长既浪费又无法保证质量。以体素对齐方案为例它把三维空间划分成均匀的格子每个格子预测同样多的气泡同样无法区分哪里简单哪里复杂。还有一些方法尝试事后剪枝——先生成一大堆气泡再把多余的删掉——但这就像先把房间堆满杂物再花时间整理效率先天不足而且判断哪些气泡多余本身就不够精准容易误删重要细节。另外还有一类基于查询的方法预先设定好一个固定的气泡总量用神经网络学习如何分配但无论场景多大多小、多复杂多简单气泡总数始终不变在大场景中显然不够用在小场景中又大量浪费。SplatWeaver的核心思路是在生成气泡之前先判断每个像素点对应的场景区域有多复杂然后根据复杂程度来动态决定这里要放多少个气泡。这不是事后修剪而是从一开始就按需定制。---二、专家团队上岗把分配决策变成一套精密的协作机制为了实现这种按需分配研究团队设计了一套被称为基数高斯专家路由Cardinality Gaussian Expert Routing的系统。这套系统的核心是几位专家的分工协作。每位专家都只做一件事负责预测特定数量的高斯气泡。具体来说系统里有一位零号专家Null Expert它什么气泡都不产生专门负责平滑区域告诉系统这里不需要任何气泡然后是一号专家负责产生1个气泡二号专家负责产生2个三号专家负责产生3个。实验表明最多3个气泡的上限已经足够覆盖绝大多数场景的细节需求同时也不会让决策变得过于复杂。与这几位专家配套的是一个路由器Router。路由器的工作是审视图像中每一个像素点的特征然后决定把这个像素派给哪位专家处理。这个决策是硬性的、离散的——不是30%交给一号专家、70%交给三号专家这种模糊分配而是你就归三号专家管这种明确指令。这种方式保留了专家预测结果的物理意义因为气泡的空间位置是一个具体坐标不能被概率权重稀释。值得关注的是这里的专家并不直接输出气泡的全部参数。每位专家只负责预测气泡的位置和一个隐含特征编码可以理解为先确定气泡放在哪里再决定气泡长什么样。这种分步设计让后续的参数预测可以借助周边气泡的空间信息来提升精准度而不是在信息孤立的状态下盲目猜测。---三、频率先验让AI学会看懂复杂度的秘密武器路由器要做好分配决策前提是能准确判断场景各区域的复杂程度。但这个复杂度并不是一眼就能看出来的。研究团队发现可以借助一种经典的信号处理工具来解决这个问题离散小波变换Discrete Wavelet TransformDWT。用更直白的话说DWT能把一张图像拆解成低频部分和高频部分。低频部分对应图像的整体轮廓和大块颜色高频部分则对应细节、纹理和边缘——砖墙的缝隙、树叶的边缘、文字的笔画这些都集中在高频部分。研究团队发现把图像的高频分量提取出来形成一张高频能量图这张图与实际进行完整3DGS重建时气泡密集分布的区域高度吻合。换句话说高频能量强的地方恰恰就是需要更多气泡的地方。基于这一发现研究团队设计了频率先验引导模块Frequency Prior Guidance Module。这个模块在路由器做决策之前介入对像素特征进行一番加工它先对输入图像做小波变换提取出高频分量然后通过一系列神经网络层把这些高频信息转化成一张注意力图最后用这张注意力图来强化像素特征中与复杂度相关的部分。经过这番处理路由器拿到的像素特征里已经预埋了复杂度信息决策自然更加准确。除了这个模块研究团队还设计了一个路由正则化损失。具体做法是对一个场景里所有视角的所有像素根据高频能量值从高到低排序然后为排名靠前的像素赋予应该分给高数量专家的监督标签为排名靠后的像素赋予应该分给低数量专家的标签。这个监督信号在训练前期发挥作用帮助路由器建立起复杂区多分配、简单区少分配的基本直觉。到了训练后期这个约束会被解除让模型在已有的良好基础上自由探索最优的分配策略。此外系统还设有一个预算控制项确保整个场景的气泡总数不超过像素总数的0.3倍。这个软约束不是强制截断而是当气泡数量超标时施加惩罚引导模型在保证质量的前提下保持精简。---四、邻居互助让每个气泡都能参考周围同伴再定型当路由器决定了每个像素点该产生几个气泡专家们也预测出了气泡的初始位置和隐含特征之后还有最后一道工序确定每个气泡的完整参数包括大小、旋转方向、透明度和颜色。这道工序叫做邻域条件高斯参数预测Neighbor-Conditioned Gaussian Parameter Prediction。核心思路是一个气泡不应该孤立地决定自己的形态而应该参考周围邻居气泡的信息从而在局部保持几何一致性。具体实现上系统会为每个气泡找到在三维空间中距离它最近的8个邻居气泡然后通过一种类似注意力机制Attention的方式让这个气泡的特征与邻居的特征、以及相对空间位置编码进行交互融合。这个过程有点像一群人在讨论如何装修一面墙每个人不只看自己负责的那一块还会参考左右两侧同事的选择最终呈现出一个风格协调的整体效果。由于整个场景里可能有几十万甚至上百万个气泡逐一搜索最近邻居的计算量会非常惊人。研究团队采用了一个粗到细的策略先把气泡聚类确定大致的邻域范围再在局部范围内做精确搜索借助GPU加速库可以在毫秒级别完成数百万气泡中的邻居搜索。最终每个气泡的大小、旋转、透明度和颜色都通过这个融合了邻居信息的特征来预测保证了气泡群体在局部的物理合理性和视觉连贯性。---五、训练与实验用数字说话整个系统在8块英伟达A100显卡上训练使用了9个来自不同场景的公开数据集包含室内、室外、合成场景、真实采集场景等各种类型。训练过程中每批次随机抽取2到24张图像作为输入图像最大边长限制在448像素长宽比随机变化这种多样化的训练配置使模型能够适应各种实际拍摄条件。训练完成后研究团队在三个不同的测试基准上进行了评估。DL3DV是一个包含大量室内外多样化场景的大规模数据集测试集有140个场景RealEstate10K是来自真实房产视频的室内外场景数据集Mip-NeRF 360则是7个真实场景的360度无边界环境数据集几何结构复杂、深度变化大。评估分别在输入4张、8张、16张和24张图像的条件下进行覆盖了从极端稀疏到相对密集的不同信息量场景。评估指标方面研究团队使用了三个标准衡量渲染质量PSNR峰值信噪比数值越高越好反映像素级别的还原精度、SSIM结构相似性越高越好衡量画面结构的保真度和LPIPS感知相似性越低越好模拟人眼对图像差异的感知。此外气泡总数量也是关键指标体现了方法的紧凑程度。在DL3DV数据集16张输入图像的条件下SplatWeaver相比当时最强竞争对手AnySplat的PSNR高出1.02分贝而气泡数量仅为其30%。换句话说用不到三分之一的气泡预算取得了更好的渲染质量。在RealEstate10K和Mip-NeRF 360两个零样本测试集训练时完全未见过这类数据上SplatWeaver同样保持了一致的领先优势显示出良好的泛化能力。研究团队还提供了一个极致紧凑版本SplatWeaver通过进一步压缩预算约束使气泡数量降至普通版本的约三分之一不足竞争对手的10%但渲染质量依然与多数现有方法相当甚至更优。在稠密视角合成使用64张输入图像场景下SplatWeaver与需要精确相机参数标定的优化类方法如3DGS、Mip-Splatting以及依赖已知相机位姿的前馈方法如Long-LRM相比同样在各项指标上领先所用气泡数量905K也远少于AnySplat的5745K。相机位姿估计的评估同样证明了SplatWeaver的优势在RealEstate10K和CO3Dv2两个数据集上其位姿估计精度均超过了直接使用VGGT视觉几何基础模型以及AnySplat。研究团队认为这得益于更精简却更具代表性的高斯场景表示——当气泡的分布更加合理时从场景结构中提取几何先验的效果也更好进而有助于相机位姿的精确估计。在效率对比上SplatWeaver在16张输入条件下的推理延迟为1.9秒存储占用29.2MB渲染帧率301FPS均优于或接近其他方法而渲染质量PSNR 20.11则在所有方法中排名最高。---六、深挖细节消融实验揭示每个组件的真实价值为了弄清楚每个设计选择到底贡献了多少研究团队做了一系列拆解实验逐步移除不同组件观察性能变化。从最基本的朴素剪枝基线开始它的PSNR仅为17.56分贝。加入基数高斯专家路由机制后PSNR跃升至19.19提升了1.63分贝这是最大的单一提升直接验证了按需分配机制的核心价值。再加入频率先验引导包括引导模块和正则化损失PSNR进一步升至19.77提升0.58分贝说明高频先验对路由决策质量有实质性的改善。最后加入邻域条件参数预测PSNR来到20.11再提升0.34分贝证明了借助邻居信息改善参数估计这一思路的有效性。研究团队还测试了不同专家数量的影响。使用2位专家时PSNR为19.23使用3位时为19.57使用4位时达到最优的20.11而增加到5位时性能微降至20.05。由此确定4位专家零号、一号、二号、三号为最佳配置——既有足够的分配粒度又不会因为优化空间过高而增加训练难度。对邻居数量K的测试显示K从4增加到8时性能稳步提升PSNR从19.88到20.11K继续增加到10时几乎没有额外提升但推理延迟略有增加。因此最终选择K8作为默认值。针对路由正则化中高频能量分位数参数ρ的敏感性测试显示当ρ?和ρ?过大时如各占10%会扰乱平滑区域的分配平衡导致性能下降。在合理范围内最终选择ρ?2%、ρ?2%、ρ?20%模型对具体取值不太敏感体现出良好的鲁棒性。预算控制因子ε从0.1增加到0.3时带来显著的质量提升PSNR从19.52到20.11继续增加到0.5和1.0时提升变得越来越小而气泡数量却急剧膨胀从451K增至1744K。可见0.3是质量与效率的最优平衡点此后继续堆砌气泡只会带来边际递减的回报。---七、可视化验证专家们真的学会了区分复杂度实验结果的数字固然重要但更直观的证据来自可视化分析。研究团队对不同场景中每个像素被分配给哪位专家的情况进行了可视化。结果清晰地显示出复杂处密集、简单处稀疏的分配模式平整的墙壁、单色的地板、均匀的天空大量被路由到零号专家或一号专家几乎不产生气泡而砖墙纹理、植物枝叶、室内家具、建筑细节等区域则被路由到三号专家密集地铺满气泡。加入频率先验引导与不加入的对比图同样说明了问题没有频率先验时路由决策显得混乱气泡分布缺乏与场景结构的对应关系加入之后分配模式与场景的几何复杂性高度吻合。此外对不同专家预测的气泡尺寸分布的可视化也颇具说服力低基数专家零号、一号倾向于预测大尺寸气泡用少量大气泡覆盖平坦区域高基数专家三号预测的则以小尺寸气泡为主用密集的细小气泡捕捉高频细节。这种自发涌现的专业化分工与绘画直觉高度一致也印证了整个设计框架的物理合理性。场景几何可视化进一步表明SplatWeaver不仅能生成高质量的新视角图像还能生成精确的深度图说明气泡的空间分布准确反映了场景的三维结构而非仅仅在二维投影层面凑出正确颜色。---说到底SplatWeaver做的事情并不神秘但它解决的问题是真实存在的。就像一座城市的供电网络不会给每条街道铺设同样粗细的电缆——商业中心用电量大就铺更粗的电缆荒郊野外用电量小细电缆就够了。让AI的三维重建系统也学会这种按需分配的道理带来的效益是双重的既省下了不必要的气泡开销又把有限的资源集中到真正需要的地方从而提升了整体质量。这项研究对普通人意味着什么短期内它可能推动手机AR应用、在线三维看房、影视特效制作等场景下的三维重建工具变得更快、更精准、更省存储空间。更长远地看当三维场景重建不再需要大量计算资源它就有可能真正下沉到消费级设备上让普通人拍几张照片就能生成可以分享的三维场景成为日常操作。归根结底有时候最聪明的进步不是做得更多而是把资源放在更对的地方。感兴趣的读者可以通过arXiv编号2605.07287找到完整论文亦可前往GitHub页面 yecongwan/SplatWeaver 查阅开源代码。---QAQ13D高斯泼溅技术是什么和普通3D建模有什么区别A3D高斯泼溅是一种用大量半透明气泡来表示三维场景的技术每个气泡有自己的位置、大小、颜色和透明度。与传统3D建模需要人工构建网格不同它可以从照片自动学习生成渲染速度极快通常能达到每秒数百帧。SplatWeaver就是在此基础上让气泡分配更加智能。Q2SplatWeaver和现有方法相比到底快了多少、省了多少A在DL3DV数据集16张输入图像的测试条件下SplatWeaver使用约45万个气泡渲染质量PSNR达到20.11分贝而对比方法AnySplat使用152万个气泡却只达到19.09分贝。也就是说SplatWeaver用不到三分之一的气泡数量取得了更高的渲染质量存储占用仅29.2MB渲染速度达到每秒301帧。Q3SplatWeaver需要提前知道相机位置和角度吗A不需要。SplatWeaver属于无标定前馈方法输入的照片不需要提前知道相机的位置和朝向。系统会自动估计各张照片对应的相机参数同时完成三维重建。实验显示其相机位姿估计精度甚至优于专门用于此任务的VGGT模型。