CUBE:融合B样条与神经网络的3D人脸高保真可控表示

发布时间:2026/5/28 8:34:45

CUBE:融合B样条与神经网络的3D人脸高保真可控表示 1. 项目概述当B样条遇上神经网络3D人脸表示的新范式在数字人、虚拟现实和影视特效领域高保真度的3D人脸模型是核心技术资产。从业者们都清楚一个好的3D人脸表示需要同时满足几个看似矛盾的需求它必须能精确捕捉从宏观脸型到微观皱纹的所有细节高表达力需要保持模型之间的顶点对应关系以便于动画和统计分析语义一致性还得允许艺术家或算法对特定区域比如只调整嘴角进行直观、局部的编辑可控性。传统上我们在这几个目标之间做着艰难的权衡。3D Morphable Models (3DMM) 是行业多年的主力它通过一个低维的线性参数空间来描述人脸变化优点是简单、快速且天然保持对应关系。但它的天花板也很明显——那个固定的线性基底很难捕捉因人而异的高频细节比如独特的疤痕、酒窝或者极端的表情。后来隐式神经表示比如用神经网络学习符号距离场火了起来它能表达极其丰富的细节但问题也随之而来从隐式场提取显式网格比如用Marching Cubes计算成本高而且不同模型之间没有天然的顶点对应关系这给后续的动画、编辑带来了巨大麻烦。CUBE的出现正是为了打破这种僵局。它的核心思想非常巧妙为什么不把经典的、具有完美局部支撑和插值特性的B样条体积与现代神经网络的强大学习能力结合起来呢B样条就像是一个由控制点构成的、柔韧的“隐形骨架”移动一个控制点只会影响它周围一小块区域的形状这提供了理想的局部控制能力。而神经网络则像一位“细节雕刻家”能为这个基础骨架增添血肉和纹理般的精细几何。具体来说CUBE不再使用传统的三维空间坐标作为B样条体积的控制点而是使用一个高维的、可学习的“控制特征”网格。当你查询空间中任意一点时CUBE先用B样条基函数对这些高维特征进行平滑插值得到一个特征向量。这个向量的前三个维度直接给出一个粗糙的“基础形状”坐标然后整个特征向量被送入一个轻量级的多层感知机MLP预测出一个精细的“残差位移”。最终输出就是基础形状加上这个残差。这个过程保证了从同一个模板网格采样点查询时输出的所有模型都具有完全一致的网格拓扑和顶点对应关系。这种设计带来了几个直接的好处第一它继承了B样条的局部性你可以通过修改单个或一组控制特征来精确地、局部地编辑模型形状比如单独拉高鼻梁或让嘴唇噘起而不会影响整个脸部。第二通过神经网络学习残差它获得了远超传统B样条的细节表达能力。第三由于输出是直接基于模板网格顶点坐标的变形它天然产出一个标准化的、可立即投入动画管道的三角网格无需昂贵的等值面提取。对于从事人脸建模、扫描重建、表情动画的工程师和艺术家来说CUBE提供了一种兼具高保真度、强可控性和生产流程友好性的新工具。2. 核心原理深度拆解CUBE的两阶段解码与局部支撑奥秘要真正理解CUBE为何有效我们需要深入其数学核心和架构设计。这不仅仅是“B样条MLP”的简单拼接而是一次深思熟虑的融合旨在同时获取参数化模型的明确控制能力和数据驱动模型的丰富表达能力。2.1 B样条体积与高维控制特征从几何空间到特征空间传统的B样条体积或NURBS体积定义了一个从三维参数域(u, v, w)到三维欧几里得空间(x, y, z)的映射。这个映射由三维空间中的控制点网格P_ijk和一组B样条基函数N(u), N(v), N(w)加权求和得到。其局部支撑性源于基函数的性质每个基函数只在参数域的一个局部区间内非零。因此移动一个控制点P_ijk只会影响参数域中对应局部区间内的输出曲面这正是CAD软件中实现局部编辑的数学基础。CUBE的第一个关键创新是将这个映射的目标空间从三维几何空间扩展到了高维特征空间。它定义了一个(m x m x m)的网格但网格上的每个节点不再是三维点而是一个d维的特征向量c_ijk ∈ R^dd通常远大于3如384、512、1024。这样B样条体积f(u, v, w)的输出就不再是一个点坐标而是一个d维的特征向量z。你可以把这个过程想象成一个“特征插值器”对于参数空间中的任何一点CUBE通过周围控制特征的高维插值为其分配一个独特的特征描述符。注意这里控制特征的维度d是一个超参数它决定了模型潜在的表达能力。更高的维度意味着每个控制点能编码更丰富的信息但也会增加模型参数量和计算开销。论文中的实验表明在扫描注册任务中将d从384提升到1024能带来显著的精度提升。2.2 两阶段解码从粗糙到精细的生成策略得到高维特征向量z后CUBE并不直接用它来回归最终坐标而是采用了一个巧妙的两阶段策略这极大地提升了表示的效率和效果。第一阶段基础形状生成特征向量z的前三个维度(z1, z2, z3)被直接解释为三维空间坐标x_base。这可以看作是一个线性的、由B样条插值直接决定的“基础网格”。这个基础网格已经能够捕捉人脸的宏观结构和主要形态变化。由于B样条插值本身是平滑的这个基础网格也是光滑的避免了不合理的剧烈几何变化。第二阶段神经残差细化基础形状虽然平滑但缺乏高频细节。这时整个d维特征向量z被送入一个轻量级的MLP网络g。这个MLP的任务是学习一个从高维特征到三维位移的映射g(z) x_refinement。最终输出的三维点坐标为x_out x_base x_refinement。这种设计的精妙之处在于职责分离B样条部分基础形状负责建模全局的、平滑的几何变化。它利用B样条先天的局部性和平滑性确保了形状变化的合理性和可控性。MLP部分残差负责建模局部的、高频的几何细节。它利用神经网络的非线性拟合能力从高维特征中解码出那些无法用简单线性插值表达的精细特征如皮肤褶皱、毛孔级别的凹凸等。这种分工使得整个系统非常高效。B样条计算是确定性的、快速的线性操作而MLP通常设计得很小论文中是4层计算开销低。两者结合既获得了非线性模型的表达能力又保持了参数化模型的效率和可解释性。2.3 局部编辑能力的根源B样条基函数的局部支撑性CUBE实现精确局部编辑的能力完全继承自B样条基函数的“局部支撑”性质。对于r次通常为2次即3阶B样条每个基函数N_i^r(u)只在参数区间[t_i, t_{ir1})内非零。在三维体积中一个输出点(u, v, w)的特征值z仅由参数域中其附近(r1)^3个控制特征对于2次B样条是27个的加权和决定。这意味着当你修改控制特征网格中某一个节点c_ijk的值时只有参数域中与该节点基函数支撑区间相交的那部分空间即对应的一块局部体积的输出会发生变化。映射到三维人脸模型上就表现为对特定面部区域如左脸颊、鼻尖的编辑。这种影响是连续且平滑衰减的不会出现编辑边界处的突兀不连续。在CUBE中由于控制特征是高维的你可以选择性地只修改其中与几何相关的维度如前三维而保留其他与细节纹理可能相关的维度不变从而实现更精细的控制。例如你可以移动一个控制特征的前三维来改变局部区域的整体位置和朝向同时保持该区域的表面细节由高维特征的其他分量和MLP共同决定相对稳定。3. 从扫描到CUBE基于Transformer的编码器设计一个强大的表示需要配套一个强大的“编译器”能将原始数据如3D扫描点云高效、准确地转换为该表示的参数。CUBE论文提出了一种基于Transformer的编码器架构用于从非结构化的3D人脸扫描直接预测CUBE的控制特征网格。3.1 输入处理与Token化原始3D扫描通常是一堆无序的、数量可变的(x, y, z)点坐标。编码器的首要任务是将这种不规则数据转换为Transformer能处理的固定长度序列。中心化首先将扫描点云平移使其顶点均值位于坐标原点。这一步简化了后续学习让模型更专注于形状本身而非其在空间中的绝对位置。位置编码可选但推荐对每个点的三维坐标应用傅里叶位置编码。这并非必须但论文发现它能显著加速训练收敛。其原理是将低维坐标映射到高维正弦/余弦空间帮助模型更好地感知点的空间位置关系。Token化将经过位置编码的点云通过一个线性投影层映射成s个维度为d的token。这里s是固定的例如2048即使输入点数量不同输出token数也一致。对于点数超过s的扫描通常进行随机采样对于点数不足的可能进行填充或重复采样。3.2 可学习的控制Token与Transformer编码这是编码器设计的核心。除了从扫描点云生成的s个token模型还初始化了一组m_c m * m * m个可学习的控制token每个token的维度也是d。这m_c正好对应CUBE解码器中控制特征网格的总节点数。这些控制token与扫描token在序列维度上进行拼接形成一个长度为(s m_c)的输入序列然后送入标准的Transformer编码器论文中采用了XCiT注意力机制。在Transformer的自注意力机制中扫描token携带了输入数据的几何信息而可学习的控制token则像一块“画布”通过与扫描token交互逐渐“吸收”并整合出描述整个形状的全局和局部信息。经过多层Transformer块的处理后我们从输出序列中提取出前m_c个token的嵌入向量它们就对应了已经“注入”了扫描形状信息的控制特征。将这些特征向量重新整形为(m, m, m, d)的张量就得到了CUBE解码器所需的控制特征网格。而扫描token在完成信息传递的使命后便被丢弃。实操心得这种“扫描token 可学习控制token”的设计非常巧妙。它避免了直接将可变长度的点云映射到固定大小网格的困难而是通过注意力机制让控制token主动去“询问”和“聚合”扫描点云的信息。训练时这些控制token是随机初始化并通过梯度下降学习的它们最终会学会代表形状空间中某些有意义的局部模式。3.3 训练目标与损失函数模型的训练是端到端监督式的。需要有一个数据集包含大量“原始扫描 - 已注册模板网格”的配对数据。已注册网格提供了每个模板顶点在目标形状上的真实位置。损失函数直接而有效采用L1距离平均绝对误差基础形状损失计算预测的基础网格顶点B_pred与真实注册网格顶点GT之间的L1距离。最终形状损失计算预测的最终网格顶点M_pred基础形状残差与真实注册网格顶点GT之间的L1距离。总损失是这两个损失的加权和论文中设置为等权。同时监督基础形状和最终形状确保了学习过程的稳定性B样条部分首先需要学会捕捉大体形状然后MLP再在此基础上添加细节。如果只监督最终输出网络可能会走捷径让MLP去学习所有内容从而破坏了B样条部分的可解释性和局部性。4. 实战应用与性能剖析扫描注册与局部编辑理论再优美也需要实战检验。CUBE论文通过两个核心应用场景——面部扫描注册和单目图像重建——展示了其价值。这里我们重点剖析扫描注册这是验证几何表示能力最直接的试金石。4.1 面部扫描注册流程与优势扫描注册的目标是将一个非结构化的、顶点数量和连接关系不定的3D扫描通常来自多视角重建或深度相机变形注册到一个标准的、具有固定拓扑结构的模板网格上。注册后的网格顶点数、顺序一致便于进行统计分析、表情动画和数据库构建。CUBE实现扫描注册的流程非常清晰输入原始3D扫描点云。编码通过上述Transformer编码器预测出CUBE的控制特征网格c。解码将标准模板网格的顶点坐标归一化到[0,1]^3参数空间作为查询点x_sample输入到由c参数化的CUBE解码器中。输出得到与模板网格拓扑完全一致的、已注册的3D人脸网格。这个过程是前馈的feed-forward一次前向传播即可得到结果速度远快于传统的迭代最近点ICP类优化方法。CUBE在此任务中的优势体现在高保真度两阶段解码机制能同时重建准确的宏观形状和丰富的微观细节。语义一致性所有输出共享同一模板顶点顺序天然保持密集语义对应。对输入鲁棒Transformer编码器能处理不同点数、不同朝向的扫描无需复杂的预处理如手动对齐。4.2 消融实验与性能对比数据驱动的设计选择论文通过详尽的消融实验验证了CUBE各个组件的必要性并与其他前沿方法进行了对比。消融实验关键发现控制点数量m_c的影响更多的控制点从4^364到16^34096意味着更精细的局部控制能力能够捕捉更复杂的几何变化。实验表明在编码器大小相同的情况下增加控制点数量能持续降低重建误差点-扫描距离和顶点-顶点距离。残差MLPg的作用在所有配置下启用残差MLP的模型性能均显著优于仅使用基础形状即仅用B样条插值前三维的模型。这证明了神经网络对于恢复高频细节至关重要。特别是在控制点较少时如4^3残差MLP预测的位移幅度更大说明它正在努力补偿B样条基础表达能力的不足。编码器容量更大的Transformer编码器从CUBE-S到CUBE-L拥有更强的特征提取和融合能力能够从点云中预测出更准确的控制特征从而在所有指标上取得更好的结果。最佳配置是CUBE-Large编码器配合16^3的控制点。与SOTA方法的对比论文将CUBE与两种先进的扫描注册方法进行了对比BPS (Basis Point Sets)一种基于点云编码的方法。它使用一组随机分布的基点计算扫描点到每个基点的最近距离来形成固定大小的特征然后用MLP解码。BPS对扫描的方向非常敏感且在处理某些姿态的扫描时容易“崩溃”到平均脸预测导致细节丢失和身份信息错误。TEMPEH一种基于多视图图像的方法作为对比上限。它从多张图片中提取特征并融合成3D特征体然后通过3D卷积网络预测形状。TEMPEH虽然指标尚可但其重建结果常带有噪声和几何伪影。定量结果在真实扫描测试集上显示CUBE-L带残差在点-扫描距离和顶点-顶点距离上均显著优于BPS和TEMPEH。定性结果更直观CUBE重建的网格在保持身份特征和表情精度方面表现最佳即使对于吐舌头等挑战性表情也能紧密贴合扫描数据而BPS的结果则过于平滑且身份失真TEMPEH则存在表面噪声。4.3 局部形状编辑直观且强大的控制能力这是CUBE区别于许多“黑盒”神经网络模型的最大亮点。由于其B样条核心编辑变得直观且物理意义明确。1. 控制特征交换假设你有两个人脸模型的CUBE表示一个中性表情一个大笑表情。你可以直接将大笑模型控制特征网格中对应于下巴和嘴部区域的那些特征块“剪切粘贴”到中性模型对应的空间位置上。CUBE解码后中性脸的下半部分就会呈现出大笑的形状而上半部分额头、眼睛保持不变。这种操作在传统3DMM中很难实现因为其参数通常是全局的、纠缠的在隐式表示中则几乎不可能因为没有明确的空间对应关系。2. 单个控制点编辑更精细的操作是直接修改单个控制特征。如前所述由于局部支撑性修改一个控制点c_ijk只会影响其参数域支撑区间对应的面部局部区域。在论文的示例中仅修改一个控制点的前三维坐标相当于在三维空间中移动它就实现了对下嘴唇形状的局部微调而脸颊、鼻子等其他部位完全不受影响。这为艺术家提供了类似雕刻软件中“控制点”般的直观编辑体验。3. 控制特征插值与算术运算CUBE的控制特征存在于一个连续的、有意义的潜在空间中。因此你可以对两个形状的控制特征进行线性插值从而得到一系列在两个形状之间平滑过渡的中间形状。更进一步你可以进行特征算术运算例如“微笑脸的控制特征 - 中性脸的控制特征 微笑位移向量”。将这个位移向量加到另一个人的中性脸控制特征上就有可能实现表情迁移。这为基于扫描的表情库构建和动画重定向开辟了新途径。注意事项虽然局部编辑很强大但编辑的“粒度”受控制网格分辨率m的限制。8x8x8的网格提供了比4x4x4更精细的局部控制区域。编辑时也需理解控制特征是高维的直接修改其所有维度可能会同时改变几何和潜在的细节信息有时需要实验来达到预期效果。一种稳健的做法是只编辑与基础形状相关的前三维。5. 实现细节、常见问题与扩展思考5.1 训练数据合成与模型配置由于获取大量“原始扫描-精准注册网格”的配对真实数据成本高昂论文采用了一种巧妙的合成数据策略来训练扫描注册模型从一个包含多样本的人脸网格数据库中随机采样一个基础网格。使用程序化方法为该网格添加皮肤纹理、头发、衣物、配饰等生成一个逼真的完整人头模型。在Blender中设置多个虚拟相机视角渲染出该模型的合成图像。将这些多视图图像输入到一个现成的多视角立体MVS重建管道中生成一个带有噪声和缺失的、非结构化的3D点云“扫描”。这样原始网格经过标准化到模板拓扑作为真实值Ground Truth生成的“扫描”作为输入就构成了一个完美的训练对。这种方法可以廉价地生成数十万甚至数百万的配对数据且覆盖了广泛的身份、表情和遮挡情况对于训练数据驱动的模型至关重要。在模型配置上论文提供了三个规模CUBE-S, CUBE-M, CUBE-L分别对应不同大小的Transformer编码器嵌入维度、层数、注意力头数递增。控制特征维度d也随之增加。更大的模型表达能力更强但需要更多的计算资源和数据。对于大多数研究或中等规模应用CUBE-M是一个不错的起点。5.2 常见问题与排查思路在实际尝试复现或应用CUBE时可能会遇到以下问题1. 重建结果过于平滑缺乏细节。可能原因残差MLPg的容量不足或训练时对最终形状的损失权重过低导致网络过于依赖基础形状。排查与解决检查MLP的层数和隐藏层维度。尝试增加MLP的容量。确保总损失中L_final的权重足够。同时检查控制点数量m_c是否过少增加控制点可以提供更细粒度的基础形状控制为MLP的残差预测减轻负担。2. 局部编辑时影响区域过大或边界不自然。可能原因B样条的次数r设置过高。B样条次数越高基函数的支撑区间越宽单个控制点的影响范围就越大。排查与解决CUBE默认使用2次3阶B样条这是一个在平滑性和局部性之间较好的平衡。除非有特殊需求不建议增加次数。如果编辑边界出现不连续C0连续检查B样条节点向量T的设置是否正确确保其满足连续性条件。通常使用均匀节点向量即可。3. 训练不稳定或收敛慢。可能原因Transformer编码器的学习率设置不当或控制token初始化不佳。输入点云未进行有效的归一化或位置编码。排查与解决为编码器和解码器CUBE部分设置不同的学习率通常编码器需要更小的学习率。尝试对控制token使用更小的随机初始化标准差。强烈建议启用傅里叶位置编码这能极大加速点云空间关系的收敛。确保输入点云已中心化减去均值。4. 对极端姿态或严重遮挡的扫描注册失败。可能原因训练数据中缺乏类似分布的样本。Transformer编码器难以从严重缺失的数据中推断完整形状。排查与解决在合成数据阶段增加更多样的相机姿态、表情和遮挡物如手、眼镜、头发。可以考虑在训练中引入数据增强如随机旋转、缩放、以及模拟点云缺失。对于实际应用可能需要收集或合成一些针对性的困难样本来微调模型。5.3 超越人脸CUBE表示的扩展潜力虽然论文聚焦于人脸但CUBE的思想具有普适性可以扩展到其他刚体或非刚体对象的表示。人体形状与姿态可以设想一个针对人体的CUBE表示控制特征网格覆盖人体空间。结合骨骼驱动或姿态参数可能实现对人体形状和姿态的联合建模与编辑。动态场景表示将控制特征视为时间的函数或者为每个时间步预测一组控制特征可以实现对动态变形序列如说话人脸、手势的紧凑表示。与外观模型结合目前的CUBE专注于几何。一个自然的扩展是为每个控制特征同时关联一个外观特征如颜色、材质参数通过类似的插值和解码机制实现几何与外观的联合编辑迈向完整的“可编辑神经资产”。交互式建模工具将CUBE集成到3D建模软件中艺术家可以直接在3D空间拖拽控制点对应控制特征的前三维来实时变形模型同时由后台的MLP自动生成合理的细节这能极大提升数字内容创作的效率。CUBE的成功在于它找到了一个平衡点在经典几何表示的明确性、可控性与现代数据驱动表示的灵活性、高保真度之间架起了一座桥梁。它提醒我们在追逐最前沿的“纯神经”方法时那些经过时间考验的经典计算机图形学工具在与深度学习结合后依然能迸发出强大的生命力。对于从事3D视觉和图形学的研究者与开发者而言深入理解并掌握这种“混合表示”的设计哲学或许比单纯使用某个最新模型更为重要。

相关新闻