扩散模型驱动3D生成:从2D先验到3D空间扩散的技术演进

发布时间:2026/5/27 2:20:00

扩散模型驱动3D生成:从2D先验到3D空间扩散的技术演进 1. 项目概述扩散模型如何重塑3D内容创作最近几年如果你关注AIGC人工智能生成内容领域一定被各种“一句话生成3D模型”的演示刷过屏。从一段简单的文字描述比如“一只戴着眼镜、正在打字的卡通猫”就能生成一个可以360度旋转、带有纹理的3D模型这听起来像是魔法。但在这背后推动这场3D内容创作革命的核心技术之一正是从图像生成领域“降维打击”而来的扩散模型。我最初接触3D生成时传统方法要么依赖专业建模软件手动雕琢费时费力要么使用基于GAN或VAE的早期生成模型结果往往粗糙、缺乏细节且难以控制。直到扩散模型在2D图像上证明了其生成高质量、多样化内容的惊人能力大家才开始思考这套强大的“去噪”哲学能否直接套用到更复杂的3D数据上答案是肯定的但道路远比想象中曲折。3D数据不像2D图像那样是规整的像素矩阵。一个3D物体可以用点云一堆空间坐标、网格由顶点和面构成、体素3D像素或者神经辐射场NeRF这类隐式函数来表示。每种表示都有其优势和软肋点云简单但缺乏表面信息网格利于渲染但拓扑结构固定NeRF渲染质量高但训练和推理慢。如何让扩散模型理解并生成这些形态各异的数据是第一个大难题。更棘手的是高质量、大规模的3D数据集远比ImageNet这样的2D图像集稀缺这直接限制了模型学习复杂3D先验知识的能力。尽管如此社区已经探索出了几条鲜明的技术路径并在物体生成、场景构建、甚至3D编辑等方面取得了快速进展。简单来说当前的主流方法可以归结为三大流派借用现成的2D扩散模型“老师”来指导3D生成、训练专门的2D多视图扩散模型以及直接在3D表示空间里训练扩散模型。每种方法都在效率、质量和通用性上做着不同的权衡。接下来我将为你深入拆解这些方法的原理、技术细节以及在实际操作中会遇到的那些“坑”希望能为你理解或进入这一领域提供一张实用的地图。2. 核心原理扩散模型与3D表示的基石在深入各种技术流派之前我们必须打好两个基础一是理解扩散模型究竟是如何工作的二是弄清楚3D数据有哪些常见的“包装形式”。这就像学做菜前得先认识灶具和了解食材特性。2.1 扩散模型从噪声中创造秩序的哲学扩散模型的核心思想非常直观它模拟了一个逐步加噪直至完全混乱再学习如何一步步去噪恢复原貌的过程。你可以把它想象成一张清晰的画作被逐渐泼上墨点直到变成一片纯黑前向过程然后训练一个模型学会如何从这片纯黑中一步步擦除墨点最终还原出画作反向过程。前向过程是一个固定的马尔可夫链。假设我们有一个干净的数据样本x0可以是一张图片也可以是一个3D点云我们逐步向其中添加高斯噪声。在每一步t我们根据一个预设的噪声调度表β_t得到稍微更嘈杂的版本x_t。数学上表示为q(x_t | x_{t-1})。经过足够多的步骤T后x_T就几乎变成了一个纯高斯噪声所有原始信息都被掩盖。反向过程则是我们要学习的核心。我们需要训练一个神经网络通常是U-Net结构来预测每一步所添加的噪声ϵ或者等价地预测去噪后的数据x_{t-1}。训练目标是最小化预测噪声与真实添加噪声之间的差距。一旦这个网络训练完成我们就可以从纯噪声x_T开始反复应用这个学习到的去噪步骤最终采样出一个来自数据分布的新样本x_0。在3D生成中这个x_t和x_0可以是任何形式的3D数据表示。例如x_t可以是一个被噪声污染的点云坐标集合也可以是一张在多视角下渲染出的带有噪声的2D图片。扩散模型的强大之处在于只要我们能定义好数据的噪声添加和去除方式并提供足够的训练数据它就能学会该数据分布的复杂结构。2.2 3D数据表示选择你的“建模语言”正如前言所述3D世界没有像2D图像RGB矩阵那样的标准格式。选择哪种表示形式直接决定了后续扩散模型的设计、训练效率和生成质量。以下是几种主流的“建模语言”显式表示点云最简单直接就是一组(x, y, z)坐标可能附带颜色或法向量。它存储高效但缺乏连续的表面信息直接生成时容易产生不均匀分布或孔洞。网格由顶点、边和面构成是计算机图形学中最常用的表示能直接被游戏引擎或渲染管线使用。但其离散的拓扑结构使得基于梯度的优化如扩散训练比较棘手。体素将3D空间划分为均匀的小立方体网格每个体素有一个值如占有概率。它规则整齐易于用3D卷积处理但内存消耗随分辨率立方增长难以表达高细节。隐式表示神经场 这是近年来最火热的方向。它用一个神经网络如一个小型MLP将3D坐标(x, y, z)映射到某个属性比如符号距离函数SDF的值该点到物体表面的带符号距离或者像NeRF那样映射到颜色和密度。NeRF通过体积渲染可以生成极其逼真的新视角图像但它的查询和渲染速度很慢。隐式表示内存效率高能表达任意分辨率的细节并且是连续可微的非常适合与扩散模型结合进行优化。混合与新兴表示 为了兼顾效率与质量混合表示应运而生。三平面Triplane这是EG3D等模型推广的高效表示。它用三个轴对齐的特征图XY, YZ, XZ平面来表征3D空间。对于任意3D点将其投影到这三个平面上获取特征再聚合起来送入一个小解码器得到最终属性。它像2D图像一样规整便于用2D卷积网络处理同时又具有3D意识。3D高斯泼溅3D Gaussian Splatting这是2023年杀出的一匹黑马。它将场景表示为一系列带有位置、协方差控制形状和朝向、颜色和不透明度的3D高斯椭球。渲染时通过“泼溅”到2D屏幕实现了实时的高质量渲染。由于其显式的性质和可微的渲染器它正迅速成为许多3D生成任务如DreamGaussian的首选表示。注意表示的选择没有绝对优劣只有是否适合。如果你的目标是快速生成可交互的网格那么基于SDF或DMTet深层行进四面体的隐式表示可能更合适。如果你追求照片级的渲染质量且可以接受较慢的渲染NeRF是很好的选择。如果速度是首要考量3D高斯泼溅是目前最前沿的方向。3. 技术路径一利用预训练2D扩散模型进行3D生成这是目前让文本生成3D效果最惊艳、也是入门门槛相对较低的一类方法。其核心思想非常巧妙既然我们没有足够好的3D扩散模型但已经有了强大的、能理解文本并生成高质量图像的2D扩散模型如Stable Diffusion何不把它当作一个“评判老师”来指导3D模型的优化3.1 核心引擎分数蒸馏采样SDS这类方法的基石是分数蒸馏采样Score Distillation Sampling, SDS最早由DreamFusion提出。我们可以把它理解为一个“通过2D图片反馈来雕刻3D形状”的过程。流程拆解初始化一个3D表示比如一个随机初始化的NeRF或一组3D高斯。随机渲染从一个随机视角将这个3D场景渲染成一张2D图片g(θ)其中θ是3D场景的参数。请教“老师”将这张渲染图输入到冻结的、预训练的2D扩散模型中。我们不是让扩散模型直接输出图片而是让它告诉我们“如果我想让这张图看起来更像你的文本提示y我应该朝哪个方向修改”具体操作在扩散模型的潜空间或像素空间对渲染图加噪至某一步t得到x_t。然后让扩散模型去噪预测出噪声ϵ_φ(x_t; y, t)。SDS损失的关键在于它计算预测噪声与实际添加的噪声之间的差异并将这个差异作为梯度通过可微渲染器反向传播回3D参数θ。更新3D模型根据梯度更新θ使得从这个视角渲染的图片在扩散模型看来更符合文本描述。循环往复不断重复步骤2-5从大量随机视角进行渲染和优化。最终这个3D模型的所有视角渲染图都会落入预训练扩散模型所理解的“与文本匹配的图片”分布中从而得到一个看似3D一致的模型。为什么有效预训练的2D扩散模型已经学习了海量图文对蕴含了丰富的视觉先验和几何常识例如一个“猫”有特定的形状、纹理从侧面看应该是什么样。SDS通过多视角的2D监督将这些知识“蒸馏”到了3D表示中。3.2 代表性工作与实战技巧DreamFusion SJC开山之作。DreamFusion用NeRF作为3D表示SJC用了体素网格。它们证明了SDS的可行性但存在Janus多面问题生成物体多个面都是正面、几何粗糙、优化慢数小时等问题。Magic3D采用了由粗到细的两阶段策略。先用低分辨率潜空间扩散模型快速优化一个粗糙的NeRF然后提取出网格再用高分辨率扩散模型优化纹理细节。这大大提升了生成质量。DreamGaussian革命性地将3D表示换成了3D高斯泼溅。得益于高斯泼溅的显式性质和高效渲染它将优化时间从小时级缩短到分钟级是实用化道路上的重要里程碑。Perp-Neg专门解决Janus问题。它发现问题的根源在于2D扩散模型在训练时没有视角概念。Perp-Neg通过调整SDS中的提示词权重在优化不同视角时强化与该视角相关的正面提示词同时抑制可能导致多面的负面提示词有效生成了视角一致的模型。实操心得与避坑指南提示工程至关重要SDS严重依赖文本提示。模糊的提示会导致结果不稳定。通常需要添加“高清”、“3D模型”、“专业渲染”、“工作室灯光”等后缀来提高质量。对于特定视角可能需要使用视角相关的提示词如“front view”“side view”。优化不稳定是常态SDS的梯度噪声很大容易陷入局部最优或产生漂浮物。常用的技巧包括梯度裁剪、使用指数移动平均EMA来平滑参数更新、以及逐步增加扩散步数t初期用大t探索宏观结构后期用小t雕琢细节。几何与纹理的权衡单独使用SDS往往得到“棉花糖”似的几何体缺乏坚实的表面。一个有效技巧是引入几何正则化比如使用法向图平滑损失或者像Fantasia3D那样将几何通过法向图和纹理通过RGB图分开用不同的SDS损失进行优化。内存与速度的博弈使用NeRF意味着每次渲染都要进行昂贵的体积渲染和反向传播。Instant-NGP这类多分辨率哈希编码器能极大加速NeRF的训练。如果追求极致速度3D高斯泼溅是当前最优选。3.3 从单图到3D图像引导的生成与编辑除了从文本生成这类方法也能从单张或多张图片进行3D重建或编辑。Zero-1-to-3它微调了Stable Diffusion使其能够根据输入图片和相对相机位姿生成该物体在新视角下的图片。有了这个多视图生成模型就可以通过SDS或直接使用生成的多视图图片进行3D重建如使用NeRF或高斯泼溅。Magic123它同时利用了两种先验Zero-1-to-3提供的几何先验相对准确但纹理简单和原始Stable Diffusion提供的纹理先验细节丰富但几何不准。通过一个两阶段优化策略它取得了质量和一致性上的平衡。Instruct-NeRF2NeRF3D编辑的典范。给定一个训练好的NeRF场景和一条编辑指令如“把它变成黄金做的”它利用InstructPix2Pix这样的图像编辑扩散模型迭代地编辑NeRF渲染出的图片并用这些编辑后的图片作为新监督数据来更新NeRF本身从而实现3D场景的语义编辑。提示基于预训练模型的方法最大优势是零样本能力无需3D训练数据直接利用互联网规模的2D知识。但其最大缺点是每生成一个场景都需要漫长的优化过程无法做到快速推理。这引出了下一类方法的需求。4. 技术路径二面向新视角合成的2D空间扩散第一类方法本质上是“优化”不是“生成”。能否训练一个模型直接输入文本或单图快速前向传播输出多张一致的新视角图片然后再用传统的多视图立体算法如COLMAP或快速重建模型如大型重建模型LRM转换成3D呢这就是第二类方法的目标。4.1 核心思想让2D扩散具备3D意识这类方法不再使用现成的2D扩散模型而是从头训练或微调一个扩散模型但其训练数据是多视图图像对。目标是让模型学会3D一致性即生成的任意视角图片在几何和外观上都是相容的可以无缝拼接成一个3D整体。关键技术相机姿态条件化这是最关键的一步。在模型输入中除了噪声图像和文本提示还要显式地加入目标视角的相机参数通常用旋转和平移向量表示。模型需要学会根据这个姿态信息来生成对应视角的图片。注意力机制改造为了加强不同视角间的信息交互许多工作改造了U-Net中的注意力层。交叉注意力在生成目标视角时让模型同时“看到”一个或多个已知的输入视角作为条件通过交叉注意力机制聚合信息。代表工作如Zero-1-to-3。极线注意力在自注意力层中融入几何约束。对于目标图像上的一个点在源图像上沿着其极线搜索对应特征这能更好地保证几何一致性。代表工作如MVDream、SyncDreamer。联合去噪与其一张张独立生成多视图不如让模型同时去噪多个视角的噪声图像并在去噪过程中通过注意力机制让它们相互“沟通”强制达成一致。Viewset Diffusion 是这方面的代表。4.2 工作流程与典型架构一个典型的流程如下给定一个文本提示或一张输入图片模型首先根据某种策略采样一组相机姿态例如环绕物体的等距离视角。然后模型并行或串行地生成这些视角下的图片。由于生成过程是3D一致的这些图片可以直接喂给一个多视图立体视觉MVS或基于学习的高速重建器如LRM, GRM, InstantMesh在几秒到几十秒内生成3D网格或高斯泼溅表示。代表模型解析MVDream它微调Stable Diffusion在注意力层中注入相机姿态嵌入并同时去噪四个视角的图片前、后、左、右。它通过共享自注意力层来实现跨视角信息交换生成了质量高且一致性好的多视图图片。SyncDreamer它采用了一个同步的多视图去噪架构。不是一次性生成所有视图而是递归地进行已去噪的视图作为条件来生成下一个视图。它使用了一个视图池来聚合所有已生成视图的信息确保了全局一致性。One-2-3-45它结合了大规模3D先验。首先用一个轻量级模型从单图快速生成一个粗糙的3D表示如稀疏点云然后用一个大型多视图扩散模型生成更多、更一致的虚拟视图最后用一个高效的重建模块输出精细网格。它在速度和质量间取得了很好平衡。实操中的挑战数据需求这类方法需要大量物体中心的多视图数据如Objaverse, MVImgNet进行训练。数据的质量和规模直接决定了模型的泛化能力。视角分布偏差互联网上的图片多为正面视角导致模型对侧面、背面的生成能力弱。需要在训练数据构造或损失函数设计上做平衡。重建模块的误差累积即使生成的多视图图片在视觉上一致微小的颜色或几何差异在经过SFM或学习式重建时也会被放大导致重建表面有噪声或孔洞。因此生成模型与重建模型的协同设计很重要。5. 技术路径三在3D表示空间直接进行扩散这是最直接、也最具潜力的“正统”方法直接在3D数据上训练扩散模型。这意味着我们有一个3D数据集然后训练一个模型学习这些3D数据的分布从而能够从噪声中直接采样出3D模型。这实现了真正的“一步生成”。5.1 两阶段训练范式由于原始的3D数据如网格、点云非结构化且高维直接在其上应用扩散模型非常困难。因此主流方法普遍采用一个两阶段范式第一阶段学习一个紧凑的3D潜空间目标将高维、复杂的原始3D数据如网格顶点、体素编码到一个低维、结构化的潜表示z中。方法通常训练一个变分自编码器VAE或自编码器AE。编码器将3D数据压缩为潜码解码器从潜码重建出3D数据。重建损失确保潜空间保留了足够的信息。表示选择潜表示z的形式非常关键它决定了第二阶段扩散模型的效率和效果。常见的选择有三平面Triplane特征将3D信息压缩到三个2D特征图上便于使用成熟的2D卷积U-Net进行扩散。潜体素网格将3D体素网格压缩到更低分辨率。潜点集或形状码一个一维的向量。第二阶段在潜空间上训练扩散模型目标在学到的潜空间z上训练一个扩散模型学习该潜空间的分布p(z)。方法使用标准的DDPM或DDIM框架。前向过程对潜码z0加噪反向过程用一个神经网络通常是U-Net的变体去噪。条件生成如果需要文本或图像条件生成可以在去噪网络中引入交叉注意力机制将文本CLIP嵌入或图像特征作为条件输入。推理采样时先从扩散模型采样一个潜码z然后用第一阶段的解码器将其解码成最终的3D模型网格、NeRF等。5.2 不同3D表示的扩散模型实践5.2.1 基于三平面的扩散这是目前最流行的范式之一因为三平面兼具了2D的规整性和3D的信息容量。NFD在ShapeNet等数据集上训练一个三平面自编码器然后在三平面特征上训练2D扩散模型。生成时扩散模型输出三平面解码器将其转换为占据网格。Rodin专注于生成3D数字人头部。它使用一个基础扩散模型生成低分辨率三平面再用一个上采样扩散模型提升细节。它采用了3D感知的卷积来加强三个平面间的特征交互。SSD-NeRF提出了单阶段扩散NeRF将自编码和扩散学习统一到一个框架中。其损失函数同时包含渲染损失确保解码器能正确渲染和扩散去噪损失学习潜空间先验。它支持无条件生成和基于图像的重建。5.2.2 基于隐式表示如NeRF/SDF的扩散DiffRF直接在显式的辐射场体素网格上应用扩散模型。它使用一个时间条件化的3D U-Net进行去噪并将渲染损失整合到扩散训练中使得模型能直接生成可用于体积渲染的辐射场。SDFusion在符号距离函数SDF的潜空间上训练条件扩散模型。SDF能方便地转换为网格。它支持多模态条件输入文本、图像、部分形状并通过后续的SDS优化进一步提升纹理质量。HyperDiffusion一个非常有趣的思路它在MLP的权重空间进行扩散。即每个3D形状对应一个MLP网络的权重集。扩散模型学习这些权重集的分布。生成时采样一组权重就得到了一个能表示3D形状的MLP。这种方法非常灵活甚至可以扩展到4D动态3D生成。5.2.3 基于显式表示如点云的扩散Point-EOpenAI的工作专注于从文本生成点云。它采用级联生成先用一个扩散模型根据文本生成一张低分辨率预览图再用另一个扩散模型根据预览图生成一个稀疏点云最后用一个上采样模型增加点云密度。LION在点云的潜空间进行分层扩散。它使用一个分层VAE同时编码全局形状潜码和局部点潜码并在这两个潜空间上都进行扩散实现了对点云细节和整体结构的精细控制。5.2.4 基于3D高斯泼溅的扩散这是最新的前沿方向。直接生成高斯的所有属性位置、协方差、颜色、不透明度非常困难。GaussianCube它先训练一个扩散模型生成一个结构化的3D高斯锚点网格然后再根据这些锚点预测完整的高斯属性。这种“先锚定后细化”的策略更稳定。GVGEN采用了类似的思路先生成关键点再扩散出完整的高斯表示。5.3 优势、挑战与实操考量优势推理速度快一旦训练完成生成一个3D资产只需一次前向传播秒级摆脱了SDS漫长的每场景优化。高质量先验直接从3D数据中学到的先验几何结构通常比通过2D模型蒸馏得到的更合理、更一致。易于控制潜空间通常具有良好的插值特性便于进行形状编辑、插值等操作。挑战与实操心得数据瓶颈严重依赖大规模、高质量的3D数据集。Objaverse的出现是一剂强心针但其数据质量参差不齐需要精细的清洗和预处理。类别限制大多数模型是在特定类别如椅子、汽车上训练的泛化到未见过的类别或复杂组合概念如“机器龙”能力有限。大规模多类别训练是趋势。纹理细节不足由于3D数据集通常纹理分辨率较低或风格单一直接生成的模型纹理往往比较平滑缺乏真实世界的丰富细节。一个常见的技巧是结合2D纹理扩散模型进行后处理。评估困难如何定量评估生成的3D模型的质量常用的指标有生成质量使用在生成的多视角渲染图上计算的FID弗雷歇距离、KID核距离等。几何质量使用Chamfer Distance倒角距离、EMD推土机距离比较生成点云与真实点云。多样性使用覆盖率Coverage和最小匹配距离MMD。文本对齐度使用CLIP R-Precision计算生成图像的CLIP特征与输入文本特征的匹配度。6. 核心挑战与未来方向尽管进展迅速扩散模型在3D生成领域仍面临诸多挑战这也是未来研究的主要方向。6.1 生成质量从“像”到“真”当前方法生成的3D资产与专业建模师的作品或高保真扫描数据相比仍有明显差距。几何瑕疵基于2D蒸馏的方法常有空洞、漂浮物、拓扑错误基于3D数据的方法则可能过度平滑缺乏锐利细节。纹理与材质难以生成复杂的PBR材质金属度、粗糙度、次表面散射效果。纹理常常是“画”在表面上的缺乏物理真实性。场景级生成的困境现有方法生成室内外复杂场景的能力很弱场景中的物体布局、光照、尺度关系常常不合理。这需要模型理解更深层的物理和空间常识。未来方向需要更大规模、更多样化、更高精度的3D数据集如Objaverse-XL。在模型架构上可能需要更强大的3D感知生成器以及更好地融合2D视觉先验和3D几何约束。6.2 效率瓶颈从“等待”到“实时”优化速度SDS类方法仍需数十分钟甚至数小时的GPU时间生成一个物体无法满足交互式应用需求。训练成本在3D数据上训练扩散模型尤其是高分辨率表示需要巨大的计算资源和时间。推理速度虽然3D空间扩散模型推理快但解码潜码到可渲染的网格或高分辨率NeRF仍需额外时间。未来方向更高效的3D表示如3D高斯泼溅是突破口。蒸馏技术将多步扩散模型压缩为一步或几步的模型能极大加速推理。级联生成先低分辨率后超分也是常用策略。6.3 可控性与编辑性从“生成”到“创作”目前用户控制生成结果的能力还很弱主要通过文本提示控制粒度粗糙。精细控制如何控制物体的姿态、尺寸、部件的形状、对称性如何实现“向左旋转30度”、“把椅腿加粗”这样的指令组合生成如何根据复杂的场景描述生成由多个物体合理组成的场景这需要解决物体间的碰撞检测、物理合理性等问题。后期编辑生成后的模型难以像传统3D软件中的网格一样进行直观的编辑拉伸、切割、布尔运算。未来方向需要发展更强大的条件生成框架支持草图、深度图、分割图、关键点等多种控制信号。组合生成模型和层次化生成是解决场景生成的关键。此外探索生成式3D编辑允许用户通过自然语言或交互式笔刷对生成的3D模型进行局部修改是一个极具应用价值的方向。6.4 评估标准与基准测试缺乏统一、全面的评估基准是阻碍领域发展的一个重要因素。T3-Bench等基准测试的出现是好的开始但还需要更多维度人类偏好评估最终质量需要人的主观判断。下游任务性能生成的3D模型在机器人抓取、AR/VR应用、游戏引擎中的实际性能如何公平比较需要在相同的数据集、计算资源和评估指标下比较不同方法。7. 资源与工具如何上手实践如果你对亲手尝试3D生成感兴趣以下是一些实用的资源和工具开源代码库与平台threestudio一个非常活跃、模块化的开源框架集成了数十种最新的3D生成算法特别是SDS类。它支持多种3D表示NeRF, 3DGS, DMTet等和扩散模型后端Stable Diffusion, DeepFloyd等是入门和研究的绝佳起点。Awesome-3D-Diffusion一个由社区维护的GitHub仓库持续跟踪最新的论文和代码是获取前沿信息的好渠道。Stable Diffusion WebUI 的 3D 插件一些社区开发者开发了插件将DreamGaussian等算法集成到WebUI中提供了相对友好的图形界面。常用数据集Objaverse / Objaverse-XL当前规模最大、类别最丰富的开源3D模型集合是训练3D扩散模型的基石。ShapeNet经典的数据集包含大量分类良好的CAD模型常用于学术研究。CO3D包含真实物体的多视图视频带有精确的相机参数适合训练新视角合成模型。MVImgNet另一个大规模的多视图图像数据集。入门建议从使用开始先尝试用开源的推理代码或在线Demo如Luma AI的Dream Machine、Meshy等生成一些3D模型直观感受当前技术的水平和局限。理解一个经典工作深入阅读并复现一篇经典论文的代码比如DreamFusion或DreamGaussian。理解其数据流、损失函数和优化流程。关注核心挑战在实践过程中你会亲身遇到Janus问题、几何粗糙、优化不稳定等挑战。尝试阅读后续论文是如何解决这些问题的例如通过Perp-Neg解决多面问题通过法向图平滑提升几何。选择合适的方向根据你的兴趣和资源选择深入一个子方向。如果热衷底层模型研究可探索3D空间扩散的新架构如果追求应用落地可专注于优化SDS的效率或与具体行业工作流结合。扩散模型为3D内容创作带来的变革才刚刚开始。从“一句话生成粗糙模型”到“高质量、可控、可编辑的数字化资产流水线”中间还有很长的路要走。但毫无疑问这条路正在被迅速铺平而掌握这些核心原理与技术细节将是参与并推动这场变革的关键。

相关新闻