从噪声到图像:扩散生成技术的原理演进与应用实践

发布时间:2026/5/30 22:43:11

从噪声到图像:扩散生成技术的原理演进与应用实践 想象这样一个场景你面前有一张白纸上面画着一幅精美的肖像画。你拿起一支蘸满了墨的毛笔在白纸上随意乱涂——第一笔局部略有破坏第二笔大部分画面被墨迹覆盖第三十笔整张纸已经完全看不出任何画像的痕迹只剩下完全的黑色。现在如果你把这个“向画像上叠加黑色墨迹”的过程录像倒放看到一个“从纯黑纸逐渐显露出完整画像”的过程会不会觉得非常神奇扩散模型Diffusion Models正是通过这种“先破坏、后重建”的思想在生成式人工智能领域掀起了一场革命——从2020年DDPM的奠基性提出到2025年DiT成为视觉生成的“物理定律”扩散技术已从图像生成扩展到视频、3D、音频乃至分子设计等广泛领域。本文将从原理出发系统梳理这一领域的技术脉络、核心模型架构并结合前沿实践为开发者提供全景式的技术指南。1 背景与动机为什么扩散模型超越了GAN在扩散模型成为主流之前生成式AI的旗舰技术是生成对抗网络GAN。GAN通过生成器与判别器的“猫鼠游戏”逼迫生成器产出越来越真实的图像。这一范式在2014年至2019年间取得了巨大成功——StyleGAN系列达到了当时人类难以分辨的生成质量。然而GAN的致命缺陷也逐渐暴露训练极不稳定模式坍塌频繁发生对超参数的敏感性极高调参如同“开盲盒”。扩散模型的崛起恰恰绕开了这些困境。它不依赖对抗训练而是通过一个稳定的、经过严密数学推导的目标函数来学习数据分布。2020年Ho等人发表的DDPMDenoising Diffusion Probabilistic Models论文证明了扩散模型可以在不需要对抗训练的情况下达到与GAN相媲美的生成质量。此后扩散模型迅速成为图像生成领域的新范式其影响力远远超出了学术界——Stable Diffusion、DALL·E、Midjourney等商业化产品都建立在扩散技术之上。在实际应用中扩散模型的优势尤为突出高保真图像生成在FID等定量指标上超越GAN且不会出现GAN常见的“伪影”问题训练稳定不使用对抗训练避免了生成器与判别器之间的“拉锯战”条件控制灵活通过文本、图像、草图等多种方式精确控制生成结果泛化能力强在大规模数据集上训练后能够泛化到训练集中未出现的概念组合然而扩散模型也面临一个根本性挑战生成速度慢。典型的DDPM需要数千步迭代去噪才能生成一张图像这在实时应用场景中难以接受。这一速度瓶颈驱动了后续大量研究工作——从DDIM的数十倍加速到潜在扩散的数个数量级效率提升再到流匹配的端到端路径优化。2 核心原理从正向扩散到逆向生成扩散模型的思想源于非平衡热力学中的扩散过程物质在高浓度区域向低浓度区域扩散最终达到均匀分布。如果把这个过程“倒过来”——从均匀分布逐渐“浓缩”回原始分布就是生成。DDPM正是这种思想的数学实现。2.1 正向扩散过程Forward Process正向扩散过程定义一个马尔可夫链在T步内逐步向原始图像添加高斯噪声直至图像变成完全的随机噪声。每步的噪声注入遵循高斯分布[q(x_t \mid x_{t-1}) \mathcal{N}(x_t; \sqrt{1-\beta_t} , x_{t-1}, \beta_t \mathbf{I})]其中 (\beta_t) 是预设的噪声调度系数控制每一步添加的噪声量。常见的调度策略包括线性调度(\beta_t) 从 (10^{-4}) 线性增加到 (2\times10^{-2})和余弦调度在高噪声区域变化更平滑。一个关键的数学洞察是通过重参数化技巧reparameterization trick可以直接从原始图像 (x_0) 计算任意时间步 (t) 的噪声图像 (x_t)无需逐步迭代这极大提升了训练效率。推导结果为[x_t \sqrt{\bar{\alpha}_t} , x_0 \sqrt{1 - \bar{\alpha}_t} , \epsilon, \quad \epsilon \sim \mathcal{N}(0, \mathbf{I})]其中 (\bar{\alpha}t \prod{i1}^t (1 - \beta_i))。这个公式不仅简化了计算还揭示了正向过程的本质它是一个从原始数据到标准高斯噪声的“插值”过程插值系数 (\sqrt{\bar{\alpha}_t}) 随时间逐渐衰减到0。2.2 逆向生成过程Reverse Process逆向过程的目标是学习如何从纯噪声 (x_T \sim \mathcal{N}(0, \mathbf{I})) 逐步去噪恢复出原始图像。逆向过程同样被建模为马尔可夫链每一步由神经网络参数化的高斯分布给出[p_\theta(x_{t-1} \mid x_t) \mathcal{N}(x_{t-1}; \mu_\theta(x_t, t), \Sigma_\theta(x_t, t))]DDPM的一个简化设计是固定方差 (\Sigma_\theta) 为常数只学习均值 (\mu_\theta)。然而直接预测均值的优化目标在数学上不够优雅。研究发现通过重参数化技巧可以将均值预测转化为噪声预测问题[\mu_\theta(x_t, t) \frac{1}{\sqrt{\alpha_t}} \left( x_t - \frac{\beta_t}{\sqrt{1-\bar{\alpha}t}} \epsilon\theta(x_t, t) \right)]这样一来网络不再预测图像本身而是预测被添加的噪声 (\epsilon)——这反而更简单、效果更好。2.3 训练目标从复杂ELBO到简单MSE扩散模型的完整概率推导涉及证据下界ELBO的优化包含多个与逆向马尔可夫链相关的项直接优化十分复杂。然而DDPM的作者发现了一个惊人的简化训练目标可以被大大简化而不会牺牲任何性能。最核心的发现是噪声预测的学习目标是等价的。在数学上可以证明优化ELBO等价于让网络学会预测生成 (x_t) 时所用到的噪声 (\epsilon)。简化后的训练损失变为[\mathcal{L}{\text{simple}} \mathbb{E}{t \sim [1,T], x_0 \sim q(x_0), \epsilon \sim \mathcal{N}(0,\mathbf{I})} \left[ | \epsilon - \epsilon_\theta(\sqrt{\bar{\alpha}_t} x_0 \sqrt{1-\bar{\alpha}_t} \epsilon, t) |^2 \right]]这个损失函数的直觉非常清晰从一个随机时间步 (t) 采样的真实噪声 (\epsilon) 与网络预测的噪声 (\epsilon_\theta) 之间的均方误差。值得注意的是这个简化损失函数自动为不同时间步分配的噪声尺度赋予了权重实际上对大噪声高 (t) 值赋予了更高权重这与直觉一致——早一步的图像模糊、包含更多低频结构而晚一步的图像接近纯噪声、高频细节更难重建。2.4 训练流程与采样算法有了简化的目标函数训练流程变得相当清晰随机采样一批图像为每张图像随机选择一个时间步 (t)添加对应强度的噪声然后让U-Net预测这个噪声。在推理阶段标准DDPM的采样算法需要完整遍历从 (T) 到 (1) 的所有时间步从纯噪声 (x_T) 开始逐步减去网络预测的噪声直到得到 (x_0)。然而这一方法的瓶颈在于推理速度慢。由于需要T步迭代通常T1000每生成一张图像的耗时以秒计。这一问题催生了后续大量加速技术。3 关键模型架构与技术演进从2020年至今扩散模型领域经历了从“能否生成”到“如何高效生成”再到“如何大规模扩展”的演进。以下按时间线和功能模块逐一拆解。3.1 经典U-NetDDPM时代的骨干网络在扩散模型的早期阶段U-Net是事实上的标准架构。U-Net的结构具有对称的U形设计左侧是逐步下采样的收缩路径编码器右侧是逐步上采样的扩展路径解码器中间通过跳跃连接将编码器的高分辨率特征拼接到解码器对应层。扩散模型的U-Net增加了两个关键组件① 时间步嵌入Timestep Embedding由于U-Net需要知道当前处于哪个去噪阶段第1步还是第999步模型采用了类似Transformer的正弦位置编码将时间步 (t) 编码为嵌入向量然后通过加法或拼接注入到各个网络层中。② 注意力层的引入在较低分辨率的U-Net层级如16×16和8×8特征图标准U-Net被扩展为包含自注意力模块以捕获图像中的长距离依赖关系。直到2024年之前U-Net几乎“统治”着扩散模型领域。然而它的局限性也逐渐显现归纳偏置Inductive Bias既是优势也是束缚。CNN天生假设像素只与邻域相关这种局部性先验在小数据时代是神技但当训练数据量达到互联网级别时这种“偏见”反而限制了模型的学习上限。3.2 DDIM用非马尔可夫过程实现10倍加速DDIMDenoising Diffusion Implicit Models的核心洞察是生成过程中并不需要严格遵循DDPM所定义的随机马尔可夫链。DDIM将DDPM推广为一种非马尔可夫扩散过程并引入确定性采样路径——只要训练过程与DDPM共享相同的边缘分布生成过程就可以在不同路径上进行。具体来说DDPM的生成过程是随机性的每一步都会注入随机噪声而DDIM的生成过程是确定性的。这意味着对于同一个初始噪声向量DDIM每次都会生成完全相同的图像这带来了两个重要优势加速生成由于确定性采样路径更“直接”DDIM可以跳过大量中间步骤而仍然保持高质量。实验表明DDIM能够在10-50倍于DDPM的速度下生成高质量样本。潜空间语义插值确定性映射使得从一个噪声向量到另一个噪声向量的“旅行路径”具有语义意义可以生成平滑的图像渐变这在DDPM的随机采样路径中是无法实现的。在实际应用中DDIM通过一个参数 (\eta) 控制随机性程度(\eta0) 时是完全确定的DDIM最快(\eta1) 时退化为DDPM。3.3 Classifier-Free Guidance让生成“听人话”在文生图应用中模型必须理解“狗戴帽子”这样的组合概念。早期的条件扩散模型采用分类器引导在训练好的无条件扩散模型之外额外训练一个分类器用其梯度引导生成过程。这种方法虽然有效但存在三个问题需要额外的分类器训练、分类器可能被对抗样本欺骗、引导过程计算开销大。CFGClassifier-Free Guidance彻底绕开了分类器。其核心思想极其简单用一个网络同时学习条件生成和无条件生成两个任务。在训练时以一定概率通常为10%将文本条件置为空null使模型既能学习条件生成又能学习无条件生成。在推理时通过线性外推组合两个预测结果[\epsilon_{\text{guided}} \epsilon_{\text{uncond}} w \cdot (\epsilon_{\text{cond}} - \epsilon_{\text{uncond}})]其中 (w) 是引导强度参数典型取值为 (7 \sim 15)。当 (w0) 时退化为无条件生成(w) 越大模型越“听指令”但过大的 (w) 会导致生成结果过饱和、多样性下降。CFG的优雅之处在于不需要额外训练任何模块只在推理时做一个简单的插值计算却能让文本-图像对齐效果大幅提升。正因为如此CFG已成为现代扩散模型的标准组件。3.4 潜在扩散模型Stable Diffusion的效率革命尽管DDIM大幅加速了推理但一个根本性的效率问题仍然存在扩散过程发生在像素空间。一张512×512的图像包含约78万维的向量在这个高维空间上进行迭代去噪不仅计算量巨大而且大量像素级细节其实与语义无关——模型浪费了大量算力去拟合高频像素噪声。LDMLatent Diffusion Model的解决方案是将扩散过程从像素空间迁移到压缩后的潜空间。其核心架构分为两个阶段阶段一VAE编解码器。训练一个变分自编码器VAE将高维图像压缩到低维潜空间。在Stable Diffusion中VAE将512×512的RGB图像压缩为64×64×4的潜表示——维度压缩率达91.6%显存占用减少64倍。VAE的编码器负责将图像映射为潜向量解码器负责将潜向量重建为RGB图像。由于潜空间保留了图像的语义结构而丢弃了高频冗余信息VAE重建图像的PSNR可达32.7dB。阶段二潜空间扩散。所有的扩散操作正向加噪、反向去噪都在潜空间中进行。由于潜表示维度远小于像素空间U-Net的参数量大幅下降训练和推理效率提升数个数量级。Stable Diffusion 1.x使用了约860M参数的U-Net配合交叉注意力进行文本条件注入。LDM还解决了另一个重要的工程问题多模态条件融合。通过交叉注意力Cross-Attention机制模型可以在去噪过程中从多个模态获取控制信息——文本通过CLIP编码、图像通过VGG提取特征、草图通过边缘检测等预处理——实现了灵活的条件控制。LDM的意义不仅仅是工程优化它证明了在足够丰富的潜空间中进行扩散不仅能加速还能提升质量。从此扩散模型得以在消费级GPU上运行Stable Diffusion的开源生态也由此蓬勃发展。3.5 从U-Net到DiTTransformer一统视觉生成2024年OpenAI的Sora视频生成模型发布技术报告中一句We use a diffusion transformer向整个AI社区宣告了一个转折点U-Net的时代即将结束DiTDiffusion Transformer成为新一代视觉生成的“物理定律”。为什么U-Net会被替代核心原因在于扩展定律Scaling LawU-NetCNN架构具有强烈的归纳偏置——它假设像素只与邻域相关局部性假设同一物体在不同位置的表示相同平移不变性。这种先验在小数据时代是优势但在互联网级别的大数据面前它成为了一种“偏见”限制了模型从数据中自主发现更复杂模式的能力。DiTTransformer架构几乎没有归纳偏置——它假设任何一个像素都可以与任意远处的像素建立关系Global Attention。在数据量无限大的今天Transformer验证了缩放定律参数越多效果越好且没有明显上限。而U-Net在参数量增加到一定程度后性能收益会迅速饱和。DiT的本质是将图像视为一种特殊的语言序列。具体流程如下Patchify将VAE编码后的潜空间特征图例如32×32×4切分成小块例如2×2大小得到256个Patch。Linear Projection将每个Patch映射为一个向量Token形成一个长度为256的序列。Transformer Blocks将这个序列输入标准Transformer块在每个块中所有Token通过自注意力机制进行全局交互——完全模拟文本处理。Unpatchify将输出序列还原为潜空间特征图。DiT在处理条件注入时采用了更高效的方式——AdaLNAdaptive Layer Normalization自适应层归一化。传统Transformer中的LayerNorm具有固定的缩放γ和偏置β参数而AdaLN让γ和β由时间步t和文本条件c动态回归出来。当去噪过程从第1步全是噪点进展到第50步接近完成时整个网络每一层的激活状态都在自适应地调整。DiT更进一步采用了AdaLN-Zero技术在训练初始化时将γ、β对应的回归层权重设为零保证初始状态下Transformer块以恒等映射开始逐步学习去噪的能力。2026年的研究进一步揭示了DiT的缩放规律。Liang等人在ICLR 2026上首次明确提出了DiT的缩放定律预训练损失与计算量之间遵循幂律关系且这一关系与下游FID指标一致。基于此研究者可以精确预测给定1.5e21 FLOPs计算预算时一个10亿参数模型对应的最佳数据量和预期损失。这意味着扩散模型的设计可以从“凭经验摸索”升级为“根据数学规律预测”这标志着扩散Transformer走向了与LLM同样成熟的工程化阶段。到了2025年无论是生成图像Flux、生成视频Gen-3还是生成3D资产DiT已经成为唯一的底层架构选择。4 前沿进展2024-2026年的最新风向4.1 流匹配与校正流重新思考生成路径传统扩散模型学习和高维噪声之间的随机随机微分方程路径通常是弯曲的、效率低的。流匹配Flow Matching和校正流Rectified Flow是2023-2024年出现的两个新范式它们从不同的数学角度重新定义了生成过程。流匹配的核心思想是直接学习一个普通微分方程ODE的速度场**使得从噪声分布到数据分布的“粒子运动”路径最短。在这一范式下不同时间步的训练目标不再完全独立而是通过在配对时间步上约束速度预测的一致性来降低梯度方差。校正流则试图让生成路径变得笔直。它首次引入了从预训练扩散模型中获得噪声-样本匹配对的思路然后用这些配对数据重新训练一个流匹配模型。其结果是模型可以仅用4步生成高质量图像。2026年的StreamFlow进一步在512×512图像上将校正流的生成速度最高提升到611%约6倍加速远超传统加速方法。这些进展打破了“扩散模型必须迭代许多步”的铁律为实时生成提供了全新可能性。4.2 扩散模型的缩放定律与LLM类似扩散模型也正在从“调参经验学”走向“可预测的科学”。Liang等人在2026年发表的《Scaling Laws for Diffusion Transformers》系统性地探索了DiT的缩放规律首次明确提出了DiT的缩放定律证实了扩散Transformer预训练损失随计算量增加而遵循幂律下降。这意味着在给定计算预算的条件下可以预测最优模型规模和所需数据量。实验覆盖了从 (1\times10^{17}) 到 (6\times10^{18}) FLOPs的广泛计算范围该缩放定律随后被验证与FID等生成质量指标高度相关。4.3 一步生成Consistency Models的突破2023年提出的一致性模型Consistency Models试图将扩散过程“一步到位”直接从噪声映射到数据无需迭代。其核心思想是学习一个函数 (f_\theta(x_t, t))使得对于同一个数据流形上的不同时间步该函数的输出都映射到同一个起点。训练时一致性模型利用自一致性损失——在相邻时间步之间强制预测结果一致从而实现逐步自蒸馏。一致性模型在训练完成后可实现单步生成采样速度比原始DDPM提升了超过1000倍但生成质量与多步扩散仍存在一定差距这是当前一个活跃的研究方向。5 实践指南从零开始训练扩散模型理论落地与实际工程之间往往存在差距。本部分以PyTorch为核心框架梳理扩散模型的完整实践路线。5.1 数据集与评估指标数据集规模分辨率特点典型应用MNIST6万28×28手写数字入门最友好原型验证、调参测试CIFAR-106万32×3210类物体中等难度DDPM/DDIM基准测试CelebA-HQ3万1024×1024高清人脸高质量高保真生成评估ImageNet1400万256×256~1024×1024大规模多样本行业黄金标准扩散模型基准标杆LAION-5B50亿文本-图像对多种分辨率文生图训练规模巨大Stable Diffusion预训练评估生成质量最常用的指标是FIDFrechet Inception Distance弗雷谢初始距离它比较真实图像与生成图像在Inception网络特征空间中的分布距离——FID越低生成质量越高。FID在论文中的典型参考线真实图像FID≈0优秀扩散模型在CIFAR-10上可3在ImageNet 256×256上可5。其他常用指标包括ISInception Score初始分数评估多样性和类别清晰度、CLIP Score评估文本与图像的对齐程度、Precision/Recall评估生成图像的保真度与覆盖率。5.2 核心训练技巧① 噪声调度策略噪声调度决定了每一步添加多少噪声对生成质量影响极大。常见选项包括线性调度(\beta_t) 从 (1\times10^{-4}) 线性增长到 (2\times10^{-2})是DDPM原文使用的标准配置简单有效余弦调度(\beta_t) 按余弦函数变化在高噪声区域变化更平缓在高分辨率数据上通常优于线性调度② 训练技巧指数移动平均EMAExponential Moving Average在训练过程中维护模型参数的指数移动平均推理时使用EMA模型而非实时模型。这对扩散模型的稳定性至关重要通常衰减系数取0.9999。研究发现不使用EMA训练时模型可能会“退化”生成图像的FID会明显恶化。混合精度训练使用torch.cuda.amp进行FP16混合精度训练内存占用和训练时间均可减少约40%。梯度裁剪将梯度范数裁剪在1.0以内防止训练不稳定导致的梯度爆炸。5.3 PyTorch实战扩散模型的核心代码骨架正向扩散实现defq_sample(x_start,t,noiseNone):前向扩散直接从x0采样xtifnoiseisNone:noisetorch.randn_like(x_start)# 预计算的α_cumprod形状为[T]每个t对应sqrt_alpha_cumprod和sqrt_1_minus_alpha_cumprodsqrt_alpha_cumprod_tsqrt_alpha_cumprod[t]sqrt_1_minus_alpha_cumprod_tsqrt_1_minus_alpha_cumprod[t]# 关键公式xt sqrt(ᾱ_t) * x0 sqrt(1-ᾱ_t) * ε# 两者需增加维度以匹配x_start[B, ...] 与 [B, 1, ...]returnsqrt_alpha_cumprod_t[:,None]*x_startsqrt_1_minus_alpha_cumprod_t[:,None]*noise训练目标噪声预测deftrain_step(model,x_0):# 1. 采样随机时间步批次内每个样本独立ttorch.randint(0,timesteps,(batch_size,),devicedevice)# 2. 采样真实噪声 ε ~ N(0, I)noisetorch.randn_like(x_0)# 3. 生成带噪声的xtx_tq_sample(x_0,t,noise)# 4. 预测噪声noise_predmodel(x_t,t)# 5. 计算MSE损失lossF.mse_loss(noise_pred,noise)returnloss推理采样DDPM标准过程torch.no_grad()defp_sample(model,x,t,t_index):单步去噪从xt到xt-1betas_tbetas[t]sqrt_recip_alphas_tsqrt_recip_alphas[t]sqrt_one_minus_alphas_cumprod_tsqrt_one_minus_alphas_cumprod[t]# 模型预测噪声noise_predmodel(x,t)# DDPM均值公式μ 1/√α_t * (x_t - β_t/√(1-ᾱ_t) * ε_θ)meansqrt_recip_alphas_t*(x-betas_t*noise_pred/sqrt_one_minus_alphas_cumprod_t)ift_index0:# 最后一步不添加噪声直接输出returnmeanelse:# 添加方差 σ_t^2 β_t或改进的方差posterior_variance_tbetas_t# 简化noisetorch.randn_like(x)returnmeantorch.sqrt(posterior_variance_t)*noisedefsample(model,batch_size,device,channels3,image_size32):完整采样从纯噪声开始迭代生成shape(batch_size,channels,image_size,image_size)# 从标准正态分布采样初始噪声imgtorch.randn(shape,devicedevice)foriinreversed(range(0,timesteps)):imgp_sample(model,img,i,i)# 可选添加DDIM确定性采样路径代替随机路径returnimg实现时通常将alpha_cumprod、sqrt_alpha_cumprod、sqrt_one_minus_alpha_cumprod、sqrt_recip_alphas等系数预先计算好存入数组以空间换时间避免每一步重复计算。6 挑战与未来方向6.1 当前的技术瓶颈挑战维度问题描述严重程度生成效率高质量生成仍需数十步迭代与GAN的毫秒级生成仍有差距 高可控性复杂组合概念的控制仍需精细调参引导强度w需手动平衡质量和多样性 中训练成本高质量扩散模型需海量数据和巨大算力10⁴–10⁵ GPU小时 高一致性多次相同提示生成结果差异大缺乏高保真的确定性映射 中可解释性中间潜空间的语义含义不明确调试和定向编辑困难 中6.2 值得关注的未来方向实时扩散生成StreamDiffusion等工作通过流水线并行、模型蒸馏等方式已实现实时视频风格转换下一步目标是高分辨率实时生成。统一生成框架单模型同时支持图像、视频、3D、音频等多模态生成以DiT为骨干通过调整Patch大小和注意力范围统一不同模态的Token化格式。扩散模型的可解释性与调试理解扩散潜空间中特征维度的语义含义实现精准的区域编辑和概念添加/删除。小数据高效扩散从“需要海量数据”向“数10张图就能微调”演进适用于医疗影像、工业检测等数据稀缺领域。7 总结从2020年DDPM的奠基性提出到2026年DiT缩放定律的精确预测扩散模型走过的这六年完成了从“实验室惊奇”到“工业级基础设施”的蜕变。阶段时间核心模型关键突破主要局限奠基期2020DDPM端到端噪声预测范式超越GAN生成速度极慢T步迭代加速期2020–2021DDIM、LDM确定性采样10-50倍加速VAE潜空间效率级提升潜空间压缩存在质量损失引导期2022–2023CFG、ControlNet高精度条件控制CFG成文生图标配过引导导致多样性下降扩展期2024–2025DiT、Sora缩放定律验证架构向Transformer完全过渡训练成本陡峭增长优化期2025–2026Flow Matching、Rectified Flow端到端路径优化4步高质量生成理论框架仍在演进一个清晰的趋势已经显现扩散模型的演进正在从“模仿噪声破坏再重建”的热力学启发走向“任意分布之间最短路径”的几何优化它的架构正在从CNN的归纳偏置走向Transformer的数据驱动泛化。这一变革不仅仅是模型架构的更替更是生成式AI从“人工设计特征”到“让数据自己说话”的范式跃迁。对于刚刚踏入这一领域的开发者来说从DDPM的U-Net实现开始搭建完整训练pipeline是理解扩散本质的最佳路径对于面向落地的工程师在潜空间中应用DDIM采样和CFG引导能够兼顾效率与可控性而如果目标是探索前沿DiT的缩放规律和流匹配正在展现“用数学预测工程结果”的全新可能性。那条从纯黑画布到完整图像的道路还在被不断缩短、压直、再缩短。参考资料Ho et al.Denoising Diffusion Probabilistic Models. NeurIPS 2020.Song et al.Denoising Diffusion Implicit Models. ICLR 2021.Ho Salimans.Classifier-Free Diffusion Guidance. NeurIPS 2022 Workshop.Rombach et al.High-Resolution Image Synthesis with Latent Diffusion Models. CVPR 2022.Peebles Xie.Scalable Diffusion Models with Transformers. ICCV 2023.Lipman et al.Flow Matching for Generative Modeling. ICLR 2023.Liu et al.Rectified Flow. arXiv 2023.Liang et al.Scaling Laws for Diffusion Transformers. ICLR 2026.StreamFlow:Accelerating Rectified Flow Generation. arXiv 2026.

相关新闻