顶会超神思路!扩散模型+Transformer,速度精度双飞升!

发布时间:2026/5/21 2:32:03

顶会超神思路!扩散模型+Transformer,速度精度双飞升! 小伙伴们好我是小嬛。专注于人工智能、计算机视觉、AI大模型领域相关分享研究。【目标检测、图像分类、图像分割、目标跟踪等项目都可做相关领域论文辅导也可以找我需要的可联系备注来意】-------正文开始--------近期顶会研究中扩散模型与Transformer的融合已成为生成式AI领域的核心热点成功弥补两者固有短板。扩散模型擅长生成高质量样本但存在推理效率低、细节把控不足的问题Transformer则凭借全局注意力优势有效提升其特征建模能力与扩展性。从ADiT框架实现周期性与非周期性原子系统统一生成、推理效率大幅提升到DDT模型优化训练收敛速度、DiT-SR实现超分任务精度突破相关成果广泛应用于分子生成、图像融合、机器人操作等领域。对于深耕该方向的论文党推荐重点关注三大选题二者融合的轻量化架构设计、推理效率优化方法、跨场景条件生成适配当然光 有个方向肯定是不行的建议多关注顶会最新论文和工业界挑战从中找到自己感兴趣也有优势的切入点。这里我为了帮大家节省查找的时间我给大家提供更多的发文思路和方向大家扫码获取Multi-Patch Global-to-Local Transformer Architecture For Efficient Flow Matching and Diffusion Model文章解析本文提出MPDiTMulti-Patch DiT一种新型分层Transformer架构用于提升扩散模型与流匹配模型的训练效率。其核心思想是在早期Transformer块中采用大尺寸图像分块large patches以少量token高效建模全局上下文随后通过上采样模块将大patch token转换为高分辨率小patch token并交由后续少量精修块k4→6处理局部细节。该设计在ImageNet上实现最高50%的GFLOPs降低同时保持优异生成质量。此外作者改进了时间嵌入采用Fourier Neural Operator机制和类别嵌入多类别token前缀显著加速收敛并提升FID约4点。创新点提出全球-局部多尺度Transformer架构MPDiT在架构层级而非注意力层内实现粗粒度到细粒度的渐进式建模。引入可学习上采样模块将大patch token动态升频为小patch token实现计算与表征的协同优化。设计Fourier Neural Operator时间嵌入替代传统正弦位置编码线性映射增强时序依赖建模能力。采用多类别token前缀multi-class token prefix替代单token AdaIN调制提升类别条件建模的语义丰富性与训练稳定性。研究方法构建N-block Transformer主干前N−k块输入大patch token如16×16像素/patch后k块输入小patch token如2×2像素/patch。在大patch到小patch之间插入轻量级上采样模块含转置卷积与残差连接实现token数量指数级增长。用Fourier Neural Operator层处理时间标量t生成高维、非线性时间嵌入向量。将多个类别嵌入向量作为prefix tokens拼接到输入token序列前端参与全部Transformer层的自注意力计算。研究结论MPDiT在ImageNet上以显著降低的计算开销最高−50% GFLOPs达到与标准DiT相当甚至更优的生成性能。仅需4–6个精修Transformer块即可充分恢复局部细节验证了‘少而精’的分层建模有效性。改进的时间与类别嵌入设计分别带来约4点FID提升和更快的收敛速度尤其在有限训练预算下。该架构范式为扩散模型提供了兼顾效率与质量的新设计原则无需牺牲生成质量即可大幅压缩训练成本。Beyond Few-Step Inference: Accelerating Video Diffusion Transformer Model Serving with Inter-Request Caching Reuse文章解析本文针对视频扩散TransformerDiT模型推理成本高、尤其在工业级4步蒸馏模型上现有单请求内缓存intra-request caching失效的问题提出Chorus——首个专为视频DiT设计的跨请求inter-request缓存加速框架。Chorus通过三阶段策略初期全特征复用、中期基于语义区域的选择性复用结合Token-Guided Attention Amplification提升提示对齐、末期禁用缓存以修复不连续性在保持生成质量前提下实现最高45%的端到端加速。创新点首次将跨请求缓存inter-request caching系统性引入视频DiT推理加速突破单请求内缓存在蒸馏模型上的失效瓶颈。提出Token-Guided Attention AmplificationTGAA机制增强提示词与关键token在后续去噪步中的引导作用显著提升跨请求复用的语义鲁棒性。设计三阶段动态缓存策略全复用→区域选择性复用→完全计算兼顾加速效率与生成一致性适配视频去噪过程的语义演化特性。研究方法构建基于语义相似性的跨请求缓存索引机制在服务端维护历史请求的潜空间特征快照。Stage-1在初始去噪步对高度相似请求执行潜特征全量复用。Stage-2在中间步骤仅复用对应特定物体或背景区域的局部潜状态并辅以TGAA优化跨请求注意力对齐。Stage-3在最后几步关闭所有缓存复用回归完整Transformer计算以消除视觉/语义不连续性。研究结论Chorus在工业4步蒸馏Wan2.1模型上实现最高45%推理加速且生成质量无损FVD、FID等指标稳定。Chorus与知识蒸馏、intra-request caching等技术正交可组合使用并进一步超越当前最优性能。跨请求缓存对具有提示聚类特性的视频生成服务如模板化短视频生成具有强实用性与可扩展性。感谢各位观众的观看和支持祝大家的论文早日accept希望论文一路绿灯的朋友可以找我我有团队有资源有背景一条龙服务~~~~

相关新闻