MagCache：一篇读懂视频生成加速里的 Magnitude-Aware Cache-尧图网站设计

# 写在前面 ![图片](https://i-blog.csdnimg.cn/img_convert/9acd1cb2ecc91e79051dea00018809cd.png) 欢迎大家关注Rocky的公众号WeThinkIn 欢迎大家关注Rocky的知乎[Rocky Ding](https://www.zhihu.com/people/bei-jing-de-wen-zhou-ren) AIGC算法工程师/开发工程师面试面经秘籍分享[WeThinkIn/Interview-for-Algorithm-Engineer](https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer/tree/main)欢迎大家Star AIGC时代的 **《三年面试五年模拟》AI算法工程师/开发工程师求职面试秘籍独家资源** [【三年面试五年模拟】AI算法工程师面试秘籍](https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer/tree/main) **Rocky最新撰写AI AgentAI智能体的深入浅出全维度解析文章** [深入浅出完整解析AI AgentAI智能体的核心基础知识](https://zhuanlan.zhihu.com/p/1919046969076195976) **AIGC算法岗/开发岗面试面经交流社群**涵盖AI Agent、AIGC图像创作、AI视频、LLM大模型、AI多模态、数字人、传统深度学习、具身智能等AIGC面试干货资源欢迎大家加入[https://t.zsxq.com/33pJ0](https://t.zsxq.com/33pJ0) --- 大家好我是Rocky。 # MagCache一篇读懂视频生成加速里的 Magnitude-Aware Cache ## 核心导读视频生成模型越做越强真正卡住落地的往往不是“能不能生成”而是“能不能在可接受成本里稳定生成”。一段 5 秒视频在单张 A800 上跑几分钟这不是论文 demo 的问题而是产品、服务和工作流能不能规模化的问题。MagCache 这篇论文的价值就在于它没有把加速做成一个昂贵的再训练工程也没有把缓存策略做成一套需要大量 prompt 拟合的经验规则而是试图从视频扩散模型的推理轨迹里找一个更稳定的规律。 Rocky 认为这篇工作的核心判断可以概括成一句话**视频扩散推理里的很多相邻步并不是方向发生了剧烈变化而是残差向量的“幅值”在有规律地缩放只要能把这个幅值变化建模清楚就可以更有原则地跳过冗余计算。** 论文提出的 MagCache即 Magnitude-aware Cache围绕这个判断做了三件事。第一定义并验证相邻 residual 的 magnitude ratio在 Wan 2.1、Open-Sora 等模型和不同 prompt 上具有较强稳定性。第二用这个 ratio 建立跳步误差模型把“是否可以继续复用旧 residual”从拍脑袋的间隔策略变成可累计、可阈值控制的误差判断。第三在 Open-Sora、CogVideoX、Wan 2.1、HunyuanVideo、Flux 等模型上验证在相近计算预算下MagCache 相比 TeaCache 等缓存方法取得了更好的质量-速度折中。从工程落地角度看这篇论文最值得关注的不是“又一个 2x 加速方法”而是它在回答一个更基础的问题**当视频生成模型越来越大、采样链越来越贵时哪些中间计算真的值得每一步都重算** ## 问题背景作者到底想解决什么视频生成模型的推理成本本质上来自两个叠加因素一是扩散/Flow Matching 采样过程天然是多步序列过程二是视频比图像多了时间维度token 数、注意力计算和中间激活都会显著变大。模型从 U-Net 走向 DiT 之后表达能力更强但每一步 denoising 也更重。对于 Open-Sora、Wan 2.1、HunyuanVideo 这类视频生成模型推理加速已经不是锦上添花而是决定能否进入真实产品体验的基础设施问题。已有加速路线大致可以分成两类。一类是减少采样步数比如更好的 ODE/SDE solver、一致性模型、蒸馏另一类是降低每一步成本比如量化、剪枝、稀疏注意力、缓存。前者往往牵涉训练或后训练成本高、迁移复杂后者更轻量也更适合成为插件式能力。缓存方法的直觉很朴素既然相邻 denoising step 之间有相似性就没有必要每一步都完整计算。问题在于**相似性到底怎么判断** 如果只是固定间隔缓存模型不同、prompt 不同、时间步不同误差就可能失控。如果像 TeaCache 那样通过时间嵌入差异或输入调制差异做多项式拟合又需要大量校准 prompt且有过拟合校准集的风险。 MagCache 的切入点很有意思它不先问“哪个 prompt 更复杂”也不先问“第几步固定可以跳”而是回到模型每一步输出的 residual 本身观察相邻 residual 之间的幅值变化。 ![Figure 1相邻 residual 的幅值比、幅值波动与方向距离](magcache_fast_video_generation_with_magnitude_aware_cache_按正文顺序配图/01_Figure1相邻residual的幅值比幅值波动与方向距离.jpg) Figure 1 是整篇论文的根。作者在 Wan 2.1 和 Open-Sora 上观察到在扩散过程前 80% 的步数里相邻 residual 的方向几乎不变token-wise cosine distance 很小真正变化的主要是 residual 的 magnitude。到了最后 20% 步幅值比和方向距离都开始剧烈变化但 magnitude ratio 仍然能反映 residual 差异的变大。换句话说早中期步骤像是在沿着相近方向做幅值缩放后期才进入更敏感的细节调整。这解释了为什么“缓存”在视频扩散里可行也解释了为什么粗糙缓存会出问题。可行是因为相邻步确实冗余会出问题是因为冗余并不均匀尤其后期不能盲目跳。 ## 核心思路用一句主线串起来 MagCache 的主线是**用 residual magnitude ratio 估计跳过若干 denoising step 带来的累计误差当误差仍在阈值内时复用缓存当误差超过阈值或连续跳步太长时重新计算。** 这里有两个关键概念。第一个是 residual。论文把第 $t$ 个 timestep 的 residual 定义为模型预测速度与当前输入之差 $$ \mathbf{r}_t\mathbf{v}_{\theta}(\mathbf{x}_t,t)-\mathbf{x}_t $$ 这可以理解为模型在当前步给出的“更新信号”。如果相邻两个 timestep 的更新信号方向几乎一致、幅值也接近那么重算后一项的收益就很低。第二个是 magnitude ratio。论文定义相邻 residual 的逐步幅值比为 $$ \gamma_t\mathrm{mean}\left(\frac{\|\mathbf{r}_t\|_2}{\|\mathbf{r}_{t-1}\|_2}\right) $$ 当 $\gamma_t$ 接近 1 时相邻 residual 幅值接近缓存复用更安全当 $\gamma_t$ 快速下降时说明 residual 正在发生更明显变化需要谨慎跳步。这比“每隔几步复用一次”更细也比“拿很多 prompt 做拟合”更轻。作者声称 MagCache 只需要一个随机样本 forward 一次做校准而 TeaCache 需要 70 个 curated prompts 去拟合系数。这一点如果在更多模型上成立工程意义很大因为部署成本从“为每个模型和场景重新拟合”下降到“做一次轻量校准”。 ## 方法展开沿着论文原始逻辑拆解 ### 从 Flow Matching 与 residual 开始加速对象到底是什么论文的方法部分先把问题放在 Flow Matching 框架下。Flow Matching 学习一个速度场 $\mathbf{v}_{\theta}(\mathbf{x},t)$把数据分布与噪声分布之间的轨迹连接起来。训练目标可以写成 $$ \mathcal{L}_{\mathrm{FM}} \mathbb{E}_{\mathbf{x}_0,\mathbf{x}_1,t} \left[ \left\| \mathbf{v}_{\theta}(\mathbf{x}_t,t)-\mathbf{v}^{*}(\mathbf{x}_t,t) \right\|^2 \right] $$ 轨迹可由插值函数给出 $$ \mathbf{x}_t(1-\rho(t))\mathbf{x}_0\rho(t)\mathbf{x}_1 $$ 在这个视角下每一步推理的核心不是孤立地生成一个新视频帧而是沿着采样轨迹不断更新 latent/video token 状态。MagCache 缓存的对象也不是最终输出而是模型在中间 step 的 residual 更新信号。这个切入点非常重要。很多加速方法容易把“减少计算”理解成一种外部调度策略但 MagCache 的基本假设是**推理轨迹内部存在可度量的连续性缓存策略应该服从这个连续性。** 如果 residual 的方向和幅值都在稳定变化复用是合理的如果变化开始变陡复用就应该停止。 ### Magnitude Law为什么幅值比可以成为缓存准则论文接着验证 magnitude ratio 是否真的能代表 residual 差异。核心近似是 $$ \left\|\mathbf{r}_t-\mathbf{r}_{t-1}\right\| \approx \left| \left\|\mathbf{r}_t\right\|-\left\|\mathbf{r}_{t-1}\right\| \right| $$ 这个式子成立的前提是相邻 residual 方向近似一致。Figure 1(c) 给出的 token-wise cosine distance 在前 80% timestep 接近 0说明 residual 的方向变化很小Figure 1(b) 的 magnitude ratio variability 也接近 0说明同一步里不同 token 的幅值比波动很小。这两个现象合起来支撑了一个更强的判断在早中期采样过程中residual 的主要变化不是方向翻转而是幅值缩放。附录进一步把 Figure 1 里的统计量定义清楚。幅值比波动为 $$ \sigma_t\mathrm{std}\left( \frac{\|\mathbf{r}_t\|_2}{\|\mathbf{r}_{t-1}\|_2} \right) $$ 残差方向距离为 $$ \mathrm{dist}_t \frac{1}{N} \sum_i^N \left( 1-\cos(\mathbf{r}_t^i,\mathbf{r}_{t-1}^i) \right) $$ 这组定义很朴素但它们把缓存问题从“经验感觉相近”变成了“幅值比稳定、方向距离很小”。Rocky 认为这正是这篇论文比普通缓存工程更值得读的地方它不是先设计一个调度器再找理由而是先观察推理轨迹里的稳定量再把调度器建立在稳定量上。 ### MagCache 总体框架误差建模自适应缓存 MagCache 的框架由两个模块组成误差建模机制和自适应缓存策略。 ![Figure 2MagCache 总体框架](magcache_fast_video_generation_with_magnitude_aware_cache_按正文顺序配图/02_Figure2MagCache总体框架.jpg) Figure 2 展示了这个过程。系统维护一个上次刷新缓存的 timestep $\hat{t}$并估计从 $\hat{t}$ 跳到当前 timestep $t$ 所带来的误差。如果累计误差还没超过阈值且连续跳步长度没有超过上限就复用旧 residual否则重新计算 residual 并刷新缓存。这个框架里有两个旋钮。一个是总误差阈值 $\delta$它控制质量-速度折中另一个是最大跳步长度 $K$它防止长期复用带来的漂移。直观理解$\delta$ 像质量预算$K$ 像安全刹车。 ### 误差建模多步跳过为什么不能只看单步如果只跳过一步估计误差相对简单但真实加速往往需要连续跳过多步。MagCache 的关键在于使用 multiplicative formulation 估计从缓存步 $\hat{t}$ 到当前步 $t$ 的 residual 幅值变化 $$ \varepsilon_{\mathrm{skip}}(\hat{t},t) 1-\mathrm{mean}\left( \frac{\|\mathbf{r}_t\|_2}{\|\mathbf{r}_{\hat{t}}\|_2} \right) \approx 1-\prod_{i\hat{t}1}^{t}\gamma_i $$ 其中 $$ \gamma_i \mathrm{mean}\left( \frac{\|\mathbf{r}_i\|_2}{\|\mathbf{r}_{i-1}\|_2} \right) $$ 累计误差写成 $$ \mathcal{E}_t \mathcal{E}_{t-1} \varepsilon_{\mathrm{skip}}(\hat{t},t) $$ 这个设计的工程味很足。很多缓存方法的问题不是“跳一步会坏”而是“连续跳几步之后误差怎么积累”。TeaCache 这类拟合方法在多步跳过时容易因为拟合误差放大而失准MagCache 则把相邻幅值比连乘起来直接近似从缓存 residual 到当前 residual 的幅值关系。附录里的 Figure 4 进一步验证了这一点。 ![Figure 4多步 residual 幅值比的乘法近似](magcache_fast_video_generation_with_magnitude_aware_cache_按正文顺序配图/03_Figure4多步residual幅值比的乘法近似.jpg) Figure 4 比较了真实的 $\Gamma(t,\hat{t})$ 与 $\prod_{i\hat{t}1}^{t}\gamma_i$。论文称两者差异小于 $10^{-5}$说明在该实验设置下多步幅值比可以被相邻幅值比的乘积很好近似。对应公式为 $$ \Gamma(t,\hat{t}) \mathrm{mean}\left( \frac{\|\mathbf{r}_t\|_2}{\|\mathbf{r}_{\hat{t}}\|_2} \right) \approx \prod_{i\hat{t}1}^{t}\gamma_i $$ 这不是一个很复杂的公式但它把“连续跳步误差”从经验参数变成了可计算量。 ### 自适应缓存什么时候复用什么时候刷新 MagCache 的跳步决策由两个条件共同控制 $$ \mathcal{E}_t \leq \delta $$ 以及 $$ t-\hat{t}\leq K $$ 如果任一条件不满足就刷新缓存 $$ \hat{t}\leftarrow t,\quad \mathcal{E}_t\leftarrow 0 $$ 这里最值得注意的是 $K$。如果只有误差阈值方法可能过度相信自己的误差模型如果只有最大跳步长度又退化成更机械的间隔策略。MagCache 把二者结合起来本质上是在承认magnitude law 很稳定但仍然是近似工程系统不能只靠一个漂亮规律还需要防漂移机制。 Rocky 认为这种设计符合真实推理加速的长期方向**不是追求一次性压榨最大速度而是让加速策略可解释、可控、可部署。** ## 实验与证据结果能支撑到什么程度 ### 主结果不是只快而是在相近预算下更稳论文在 Open-Sora 1.2、Wan 2.1 1.3B、HunyuanVideo、CogVideoX 2B 和 Flux 上做了定量比较指标包括 FLOPs、speedup、latency以及 LPIPS、SSIM、PSNR 等质量指标。 ![Table 1主要定量结果](magcache_fast_video_generation_with_magnitude_aware_cache_按正文顺序配图/04_Table1主要定量结果.jpg) Table 1 的信息量很大。几个关键结论可以直接抓出来在 Open-Sora 1.2 上MagCache-fast 达到 $2.10\times$ speeduplatency 从 44.56s 降到 21.21s相比 TeaCache-fast 的 21.67s速度相近但 LPIPS/SSIM/PSNR 更好。MagCache-slow 在与 TeaCache-slow 相近 FLOPs 下LPIPS 从 0.1303 降到 0.0827SSIM 从 0.8405 提升到 0.8859。在 Wan 2.1 1.3B 上MagCache-slow 与 TeaCache-fast 有接近的速度区间但质量明显更好MagCache-fast 达到 $2.68\times$ speeduplatency 约 69.75s。对于一个原始 latency 187.21s 的视频模型这已经不是小优化而是工作流可用性层面的变化。在 HunyuanVideo 上MagCache-slow 和 fast 的 LPIPS 分别为 0.0377 和 0.0626明显优于 TeaCache-slow/fast同时 latency 从 1163s 降到 516s/441s。这个结果说明 magnitude-aware 的策略在更重的视频模型上仍有优势。当然Table 1 也要谨慎读。LPIPS、SSIM、PSNR 衡量的是相对原模型输出的接近程度不等同于人类偏好也不等同于生成内容绝对质量。它们能证明的是在相近计算预算下MagCache 比若干缓存基线更能保留原模型输出轨迹而不是证明它生成的视频一定更有审美或更符合 prompt。 ### 可视化结果细节保留是缓存方法的核心战场 ![Figure 3MagCache 与 TeaCache 的可视化对比](magcache_fast_video_generation_with_magnitude_aware_cache_按正文顺序配图/05_Figure3MagCache与TeaCache的可视化对比.jpg) Figure 3 解释了为什么只看 speedup 不够。论文指出在 Open-Sora 案例中TeaCache-fast 可能造成整体颜色和风格漂移在 Wan 2.1 案例中TeaCache 会改变熊猫手持物体、背景墙、人像身份等关键细节。MagCache 的目标不是让输出“看起来也不错”而是让加速后的输出尽量贴近原始模型轨迹。这也是缓存加速和蒸馏加速的一个差别。蒸馏可能学出新的少步模型输出分布可以发生一定变化缓存加速更像是在原模型推理过程中做近似评价重点自然是“近似是否稳定”。在视频生成里细节漂移尤其危险因为一个物体、背景或身份的变化会沿时间维度放大变成时序一致性问题。附录里的 Figure 5 到 Figure 9 给出了更多视觉案例覆盖 Wan 2.1 1.3B、Wan 2.1 14B、Open-Sora、HunyuanVideo 和 Flux。它们在正文论证里的作用不是单纯展示好看样例而是补充说明同一套 magnitude-aware 缓存逻辑在不同模型、不同生成形态上的稳定性。 ![Figure 5Wan 2.1 1.3B 上的更多视频生成案例](magcache_fast_video_generation_with_magnitude_aware_cache_按正文顺序配图/06_Figure5Wan2.11.3B上的更多视频生成案例.jpg) Figure 5 主要看 Wan 2.1 1.3B 的局部细节保持。对缓存方法来说最容易出问题的不是整体画面还能不能生成而是物体、文字、人物身份、动作状态是否被近似误差悄悄改写。MagCache 在这些案例中的优势来自它没有机械地按固定步长复用缓存而是用累计误差控制何时刷新。 ![Figure 6Wan 2.1 1.3B 与 14B 上的更多对比案例](magcache_fast_video_generation_with_magnitude_aware_cache_按正文顺序配图/07_Figure6Wan2.11.3B与14B上的更多对比案例.jpg) Figure 6 把 Wan 2.1 1.3B 与 14B 放在一起看说明 magnitude-aware 策略并不只是某个小模型上的偶然技巧。更大的模型通常计算更贵也更需要推理层优化如果缓存策略带来明显身份漂移或结构破坏那么越大的模型越可能把这种误差放大成用户可见的问题。 ![Figure 7Open-Sora 上的更多视频生成案例](magcache_fast_video_generation_with_magnitude_aware_cache_按正文顺序配图/08_Figure7Open-Sora上的更多视频生成案例.jpg) Figure 7 对应 Open-Sora。Open-Sora 的案例强调风格、颜色和场景一致性。TeaCache 这类拟合式策略在某些场景下可能出现整体风格偏移这也是 MagCache 论文反复强调 prompt-agnostic magnitude law 的原因校准策略越依赖 prompt 分布遇到分布外输入时越容易露出尾部风险。 ![Figure 8HunyuanVideo 上的更多视频生成案例](magcache_fast_video_generation_with_magnitude_aware_cache_按正文顺序配图/09_Figure8HunyuanVideo上的更多视频生成案例.jpg) Figure 8 对应 HunyuanVideo。HunyuanVideo 原始推理开销很高Table 1 中 baseline latency 达到 1163s因此这里的加速不只是体验优化而是成本结构优化。MagCache 在这类重模型上的意义是用很小额外内存换取较大推理时间下降同时尽量减少视觉轨迹偏离。 ![Figure 9Flux 图像生成模型上的更多案例](magcache_fast_video_generation_with_magnitude_aware_cache_按正文顺序配图/10_Figure9Flux图像生成模型上的更多案例.jpg) Figure 9 则把 MagCache 推到 Flux 图像生成模型上。虽然论文主题是视频生成加速但 Flux 结果说明 magnitude-aware caching 可能具有更宽的生成模型适用性。需要注意的是这还不能直接证明它对所有图像/视频/编辑模型都成立更合理的解读是residual 幅值规律可能是若干 Flow Matching / diffusion transformer 推理轨迹中的共性信号值得继续系统研究。 ### 消融实验K 决定档位delta 微调质量 ![Table 2最大跳步长度 K 与误差阈值 delta 的消融](magcache_fast_video_generation_with_magnitude_aware_cache_按正文顺序配图/11_Table2最大跳步长度K与误差阈值delta的消融.jpg) Table 2 说明了两个超参数的作用分工。$K$ 更像速度档位决定 slow/fast 模式$\delta$ 更像细调旋钮在某个档位内微调质量和速度。以 Wan 2.1 为例当 $K2$ 时是 slow 模式速度提升约 $1.9\times$ 到 $2.1\times$质量较稳当 $K4$ 时进入 fast 模式speedup 可到 $2.4\times$ 或 $2.7\times$但 LPIPS 上升、SSIM/PSNR 下滑。这个趋势符合直觉跳得越长误差越容易积累。从产品角度看这很有用。真实系统往往需要多档质量策略预览、草稿、高清、最终渲染。MagCache 的 $K$ 与 $\delta$ 可以自然映射到这些体验档位而不是只有一个固定加速策略。 ### 校准 prompt真正关键的是稳定性而不是调参技巧 ![Table 3校准 prompt 的影响](magcache_fast_video_generation_with_magnitude_aware_cache_按正文顺序配图/12_Table3校准prompt的影响.jpg) Table 3 比较了随机 prompt、944 个 prompt 平均曲线和 outlier prompt 三种校准方式。结果显示三者 speedup 和视觉质量指标非常接近。随机 Prompt 1 的结果为 $2.14\times$ speedup、LPIPS 0.1206、SSIM 0.8133、PSNR 23.42944 prompts 平均曲线为 $2.14\times$ speedup、LPIPS 0.1162、SSIM 0.8163、PSNR 23.52outlier prompt 也没有显著崩坏。论文 Figure 1 中使用的三个 prompt 如下 | Prompt | 内容 | | --- | --- | | Prompt 1 | A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage... | | Prompt 2 | In a still frame, a stop sign | | Prompt 3 | a laptop, frozen in time | 这组结果支撑了论文一个很重要的主张MagCache 不需要精心选择校准 prompt。Rocky 认为这一点比单个 benchmark 的速度数字更关键。因为在真实部署里校准数据的选择、更新、验证本身就是工程成本如果一个方法需要为每种用户输入分布重新拟合它的开源 demo 可以漂亮但系统维护成本会很高。 ### 附录证据兼容性、鲁棒性与误差建模论文附录补了几组很实用的实验。第一是与蒸馏模型的兼容性。 ![Table 5MagCache 与蒸馏模型兼容性](magcache_fast_video_generation_with_magnitude_aware_cache_按正文顺序配图/13_Table5MagCache与蒸馏模型兼容性.jpg) 在 Wan2.1 14B FusionX 上简单把步数从 $T10$ 降到 $T6$ 虽然也能达到 $1.66\times$ speedup但 LPIPS 变成 0.2982SSIM 只有 0.6471MagCache 在 $T10$ 上跳过 4 步同样达到 $1.66\times$ speedup但 LPIPS 为 0.1812SSIM 为 0.7868。这个实验说明即使模型已经蒸馏过仍然存在可缓存的 step-wise redundancy直接少采样不等于聪明加速。第二是与低比特量化的兼容性。 ![Table 6MagCache 与 4-bit 量化兼容性](magcache_fast_video_generation_with_magnitude_aware_cache_按正文顺序配图/14_Table6MagCache与4-bit量化兼容性.jpg) 在 4-bit Wan2.1 14B 上MagCache-fast 从 241s 降到 119s显存从 26.3G 到 26.5GMagCache-slow 为 169s并保持更好的质量指标。这里的意义不是“量化后还能再快一点”这么简单而是说明 MagCache 属于推理调度层能力理论上可以叠加在量化、蒸馏、FlashAttention 等底层优化之上。第三是 scheduler 鲁棒性。 ![Table 7不同 scheduler 下的幅值比鲁棒性](magcache_fast_video_generation_with_magnitude_aware_cache_按正文顺序配图/15_Table7不同scheduler下的幅值比鲁棒性.jpg) Table 7 显示用 UniPC 校准、DPM 推理或反过来speedup 和质量指标都保持稳定。这说明 magnitude ratio 不完全绑定到某一个 scheduler 的局部轨迹。第四是步数鲁棒性。 ![Table 8不同推理步数下的幅值比鲁棒性](magcache_fast_video_generation_with_magnitude_aware_cache_按正文顺序配图/16_Table8不同推理步数下的幅值比鲁棒性.jpg) Table 8 说明用 50 步校准后通过 nearest-neighbor interpolation 对齐到 30 步或用 30 步校准到 50 步speedup 能保持一致质量主要由实际推理步数决定。对部署来说这意味着一个预校准曲线可能覆盖多个采样步设置。第五是误差建模消融。 ![Table 9乘法误差建模与 naive 建模对比](magcache_fast_video_generation_with_magnitude_aware_cache_按正文顺序配图/17_Table9乘法误差建模与naive建模对比.jpg) Table 9 对比了乘法公式和只看即时 $\gamma_t$ 的 naive 方案。乘法公式 latency 为 87sLPIPS 0.1053、SSIM 0.8275、PSNR 24.32naive 方案 latency 84s但 LPIPS 0.1154、SSIM 0.8137、PSNR 24.06。差距不算夸张但方向明确多步跳过时累计建模优于只看单步。第六是初始步数的重要性。 ![Table 10保留初始步骤数的消融](magcache_fast_video_generation_with_magnitude_aware_cache_按正文顺序配图/18_Table10保留初始步骤数的消融.jpg) Table 10 非常有工程启发。Wan 2.1 总共 50 步时如果只保留前 5 步不跳latency 可以降到 73s但 LPIPS 变成 0.2431、SSIM 降到 0.6423保留前 10 步即 20%latency 为 87s质量明显恢复保留前 15 步质量更好但速度下降。论文最终采用“保留前 20% 步”的默认策略。这说明早期 step 并不是完全冗余。早期 latent 的全局结构和语义布局还在形成盲目跳过会把错误写进后续轨迹。Rocky 认为这个结论对很多视频生成加速方法都适用**越早的错误越像地基偏移越晚的错误越像装修瑕疵。** ## 这篇工作的边界与可复现性这篇论文的贡献明确但边界也需要讲清楚。第一MagCache 是 training-free acceleration不需要重新训练模型这是它的强工程优势。但也因为它是推理近似方法它的质量上限仍然由原模型决定。它不会解决视频生成里的语义理解、物理一致性、动作规划等根问题只是在尽量保持原模型输出轨迹的前提下降低计算。第二论文的核心证据来自多个主流视频/图像生成模型但 magnitude law 是否在更多架构、更多任务、更多采样策略上成立还需要继续验证。论文结论部分也明确说目前主要验证在视频生成模型上未来需要扩展到更多任务和模型。第三LPIPS、SSIM、PSNR 能衡量加速输出与原始输出的接近程度但不完整衡量人类主观质量。尤其视频生成的真实体验还包括动作自然性、时间一致性、镜头稳定性、文本渲染、身份保持等。论文给了 qualitative cases但更系统的人评和时序指标会让结论更强。第四论文 checklist 提到由于资源限制没有报告 error bars。对于部署系统来说稳定性不是平均指标而是尾部风险。一个方法在平均 prompt 上很好不代表在长 prompt、复杂运动、多主体、文本生成、极端风格上也稳定。MagCache 的 prompt 校准鲁棒性是好信号但还不是完整压力测试。第五MagCache 增加的额外内存很小论文中提到 Wan 2.1 上约 0.5GB 级别远小于某些需要几十 GB 额外缓存的方法。但不同实现、不同模型层缓存位置、不同并发服务形态下内存和调度开销仍需要工程侧重新测量。 ## 如果继续研究/落地应该关注什么如果把 MagCache 放到真实视频生成产品里Rocky 认为有四个方向最值得继续做。第一把 $K$ 和 $\delta$ 做成产品级质量档位。比如草稿预览可以使用更大的 $K$ 和更高 $\delta$最终渲染使用更保守策略。这样加速方法不只是论文里的 benchmark 选项而是变成用户体验的一部分。第二补充更强的视频质量评估。LPIPS/SSIM/PSNR 是必要但不充分的指标。实际落地要看身份保持、动作连续性、物体一致性、文本可读性、镜头风格漂移等维度。MagCache 的优势如果能在这些视频原生指标上继续成立价值会更稳。第三研究与其他推理优化的组合边界。论文已经验证了蒸馏和 4-bit 量化但真实系统还会叠加 TensorRT、FlashAttention、KV/cache 管理、batching、分布式推理、低显存 offload 等优化。MagCache 能否保持稳定需要在系统栈里验证。第四继续寻找“可解释的冗余指标”。magnitude ratio 是一个很好的例子它告诉我们视频扩散推理中存在可复用的结构性规律。未来也许可以进一步研究 layer-wise、token-wise、spatial-temporal region-wise 的冗余让缓存从 timestep 级别走向更细颗粒度。 ## 术语与概念速查 | 术语 | 解释 | | --- | --- | | Diffusion / Flow Matching | 多步生成框架通过逐步从噪声或中间状态走向数据分布生成样本。 | | DiT | Diffusion Transformer用 Transformer 作为扩散模型骨干常见于新一代图像/视频生成模型。 | | Residual | 本文中指模型预测速度与当前输入之差表示当前 timestep 的更新信号。 | | Magnitude Ratio | 相邻 residual 的 L2 norm 比值用于衡量 residual 幅值变化。 | | Token-wise Cosine Distance | 相邻 residual 在 token 维度上的方向差异用于判断 residual 方向是否稳定。 | | Cache-based Acceleration | 复用中间计算结果以减少推理成本的加速方法。 | | $K$ | 最大连续跳步长度防止缓存复用时间过长导致漂移。 | | $\delta$ | 累计误差阈值控制质量和速度折中。 | | LPIPS / SSIM / PSNR | 常用图像/视频相似性指标用于衡量加速输出与原始输出的接近程度。 | ## 拓展思考值得继续扩展研究与思考的创新点 MagCache 这篇论文最有启发的地方不只是提出了一个缓存方法而是提供了一种看待生成模型推理的新角度大模型推理不是每一步都同等重要生成轨迹里存在可以被观察、建模和调度的冗余结构。在 AIGC 图像和视频生成进入中场之后单纯堆模型参数、堆分辨率、堆时长会越来越贵。真正能穿越周期的能力往往不是某一个 demo 的惊艳而是能不能把生成质量、速度、成本、稳定性放进一个可控系统里。MagCache 的意义就在这里它把“快一点”变成“有依据地跳过一点”。 Rocky 认为这类工作未来会越来越重要。因为视频生成走向产品化之后竞争不再只是模型榜单而是完整推理系统的效率。谁能在不牺牲稳定性的情况下把每一次生成的边际成本压下来谁就更容易把视频生成从创意玩具推向生产工具。从研究角度看MagCache 的 magnitude law 仍然需要更多验证从工程角度看它已经给出了一个很好的方向**不要只问模型能不能生成也要问模型推理过程中哪些计算真的值得发生。** # 推荐阅读 Rocky一直在运营**技术交流群**WeThinkIn-技术交流群这个群的初心主要聚焦于技术话题的讨论与学习包括但不限于算法开发竞赛科研以及工作求职等。群里有很多人工智能行业的大牛欢迎大家入群一起学习交流请添加小助手微信Jarvis8866拉你进群 ### 1. 深入浅出完整解析AI AgentAI智能体的核心基础知识 2025年可以说是AI Agent全面落地应用的元年因此Rocky在持续撰写对AI Agent的全维度解析文章[深入浅出完整解析AI AgentAI智能体的核心基础知识](https://zhuanlan.zhihu.com/p/1919046969076195976) ### 2. 深入浅出完整解析扩散模型DDPM、DDIM、Classifier/Classifier-Free Guidance、Rectified Flow核心基础知识和Rocky一起学习探究扩散模型的本质原理与和核心基础知识同时不断跟进扩散模型的最新发展。Rocky在本文中对扩散模型的本质做了全面系统的梳理与讲解[深入浅出完整解析扩散模型DDPM、DDIM、SDE、Classifier/Classifier-Free Guidance、Rectified Flow核心基础知识](https://zhuanlan.zhihu.com/p/1964029619658261252) ### 3. 深入浅出完整解析FLUX.2、Seedream即梦、Z-image、GLM-Image核心基础知识 https://zhuanlan.zhihu.com/p/1975174691049189562 ### 4. 深入浅出完整解析FLUX.1 Kontext和FLUX.1 Krea核心基础知识 [深入浅出完整解析FLUX.1 Kontext和FLUX.1 Krea核心基础知识](https://zhuanlan.zhihu.com/p/1921872100358076199) ### 5. 深入浅出完整解析DeepSeek系列核心基础知识 [深入浅出完整解析DeepSeek系列核心基础知识](https://zhuanlan.zhihu.com/p/20739054077) ### 6、Sora等AI视频大模型的核心原理核心基础知识网络结构经典应用场景从0到1搭建使用AI视频大模型从0到1训练自己的AI视频大模型AI视频大模型性能测评AI视频领域未来发展等全维度解析文章正式发布码字不易欢迎大家多多点赞 Sora等AI视频大模型文章地址[深入浅出完整解析Sora、Wan2.1、AnimateDiff、CogVideoX等AI视频大模型核心基础知识](https://zhuanlan.zhihu.com/p/706722494) ### 7、Stable Diffusion 3和FLUX.1核心原理核心基础知识网络结构从0到1搭建使用Stable Diffusion 3和FLUX.1进行AI绘画从0到1上手使用Stable Diffusion 3和FLUX.1训练自己的AI绘画模型Stable Diffusion 3和FLUX.1性能优化等全维度解析文章正式发布码字不易欢迎大家多多点赞 Stable Diffusion 3和FLUX.1文章地址[深入浅出完整解析Stable Diffusion 3SD 3和FLUX.1系列核心基础知识](https://zhuanlan.zhihu.com/p/684068402) ### 8、Stable Diffusion XL核心基础知识网络结构从0到1搭建使用Stable Diffusion XL进行AI绘画从0到1上手使用Stable Diffusion XL训练自己的AI绘画模型AI绘画领域的未来发展等全维度解析文章正式发布码字不易欢迎大家多多点赞 Stable Diffusion XL文章地址[深入浅出完整解析Stable Diffusion XLSDXL核心基础知识](https://zhuanlan.zhihu.com/p/643420260) ### 9、Stable Diffusion 1.x-2.x核心原理核心基础知识网络结构经典应用场景从0到1搭建使用Stable Diffusion进行AI绘画从0到1上手使用Stable Diffusion训练自己的AI绘画模型Stable Diffusion性能优化等全维度解析文章正式发布码字不易欢迎大家多多点赞 Stable Diffusion文章地址[深入浅出完整解析Stable DiffusionSD核心基础知识](https://zhuanlan.zhihu.com/p/632809634) ### 10、ControlNet核心基础知识核心网络结构从0到1使用ControlNet进行AI绘画从0到1训练自己的ControlNet模型从0到1上手构建ControlNet商业变现应用等全维度解析文章正式发布码字不易欢迎大家多多点赞 ControlNet文章地址[深入浅出完整解析ControlNet核心基础知识](https://zhuanlan.zhihu.com/p/660924126) ### 11、LoRA系列模型核心原理核心基础知识从0到1使用LoRA模型进行AI绘画从0到1上手训练自己的LoRA模型LoRA变体模型介绍优质LoRA推荐等全维度解析文章正式发布码字不易欢迎大家多多点赞 LoRA文章地址[深入浅出完整解析LoRALow-Rank Adaptation模型核心基础知识](https://zhuanlan.zhihu.com/p/639229126) ### 12、深入浅出完整解析AIGC时代Transformer核心基础知识在AIGC时代中Transformer为AI行业带来了深刻的变革。**Transformer架构正在一步一步重构所有的AI技术方向成为AI技术架构大一统与多模态整合的关键核心基座大有一统“AI江湖”之势**。Rocky也对Transformer模型进行持续的深入浅出梳理与解析 Transformer文章地址[深入浅出完整解析AIGC时代Transformer核心基础知识](https://zhuanlan.zhihu.com/p/709874399) ### 13、最全面的AIGC面经《手把手教你成为AIGC算法工程师斩获AIGC算法offer2024年版》文章正式发布码字不易欢迎大家多多点赞 AIGC面经文章地址[手把手教你成为AIGC算法工程师斩获AIGC算法offer](https://zhuanlan.zhihu.com/p/651076114) ### 14、50万字大汇总《“三年面试五年模拟”之算法工程师的求职面试“独孤九剑”秘籍》文章正式发布码字不易欢迎大家多多点赞算法工程师三年面试五年模拟文章地址https://zhuanlan.zhihu.com/p/545374303 《三年面试五年模拟》github项目地址**希望大家能多多star**https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer ### 15、Stable Diffusion WebUI、ComfyUI、Fooocus三大主流AI绘画框架核心知识从0到1搭建AI绘画框架从0到1使用AI绘画框架的保姆级教程深入浅出介绍AI绘画框架的各模块功能深入浅出介绍AI绘画框架的高阶用法等全维度解析文章正式发布码字不易欢迎大家多多点赞 AI绘画框架文章地址[深入浅出完整解析主流AI绘画框架ComfyUI、Stable Diffusion WebUI、Fooocus核心基础知识](https://zhuanlan.zhihu.com/p/673439761) ### 16、GAN网络核心基础知识网络架构GAN经典变体模型经典应用场景GAN在AIGC时代的商业应用等全维度解析文章正式发布码字不易欢迎大家多多点赞 GAN网络文章地址https://zhuanlan.zhihu.com/p/663157306 ### 17. AI算法工程师的《三年面试五年模拟》求职秘籍 [AIGC时代的算法工程师的求职面试秘籍持续更新中](https://zhuanlan.zhihu.com/p/545374303) ### 18. AIGC产业的深度思考与分析 2023年3月21日微软创始人比尔·盖茨在其博客文章《The Age of AI has begun》中表示自从1980年首次看到图形用户界面graphical user interface以来以OpenAI为代表的科技公司发布的AIGC模型是他所见过的最具革命性的技术进步。 **Rocky也认为AIGC及其生态会成为AI行业重大变革的主导力量。AIGC会带来一个全新的红利期未来随着AIGC的全面落地和深度商用会深刻改变我们的工作、生活、学习以及交流方式各行各业都将被重新定义过程会非常有趣。** 那么在此基础上我们该如何更好的审视AIGC的未来我们该如何更好地拥抱AIGC引领的革新**Rocky准备从技术、产品、商业模式、长期主义等维度持续分享一些个人的核心思考与观点希望能帮助各位读者对AIGC有一个全面的了解** [深入浅出全面解析AIGC时代核心价值与发展趋势2025年版](https://zhuanlan.zhihu.com/p/2131795916)

MagCache：一篇读懂视频生成加速里的 Magnitude-Aware Cache

相关新闻

3分钟搞定B站缓存合并难题：BilibiliCacheVideoMerge让你的离线视频完整如初

AMD ROCm 7.1.1正式支持Windows：本地AI电影制作全栈落地

AI模型漂移检测与应对实战指南

Biotin-PEG8-hydrazide，生物素-八聚乙二醇-酰肼，Biotin-PEG8-HZ

4-20mA电流环与XTR116芯片在工业控制中的应用

AsrTools语音转文字终极故障排除指南：FFmpeg配置与中文路径快速修复

3分钟解决Windows连接iPhone网络共享的终极方案

AI绘画提示词编写与优化全指南

基于YOLOv8的棒球场景目标检测系统实现

通达OA SQL注入漏洞深度剖析：从手工注入到自动化利用与防御

YOLO目标检测实战：从环境搭建到模型部署的保姆级教程

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

通达OA SQL注入漏洞深度剖析：从手工注入到自动化利用与防御

YOLO目标检测实战：从环境搭建到模型部署的保姆级教程

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

国产DSP FT-M6678 DDR3配置避坑指南：从PLL时钟到PHY寄存器，手把手调通你的第一块板

Coze与Dify对比指南：低代码AI应用开发从入门到实战