Adam之后选哪个?浙大团队对23种优化器做了迄今最系统的评测

发布时间:2026/5/26 13:00:17

Adam之后选哪个?浙大团队对23种优化器做了迄今最系统的评测 大模型训练已经开始“卡”在优化器上了在深度学习的发展历程中以随机梯度下降SGD和 Adam 为代表的一阶梯度下降方法是现代模型训练的基础优化算法。然而随着大语言模型LLM时代的到来传统优化方法正面临硬件与系统层面的多重瓶颈主要表现为反向传播引起的内存限制内存墙、分布式网络中的通信开销通信墙以及处理敏感数据时的隐私保护问题隐私墙。面对这些工程挑战优化算法的设计与演进方向正发生转变。近日来自浙江大学APRIL Lab、复旦大学、上海交大及新加坡国立大学的联合团队发布了最新长文综述不仅系统回顾了深度学习优化算法的演进轨迹还针对多种模型架构和训练场景对主流优化器进行了全面的实证评估为下一代高效、鲁棒、可信的优化方法设计提供了极具价值的实践指南。论文链接https://arxiv.org/abs/2604.12968项目链接https://github.com/APRIL-AIGC/awesome-optimizer图优化方法演化树以经典基础方法为根节点发展轨迹分支为一阶、二阶和零阶。节点大小反映引用影响力不同聚类展示了从基础梯度更新到面向特定场景的高级框架的演进历程背景在深入探讨优化器的演进历史之前研究团队首先介绍了深度学习复杂的优化环境。模型训练的本质是经验风险最小化但在高维空间中神经网络的损失地形是一片崎岖的非凸地带。这里不仅布满了诱导模型陷入停滞的鞍点还隐藏着无数局部最优的陷阱。SGD正是通过巧妙利用随机梯度带来的噪声才得以在这片崎岖的地形中跌跌撞撞地逃离鞍点最终寻找到具备强大泛化能力的平坦极小值。而当我们步入超参数化时代神经正切核NTK理论表明在无限宽极限下梯度下降训练的网络动态可近似为固定核上的核回归过程从而为过参数化网络的优化收敛性质提供了理论解释。图优化方法的量化演进时间线统一的数学视角针对现有文献中分类零散、演进脉络不够清晰的问题研究团队构建了统一的数学分类框架将底层的优化基元划分为三大类图代表性优化方法的分类与对比1.一阶优化算法FO作为当前应用最广的方法FO依赖一阶梯度及其派生统计量以低计算开销实现收敛并严格避免显式的二阶曲率近似。综述将FO梳理为8个维度每个维度都针对基础算法的某一特定缺陷展开改进动量机制有助于逃离鞍点自适应步长减轻了人工调参负担方差缩减机制能够加速病态区域中的收敛稳定性机制保证了噪声环境下训练的鲁棒性学习率调度优化了整体学习过程的推进泛化增强技术致力于寻找平坦极小值混合方法结合了不同策略的互补优势而内存高效变体则使大规模模型训练成为可能。为克服一阶方法的几何限制并实现结构优化研究团队将目光转向能够明确纳入内在曲率的SO方法。2.二阶优化算法SOSO算法通过显式构建并结合真实的曲率信息如海森矩阵Hessian或费雪信息矩阵FIM来对更新方向进行预处理旨在突破一阶算法的性能极限。研究团队详细盘点了Hessian近似、FIM应用及拟牛顿法等为降低大规模计算复杂度而生的前沿方案。然而SO方法严格要求函数必须具有二阶可微性并且需要大量内存来实现曲率计算。随着深度学习向大规模LLM模型和不可微的黑盒环境发展这些严苛前提条件形成了难以逾越的应用障碍从而自然推动了后续详述的零阶算法的转型。3.零阶优化算法ZO针对大规模训练中反向传播带来的高额显存开销零阶方法提供了一种可行的解决方案。该方法通过前向函数评估近似梯度方向能够有效缓解显存限制。场景驱动的优化范式随着大模型参数规模的急剧扩大以及应用场景的复杂化仅从数学视角进行算法设计已无法完全解决实际工程中的瓶颈。现代优化器的设计趋势正在向结合系统架构的工程解决方案演进1.分布式优化针对大规模计算节点间的通信瓶颈通常引入梯度压缩如量化与稀疏化、局部更新策略及去中心化通信拓扑从而实现高效的信息同步。分布式优化的发展演化体现了一种从启发式单维压缩向具有理论保证的多维联合设计的范式转变。早期方法主要通过简单的梯度量化来降低通信开销而后逐渐发展为能够同时处理方差缩减、曲率近似以及隐私噪声的复杂优化框架。2.隐私保护优化为了保障敏感数据的安全性研究者探讨了差分隐私优化与梯度噪声注入技术以在隐私保护强度与模型性能之间寻找最优平衡。全局裁剪具有实现简单的优势但在异构训练阶段中的性能往往并不理想。自适应裁剪通过实时校准改善了效用与隐私之间的权衡但同时引入了额外的计算开销。曲率感知裁剪则能够更充分地利用损失景观的几何结构从而提升优化稳定性但其代价是需要计算代价较高的曲率近似。3.内存高效设计针对大语言模型的超大规模参数这篇综述分析了低秩梯度存储等策略旨在受限的硬件显存条件下实现大模型的微调与训练。标准化基准测试现有研究中往往缺乏公平的跨架构对比测试导致优化器选择缺乏可靠指导。为此研究团队建立了一个标准化的评估框架在视觉任务ResNet、ViT以及因果语言建模Llama上对23种不同优化器进行了大规模基准测试。 测试定量分析了不同优化器学习率敏感性、长期训练的可扩展性以及跨架构的泛化能力。1.跨架构泛化与鲁棒性差异实验表明Muon和MARS在ResNet-50和Llama-60M上均保持优异性能PPL≈12-14即使在5×学习率下仍稳定Kron、Lion、LAMB展现出良好的跨架构迁移能力SGD系列在Llama上遭遇灾难性训练崩溃梯度爆炸导致NaN证明在高度各向异性的LLM损失景观中缺乏自适应机制的一阶方法无法同时满足所有层的收敛需求。2.长期训练可扩展性100 vs 300 Epoch研究团队分析了优化器在延长训练周期时的行为差异发现持续改进型SGD在ViT-S上从100到300 epoch提升**9.41%**因其无激进方差累积允许模型持续探索损失景观快速饱和型Muon、Lion、Kron等先进优化器在100 epoch已达高基线77%300 epoch仅提升1.9%~4.7%表明其早期即收敛到优质局部极小值性能退化RMSprop在ResNet-50上300 epoch相比100 epoch性能下降因长期累积的梯度噪声未修正导致步长估计失衡。3.优化器相关性分析轨迹动力学研究团队还计算验证损失一阶差分而非原始损失的Pearson相关系数捕捉优化器的内在节奏而非整体趋势。关键发现如下架构主导效应ViT训练呈现高度同质化所有优化器相关性高因其严格的学习率warmup和正则化协议压制了优化器的个性ResNet则显示显著算法分化。算法家族聚类自适应标量族Adam、AdamW、Nadam等高度相关共享平方梯度EMA的同步适应模式结构预处理族Kron、Muon彼此强相关但与标量族差异显著因其通过矩阵更新而非对角缩放导航参数空间机制异常值Lookahead双权重插值、MADGRAD对偶平均与标准方法相关性低具有独特的损失遍历轨迹。时间平滑效应随着训练从100 epoch延长到300 epoch所有优化器相关性上升表明不同算法路径最终汇聚到相似的几何区域展望当然研究团队还指出了未来的几个研究方向。例如一阶方法可以从脆弱的经验调参转向自动生成架构特定的优化器推进结构矩阵更新如Muon的Newton-Schulz正交化利用梯度统计的几何结构集成自适应低精度算术动态调整数值精度以平衡内存占用与收敛稳定性。二阶方法可以将结构感知自适应如TK-FAC的迹保持分解与低精度算术结合设计适合现代AI加速器GPU/TPU内存层次结构的稀疏矩阵运算探索高效稀疏矩阵求逆技术在保持二阶信息优势的同时实现与一阶基线相当的全局效率。零阶方法则可以从精确梯度校正机制中汲取灵感如VAMO的方差降低数学上消除不同网络架构引入的固有随机噪声稳定高度变化的更新步长。原文链接Adam之后选哪个浙大团队对23种优化器做了迄今最系统的评测-36氪

相关新闻