蚂蚁:PowLU激活函数提升大模型训练稳定性

发布时间:2026/6/12 14:46:57

蚂蚁:PowLU激活函数提升大模型训练稳定性 标题PowLU: An Activation Function for Stable Pre-Training of LLMs来源arXiv, 2605.25704v1️文章简介研究问题如何解决SwiGLU激活函数在大输入值下因近似二次放大导致的数值不稳定及离群值问题特别是在低精度大模型预训练中主要贡献论文提出一种名为PowLU的稳定激活函数通过有理幂函数实现自适应非线性在保持表达能力的同时有效抑制离群值提升了大规模LLM预训练的稳定性。重点思路针对SwiGLU在大正输入下输出范围过大引发训练崩溃的问题设计PowLU激活函数。该函数在输入小于等于0时保持与SwiGLU一致在输入大于0时引入包含平方根的有理幂函数和Sigmoid函数以平滑限制输出增长。从理论层面证明PowLU具备连续性、可微性、单调性及有界增长特性。特别地通过添加分母常数项确保在零点附近的可微性避免数值爆炸并从数学上推导了超参数m的有效范围以保证单调递增。在Ling架构下进行多尺度实验验证包括Scaling Law实验以及7.9B和124B参数规模的大模型预训练。对比基线为广泛使用的SwiGLU及其变体SwiGLU-Clip评估指标涵盖世界知识、语言推理及数学代码等多个基准测试。分析总结Scaling Law实验显示PowLU在不同模型规模下的损失曲线与SwiGLU几乎重合证明其在小模型阶段具有与主流方法相当的性能一致性未因结构改变而牺牲基础表达能力。在7.9B和124B大模型预训练中PowLU取得了与SwiGLU和SwiGLU-Clip极具竞争力的性能结果。在多个权威评测基准上PowLU模型的表现往往略优或持平证实了其在大规模训练中的有效性。稳定性分析表明PowLU显著减少了训练过程中的损失尖峰Loss Spikes。通过张量分布可视化发现相比SwiGLU产生的宽泛极值带PowLU在前向和反向传播中均能更有效地约束数值范围大幅降低离群通道的影响从而在低精度如FP8训练下表现更稳健。消融实验指出超参数m设为3.0时效果最佳且对m的选择不敏感。同时验证了公式中根号项和Sigmoid项对于平衡非线性与稳定性的关键作用移除任一组件都会导致性能下降或梯度异常。个人观点论文并未简单采用硬截断如Clip来抑制离群值而是通过有理幂函数实现软性约束。

相关新闻