蚂蚁：PowLU激活函数提升大模型训练稳定性

发布时间：2026/6/12 14:46:57

蚂蚁：PowLU激活函数提升大模型训练稳定性

标题PowLU: An Activation Function for Stable Pre-Training of LLMs来源arXiv, 2605.25704v1️文章简介研究问题如何解决SwiGLU激活函数在大输入值下因近似二次放大导致的数值不稳定及离群值问题特别是在低精度大模型预训练中主要贡献论文提出一种名为PowLU的稳定激活函数通过有理幂函数实现自适应非线性在保持表达能力的同时有效抑制离群值提升了大规模LLM预训练的稳定性。重点思路针对SwiGLU在大正输入下输出范围过大引发训练崩溃的问题设计PowLU激活函数。该函数在输入小于等于0时保持与SwiGLU一致在输入大于0时引入包含平方根的有理幂函数和Sigmoid函数以平滑限制输出增长。从理论层面证明PowLU具备连续性、可微性、单调性及有界增长特性。特别地通过添加分母常数项确保在零点附近的可微性避免数值爆炸并从数学上推导了超参数m的有效范围以保证单调递增。在Ling架构下进行多尺度实验验证包括Scaling Law实验以及7.9B和124B参数规模的大模型预训练。对比基线为广泛使用的SwiGLU及其变体SwiGLU-Clip评估指标涵盖世界知识、语言推理及数学代码等多个基准测试。分析总结Scaling Law实验显示PowLU在不同模型规模下的损失曲线与SwiGLU几乎重合证明其在小模型阶段具有与主流方法相当的性能一致性未因结构改变而牺牲基础表达能力。在7.9B和124B大模型预训练中PowLU取得了与SwiGLU和SwiGLU-Clip极具竞争力的性能结果。在多个权威评测基准上PowLU模型的表现往往略优或持平证实了其在大规模训练中的有效性。稳定性分析表明PowLU显著减少了训练过程中的损失尖峰Loss Spikes。通过张量分布可视化发现相比SwiGLU产生的宽泛极值带PowLU在前向和反向传播中均能更有效地约束数值范围大幅降低离群通道的影响从而在低精度如FP8训练下表现更稳健。消融实验指出超参数m设为3.0时效果最佳且对m的选择不敏感。同时验证了公式中根号项和Sigmoid项对于平衡非线性与稳定性的关键作用移除任一组件都会导致性能下降或梯度异常。个人观点论文并未简单采用硬截断如Clip来抑制离群值而是通过有理幂函数实现软性约束。

相关新闻

HCS12X微控制器：汽车电子中16位双核架构的实时性与成本平衡之道

HCS12X微控制器：汽车电子中16位双核架构的实时性与成本平衡之道

2026/6/12 14:46:15

MC68HC16Z1 QSM模块深度解析：QSPI与SCI集成通信实战指南

MC68HC16Z1 QSM模块深度解析：QSPI与SCI集成通信实战指南

2026/6/12 14:45:55

解决.NET Excel自动化痛点：EPPlus架构设计与高性能实现方案

解决.NET Excel自动化痛点：EPPlus架构设计与高性能实现方案

2026/6/12 14:45:13

Windows 11系统优化必备：Win11Debloat让电脑重获新生速度的秘密

Windows 11系统优化必备：Win11Debloat让电脑重获新生速度的秘密

2026/6/12 15:51:48

PersistentWindows终极指南：彻底解决Windows多显示器窗口错位问题

PersistentWindows终极指南：彻底解决Windows多显示器窗口错位问题

2026/6/12 15:51:27

解锁Xbox手柄完整潜力：X1nput实现PC游戏冲动触发器震动模拟

解锁Xbox手柄完整潜力：X1nput实现PC游戏冲动触发器震动模拟

2026/6/12 15:50:26

终极FFXIV导航革命：5步掌握Splatoon智能标记插件

终极FFXIV导航革命：5步掌握Splatoon智能标记插件

2026/6/12 15:50:06

英雄联盟玩家必备的本地化智能工具箱：League Akari 全面解析

英雄联盟玩家必备的本地化智能工具箱：League Akari 全面解析

2026/6/12 15:49:04

大模型评测体系：从基准测试到业务指标的对齐方法论

大模型评测体系：从基准测试到业务指标的对齐方法论

2026/6/12 15:47:21

从四色定理到算法实战：手把手教你用C++实现地图填色回溯法（附完整代码）

从四色定理到算法实战：手把手教你用C++实现地图填色回溯法（附完整代码）

2026/6/12 0:00:17

Sunshine游戏串流：构建你的跨平台游戏共享生态

Sunshine游戏串流：构建你的跨平台游戏共享生态

2026/6/12 0:00:17

如何30秒找回遗忘的QQ号：手机号逆向查询终极指南

如何30秒找回遗忘的QQ号：手机号逆向查询终极指南

2026/6/12 0:00:17

从放大器选型反推：为什么你的无线模块用OQPSK而不用QPSK？一个硬件工程师的避坑指南

从放大器选型反推：为什么你的无线模块用OQPSK而不用QPSK？一个硬件工程师的避坑指南

2026/6/11 15:33:04

实战指南：基于快马平台生成可集成的流程图组件，告别单纯安装教程

实战指南：基于快马平台生成可集成的流程图组件，告别单纯安装教程

2026/6/11 23:50:56

Qwerty Learner：程序员如何在VSCode中边写代码边记单词的终极指南

Qwerty Learner：程序员如何在VSCode中边写代码边记单词的终极指南

2026/6/11 23:50:59

Harness 中的响应合并：将多个片段组装为完整输出

Harness 中的响应合并：将多个片段组装为完整输出

2026/6/12 4:17:52

Windows Cleaner终极教程：5分钟彻底解决C盘爆红问题，让系统重获新生！

Windows Cleaner终极教程：5分钟彻底解决C盘爆红问题，让系统重获新生！

2026/6/11 20:23:01

别再只会用ifconfig了！在Ubuntu 22.04/20.04上，教你用ip命令并顺带配置好国内镜像源

别再只会用ifconfig了！在Ubuntu 22.04/20.04上，教你用ip命令并顺带配置好国内镜像源

2026/6/11 23:50:59