2025_NIPS_HALO: Hadamard-Assisted Lower-Precision Optimization for LLMs

发布时间:2026/5/28 15:18:56

2025_NIPS_HALO: Hadamard-Assisted Lower-Precision Optimization for LLMs HALO 论文总结与核心部分翻译一、文章主要内容本文针对大型语言模型(LLMs)量化微调中存在的精度损失与效率平衡问题,提出了一种名为HALO(Hadamard-Assisted Lower-Precision Optimization)的量化感知训练方法。该方法通过在Transformer模型的前向和反向传播中策略性插入哈达玛变换(Hadamard Transformations),结合高效内核支持和FSDP(Fully Sharded Data Parallel)低精度通信集成,实现了在INT8和FP6等低精度格式下的精准高效微调。核心背景与问题LLM推理的量化技术已较为成熟,但量化训练(尤其是预训练模型微调)面临巨大挑战:权重、激活值和误差梯度中存在的异常值会导致训练不稳定,且前向、反向传播中的三次矩阵乘法均需低精度执行,易引发精度损失和格式转换开销。现有方法(如FP8预训练、INT8块量化)难以兼顾低精度(INT8/FP6)、高准确率和高效执行,且不适用于主流微调场景。核心方案哈达玛变换策略:通过右侧哈达玛变换缓解前向传播中的异常值,通过左侧哈达玛变换解决反向传播中误差梯度的异常值问题,形成HALO-1和HALO-2两个层级(分别适配中等动态范围如FP6和窄动态范围如INT8)。高效实现:基于CUTLASS库实现低精度矩阵乘法内核,结合HQ-FSDP(Hada

相关新闻