2025_NIPS_ELM: Hyperbolic Large Language Models via Mixture-of-Curvature Experts

发布时间:2026/5/25 19:39:59

2025_NIPS_ELM: Hyperbolic Large Language Models via Mixture-of-Curvature Experts 文章核心总结与创新点主要内容文章针对现有大语言模型(LLMs)依赖欧氏空间运算、无法充分捕捉自然语言语义层级和非欧几何结构的问题,提出了完全基于双曲空间的大语言模型家族HELM。双曲空间具有扩张性、无标度和低失真特性,与文本数据的负曲率分布特性高度契合。文章设计了HELM-MICE(混合曲率专家模型)和HELM-D(稠密模型)两种架构,通过创新的双曲模块解决了现有双曲Transformer的灵活性、核心操作缺失和可扩展性问题,并在MMLU、ARC等多个基准测试中实现了对LLaMA、DeepSeek等主流欧氏模型的性能超越(最高提升4%)。核心创新点混合曲率专家模块(MICE):每个专家在不同曲率空间运行,捕捉令牌嵌入中的多样负曲率特征,解决了传统双曲模型固定曲率的表达局限。关键双曲模块创新:提出双曲旋转位置编码(HOPE)和双曲均方根归一化(RMSNormₗ),补全了双曲模型中缺失的现代LLM核心组件,并提供理论保证。高效注意力机制(HMLA):设计双曲多头潜在注意力,通过缩减KV缓存规模,解决了双曲模型训练和推理的内存瓶颈,提升可扩展性。首个亿级参数双曲LLM:成功训练了十亿参数规模的完全双曲大语言模型,验证了双曲几何在大规模预训练中的有效性。英文原文翻译(Markdown格式)

相关新闻