2026年大模型“开源海啸”下,锥形语言模型零成本提升性能!

发布时间:2026/7/1 18:50:34

2026年大模型“开源海啸”下,锥形语言模型零成本提升性能! 直击2026年大模型「开源海啸」现场2026年6月大模型行业迎来一场前所未有的「开源海啸」。英伟达放出550B参数的混合架构模型谷歌送出多模态的Gemma新版本智谱用最宽松的协议全量开源了自家旗舰模型。几乎所有厂商都在讲述同一个故事即采用混合专家MoE结构装下更多参数用更稀疏的激活方式压低成本用弹性的网络宽度匹配不同的部署场景。也就是说整个行业都在拼命研究「怎么把更多的参数塞进同样的算力预算里」。新论文提出相反方向问题然而一篇来自Mila、康奈尔大学和蒙特利尔大学研究者的新论文《Tapered Language Models》提出了一个几乎相反方向的问题如果一个参数都不多加只是把模型里已经存在的参数「挪个位置」会发生什么被忽视的「一视同仁」现象从2017年开创Transformer的论文《Attention Is All You Need》开始几乎所有语言模型都共享同一种骨架把若干结构完全相同的「层」叠在一起每一层分到的参数量都一样。这就如同连锁餐厅无论开在闹市区还是郊区都配备相同数量的厨师和厨房设备不考虑客流量差异。这种「一视同仁」的分配方式省心、好维护但未必是最优解。近年来越来越多研究指出模型的层并非同等重要。「提前退出」实验显示很多时候模型在未跑到最后一层时答案已基本定型「层剪枝」研究发现砍掉后面一些层模型表现几乎不受影响可解释性研究则发现浅层网络捕捉语法这类「基础信息」深层网络处理语义这类「高级信息」。也就是说层与层之间差异很大但参数分配却始终「一视同仁」。论文提出核心疑问既然层的重要性不均匀为什么层的「脑容量」还要均匀分配把「脑容量」往前挪的实验研究团队做了一个验证实验将一个440M参数的Transformer模型的层分成早、中、晚三组在保持总参数量不变的前提下让其中一组的「前馈网络」FFN模型中负责存储和处理信息的核心组件可理解为每一层的「工作记忆容量」变宽其余两组变窄。结果表明把容量集中到前段的「头重脚轻」式分配使模型在验证集上的困惑度衡量语言模型预测准确程度的指标数值越低代表模型预测得越准从16.28降到15.96而把容量集中到后段困惑度反而飙升到17.29。同样的参数总量仅因摆放位置不同效果就差了一个多点这在语言模型评测体系里是相当大的差距。这个发现让问题指向更细方向能否用一条更平滑的曲线让容量从前到后逐渐递减而非「一刀切」的三段式分组研究者将这种思路命名为「锥形语言模型」Tapered Language ModelsTLMs即选定模型中任何一个决定参数量的维度如前馈网络的宽度让它沿着深度方向单调递减同时保证所有层的平均宽度等于原来的固定值使总参数量和计算量不变分布形状从「长方形」变成「楔形」。团队尝试了线性递减、余弦递减、S形Sigmoid递减三种曲线。这三种曲线的差异类似于三种不同的「收摊」方式线性递减像匀速关店每段时间关掉差不多数量的柱台S形递减像突然集中宣布闭店大部分摊位维持原样只有中间一小段急速收缩余弦递减介于两者之间两头平缓过渡中段逐渐收紧既不会「一刀切」地损失两端灵活性也不会平均用力而错过最该收缩的地方。实验结果免费的1.84个点在440M参数的Transformer上做完五种宽度比例和三种曲线的组合扫描后余弦递减以全面优势胜出。在最优配置下前段宽度是基准的1.5倍后段是基准的0.5倍困惑度从均匀分布基线的16.28降到了14.44改善了1.84个点且全程未增加一个参数或一次额外的浮点运算。更关键的是这个结论并非某一个架构的运气。研究团队把同一套配置余弦递减、前后宽度比1.5/0.5搬到另外三种结构迥异的架构上包括带门控机制的注意力模型、具备「自我修改记忆」能力的Hope - attention以及拥有神经长期记忆模块的Titans架构并在760M和1.3B参数两个更大规模上重新验证。结果显示四种架构、两种规模的所有八组对比中经过「锥形化」改造的模型在常识推理基准上的平均准确率全部提升在LAMBADA语言预测任务上的困惑度全部改善。研究者还额外做了长文本检索测试Needle - in - a - Haystack确认这种重新分配不会牺牲模型处理长上下文的能力。为解释这种现象背后的原因团队测量了GPT - 2系列模型中每一层「前馈网络」输出与已有信息流的相似程度发现越往模型深处走每一层新写入的内容与已存在的信息越像。这表明后段的层更多是在「重复强调」已有的判断而非「创造」新的理解印证了把容量从后段挪到前段的合理性因为前段的层真正用得上这些额外的「脑容量」而后段的层用不上。研究的意义与展望这项研究提出了一个朴素却被长期忽视的命题模型的容量不该是均匀泼洒的资源而应流向真正需要它的地方。在2026年整个行业都在比拼「谁的参数更多」「谁的架构更稀疏」时这篇论文提供了一个几乎零成本的替代方案即不需要换架构、加参数只需要换一种分配的「形状」。研究者也坦言目前的最优配置是在一个440M参数模型上调出来的是否存在更适合不同规模、不同架构的「专属配方」仍是开放问题。值得关注的是论文指出这套思路并不局限于语言模型视觉Transformer、扩散模型、多模态模型等几乎都继承了同一种「层层均分」的默认设定。如果容量分配的形状本身是一个被长期忽视的设计维度那么这把「藏在明处的免费杠杆」或许才刚刚被人注意到。团队简介论文由Mila蒙特利尔学习算法研究所的Reza Bayat、康奈尔大学的Ali Behrouz以及Mila联合创始人、蒙特利尔大学教授Aaron Courville共同完成。Ali Behrouz目前是Google Research的研究员、康奈尔大学博士生过去两年参与设计了多个引发广泛关注的新架构包括能够「在测试阶段学习记忆」的Titans架构以及后续的Atlas和「嵌套学习」Nested Learning框架长期专注于让模型更高效地利用和存储长期上下文信息。Aaron Courville则是深度学习领域的资深学者CIFAR AI Chair长期与Yoshua Bengio共同推动深度学习基础研究在表征学习和生成模型方向有深厚积累也是生成对抗网络GAN的作者之一并与Ian Goodfellow和Bengio合著了经典著作《Deep Learning》。如果你对相关内容感兴趣不妨持续关注该领域的研究动态。

相关新闻