Anthropic新作:1万年,小模型也永远追不上大模型

发布时间:2026/6/10 6:58:28

Anthropic新作:1万年,小模型也永远追不上大模型 如果给小模型无限数据它能否追上大模型现代机器学习的共识是模型越大loss 越低。但为什么大模型能学到小模型完全不会的任务这个问题远比样本效率深刻。此前工作如 Emergent Abilities观察到某些能力只在特定规模出现但解释往往停留在表达能力或样本效率层面。近日Stanford、Anthropic、MIT等给出了一个尖锐答案 给小模型无限数据它也追不上大模型**基于幂律缩放Power-law Scaling的 phenomenological 分析作者指出存在一部分数据分布小模型即使在渐近训练无限数据下也永远达不到大模型的 loss 水平。Figure 1: 学习分布的一部分需要模型缩放。紫色区域表示小模型N_s和大模型N_l在有限资源下都能达到的损失橙色区域表示小模型即使无限数据也无法触及、只有大模型能学到的部分。理论框架从幂律到不可达区域从经典的 Scaling Law 出发在计算最优训练下而在无限数据渐近下。由于实际中 这意味着即使小模型看遍天下所有数据其渐近 loss 仍然差于大模型在有限数据下的表现。由此作者严格定义了两个概念可通过数据缩放学习小模型 loss 更高只是因为没看够数据给它更多数据就能追平。需要模型缩放学习小模型即使无限数据也永远追不上大模型的那部分能力。这就引出了核心问题这部分只有大模型能学的分布到底是什么参数多在哪里帮了忙合成实验三幕剧揭示机制为了回答上述问题设计了一个可控的多任务线性回归设置K 个任务每个任务有正交的特征块任务频率服从幂律分布任务复杂度由谱衰减 控制3.1 第一幕特征按效用排序学习Theorem 3给出了一个清晰的排序规则模型按效用utility从高到低学习特征。这意味着高频任务大 的特征优先被学简单任务快衰减大 的特征优先被学罕见且复杂的任务只有大模型才有足够的神经元去覆盖Figure 2: 特征效用预测学习顺序。(a) 相图显示不同宽度模型保留哪些任务特征与理论预测高度吻合(b) 观测到的归一化 loss 与基于效用排序的理论预测一致。3.2 第二幕资源竞争与残差控制Theorem 4和Corollary 5揭示了关键机制当模型宽度 足够大时常见任务Frequent tasks的协方差 被充分解释其残差信号变得极小。这导致常见任务的梯度更新变弱剩余神经元资源被释放给罕见任务Figure 3: 残差控制学习。当常见任务的残差信号 较高时左侧小模型中罕见任务信号接近随机只有当残差降低模型变大罕见任务才开始被学习。3.3 第三幕记忆保留 vs. 更新-遗忘循环Proposition 6进一步指出即使罕见任务有机会更新小模型也面临灾难性干扰。作者设计了一个匹配频率注入实验罕见任务每隔 步注入一次但保持总频率不变。结果显示小模型每次注入后短暂编码罕见任务信号但随后被常见任务梯度覆盖回到随机水平——陷入更新-遗忘循环。大模型保留上次注入的记忆信号逐步累积最终学会任务。Figure 4: 大模型的罕见任务保留能力。(a) 小模型N32的罕见任务信号在注入后迅速衰减而大模型N256能累积保留(b) 热力图显示随着注入间隔 G 增大小模型信号迅速衰减大模型保持稳定。OLMo 预训练验证从玩具到真实 LLM上述机制是否在真实 LLM 中成立作者在 OLMo 架构上进行了预训练实验4M → 4B 参数在 Dolma v1.7 语料中**注入控制频率的特殊任务**比较任务T_CMP判断两个 token 的数值大小模加任务T_ADD模 100 加法经典 grokking 任务4.1 行为证据大模型学会罕见任务结果与合成实验惊人一致小模型4M、20M在罕见任务上完全失败接近随机大模型300M、1B、4B能学会低频率任务且测试准确率随规模提升任务按频率顺序被学习Figure 5: 大模型学习罕见任务小模型不能。颜色越橙表示 loss 越低/准确率越高。随着模型增大低频率任务底部行从完全不会紫色转变为学会橙色。查看原图Figure 6: 行为证据。(a) 任务按频率顺序学习(b) 匹配频率注入实验即使总频率相同注入间隔越大保留要求越高小模型表现越差。查看原图4.2 表征证据更多任务特征嵌入作者使用 Distributed Alignment Search (DAS) 定位了任务特征T_CMP全局 token 顺序特征存在于第一层残差流的 1 维子空间T_ADDFourier 模态特征结果显示大模型的表征中嵌入了更多任务相关特征且特征出现与测试准确率高度相关。Figure 7: 表征证据。增大模型尺寸和任务频率模型学会更多任务相关特征。左列展示特征几何全局顺序/Fourier 模态右两列量化特征随频率和尺寸的变化。4.3 梯度证据更少干扰更多保留作者分析第一 MLP 层中任务神经元的梯度大模型批次梯度与任务参考方向 的 cosine similarity 更高0.08±0.02且非任务 token 梯度几乎与 正交干扰极小小模型20M非任务梯度与任务方向随机碰撞0.10±0.09说明常见任务梯度在暴力覆盖罕见任务特征Figure 8: 罕见任务保留。大模型在注入任务实例时eval loss 下降更大说明保留了更多任务信息。Figure 9: 梯度干扰。大模型的批次梯度携带更多任务信号上且非任务 token 梯度几乎不与任务方向干扰下小模型则充满随机碰撞。核心假设Scaling 通过减少干扰实现学习综合所有证据作者提出一个数据-centric的解释框架假设在相同训练设置下大模型更好地学习数据分布尾部的任务。当罕见任务被观察时大模型能保留部分更新并在下次观察时累积小模型的参数面临更激烈竞争常见任务的更新在下次罕见批次到来前就已覆盖罕见特征形成更新-遗忘循环。这意味着记忆memorization不是坏事对罕见任务而言保留训练实例的记忆是最终泛化的前提数据混合设计比盲目扩模更重要如果目标任务是罕见的单纯提升其频率可能比扩大模型更高效Figure 11: 神经元竞争动态。单神经元时频繁任务主导双神经元时各专精一个任务罕见任务对齐度可持续接近 1。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关新闻