大模型也需要睡觉！让AI打个盹，醒来更聪明-尧图网站设计

闻乐发自凹非寺量子位 | 公众号 QbitAI7×24AI也吃不消。卡内基梅隆大学和马里兰大学发了篇论文《Language Models Need Sleep》——大模型处理长上下文的时候硬撑着不休息真的会累傻。这项研究的灵感源自人脑运作机制。人睡觉的时候海马体会把白天的短期记忆一遍遍回放巩固进皮层突触变成长期知识。研究团队认为模型也可以这样设计了一个睡眠机制让大模型上下文窗口快满的时候别硬撑了打个盹把最近的上下文反复咀嚼几遍压缩进长期权重清空缓存醒了再接着干。测试发现合理增加“睡眠”迭代轮次能明显提升模型在深度推理类任务上的表现。尤其是那些需要一步接一步推导的难题越复杂模型越需要多睡一会儿。咋回事大模型到底怎么了非要睡觉Transformer的核心是注意力机制但注意力有一个天生的短板就是上下文越长算力平方级往上蹿KV缓存也线性往上涨。同样是推理任务8K上下文窗口和128K上下文窗口的算力成本差距极大多出的算力基本都消耗在了历史信息的关联计算上。所以现在的做法两种要么就硬扛扛不住了就把老信息踢出缓存但踢出去的东西模型就当没发生过另一类就是两年流行的SSMAttention混合架构比如Samba、Qwen3.5。混合架构是想了个折中方案把老信息压缩进快速权重fast weight不占缓存同时保留信息的可调用能力。这确实缓解了一部分内存压力但团队发现即便快速权重还有充足容量当推理步骤变多、逻辑链条变长时模型依旧会出现性能失效的问题。也就是说当下的瓶颈并非信息存储能力不足而是深度推理能力跟不上。历史信息被移出KV缓存前模型仅有一次前向传播的机会完成信息内化单次处理根本不足以支撑复杂逻辑的拆解与推导。这一点和人脑比较像你白天经历了一大堆事情不是当场全消化掉的而是大脑等你睡着了再处理。海马体在睡眠期间一遍遍回放白天的重要片段把短期记忆巩固进皮层突触变成长期知识。但这个过程必须离线也就是你得先睡着把外部刺激暂时关掉大脑才能集中算力干消化这件事。而且它不是回放一遍就完得多放几遍。模型的睡眠长什么样团队把人脑这一整套逻辑搬到了模型上。他们的设计是当模型上下文窗口快满的时候不硬撑了直接让大模型睡觉。这里的睡觉是指暂停接收新token进入纯离线状态针对已积累的全部上下文执行多轮递归前向传播。依靠可学习的局部规则反复对信息进行提炼整合逐步更新SSM模块内的快速权重完成信息的深度压缩与消化。消化完了就清空KV缓存带着更新后的权重醒来接着干活。从算力分配来看额外的计算开销全部集中在“睡眠”阶段型苏醒后的正常推理流程和常规模型保持一致只需要一次前向传播。这里的“睡眠时长”本质上就是信息迭代处理的轮次轮次越多代表模型对上下文内容的梳理、打磨次数越充分。团队选用元胞自动机、多跳图检索、GSM-Infinite无限数学推理三类任务开展测试因为这几类任务可以精准控制推理深度与记忆负载两大变量。测试结果清晰印证提升睡眠迭代轮次模型整体性能稳步提升而且性能提升主要体现在高难度深度推理任务上。也就是说简单的题醒着就能秒了难的题需要睡一觉得经过多轮梳理才能理清思路。只能说摸鱼休息确实是提升效率的妙招有时候停下来才能好好思考doge。论文地址https://arxiv.org/abs/2605.26099一键三连「点赞」「转发」「小心心」欢迎在评论区留下你的想法—完—专属AI产品从业者的实名社群只聊AI产品最落地的真问题扫码添加小助手发送「姓名公司职位」申请入群进群后你将直接获得最新最专业的AI产品信息及分析不定期发放的热门产品内测码内部专属内容与专业讨论点亮星标科技前沿进展每日见

大模型也需要睡觉！让AI打个盹，醒来更聪明

相关新闻

OpenCode

Scala核心编程（八）面向对象编程（高级特性）

从D触发器到二进制计数器：硬件实现的时序逻辑核心

从 SEO 到 GEO：AI 搜索时代下，技术内容正在发生哪些变化？

最急需AI智能体视觉技术（TVA）的10种应用场景

Docker Compose 入门：一条命令启动多服务

接入 Taotoken 后在不同时段测试 API 响应延迟的实际体感与观察

长期使用Taotoken后对账单清晰度与计费模式的感受

使用 Taotoken CLI 工具一键配置多开发环境下的模型调用参数

ShaderGraph从入门到放弃？新手最容易踩的5个坑及避坑指南（基于Unity 2021.3）

零基础3步打造专业AI翻唱：AICoverGen完全指南

基于Arduino与DS1302的实时时钟系统：硬件连接、代码实现与调试全指南

让 AI 做代码 Review（CR）：测试如何提前在代码提交阶段发现 Bug？

问题不是要不要审，而是审查放在哪条路径

水纹真实度提升300%的关键技巧，深度拆解--style raw、--chaos 45与自定义tile texture协同机制

别再手动点关了！用PowerShell永久关闭Windows Defender的保姆级教程（含Server 2016/2019）

别再只换芯片了！BP2832A替换CL1502，你的电感参数算对了吗？

全平台智能资源下载工具：res-downloader 完整使用教程