从“金鱼脑”到“大象记忆”:AI Agent 短期记忆与长期记忆的存储与检索全解

发布时间:2026/7/1 1:59:12

从“金鱼脑”到“大象记忆”:AI Agent 短期记忆与长期记忆的存储与检索全解 从“金鱼脑”到“大象记忆”AI Agent 短期记忆与长期记忆的存储与检索全解1. 引言为什么 AI 总是“说完就忘”2. 核心区别工作台 vs 图书馆3. 短期记忆AI 的“临时工作台”3.1 它是什么—— Transformer 的上下文窗口3.2 存储与检索直接、快速、全量3.3 核心挑战容量天花板4. 长期记忆AI 的“知识图书馆”4.1 它是什么—— 持久化的外部存储4.2 存储策略存什么怎么存4.3 检索策略怎么“想”起来5. 协同工作一个完整的记忆闭环6. 工程实践建议7. 结语The Begin点点关注收藏不迷路⬇ ⬇ 底部 ⬇ ⬇1. 引言为什么 AI 总是“说完就忘”如果你用过 AI 助手大概率遇到过这样的场景聊了十几轮之后它突然忘了你最开始提到的关键信息——你说过“我是素食主义者”它却在推荐牛排餐厅你一小时前上传了项目文档它现在却问“什么文档”这不是模型“变笨了”而是它的记忆系统有明确的边界。在 AI Agent 系统中短期记忆Short-Term Memory, STM和长期记忆Long-Term Memory, LTM的划分是决定 Agent 能否从“一次性问答工具”进化成“可长期协作的数字员工”的关键分水岭。本文将系统拆解两种记忆的本质区别并深入探讨它们在实际工程中分别适合用什么技术来存储和检索。2. 核心区别工作台 vs 图书馆要理解两种记忆的差异最直观的类比是人类的认知系统短期记忆就像你面前的工作台。桌面上摆着当前正在处理的所有材料——正在写的代码、刚翻开的参考页、脑子里记着的步骤。这个台面空间有限但拿取速度极快。一旦你起身离开会话结束台面就会被清空。长期记忆就像你身后的图书馆。里面存放着所有过往的经验、学到的知识和用户偏好。空间近乎无限但找一本书需要时间——你得先查目录、走到对应书架、抽出那本书。具体区别可以通过下表快速把握维度短期记忆STM长期记忆LTM本质工作内存 / 意识现场知识库 / 经验档案技术载体大模型的上下文窗口外部数据库向量库、关系库容量有限且固定4K ~ 1M Tokens理论无限PB 级可扩展持久性临时易失会话结束即重置永久持久除非主动删除访问方式全局、直接所有信息都在“眼前”按需检索基于相似性搜索主要内容对话历史、工具输出、即时推理链用户画像、会话摘要、关键事实、学习成果3. 短期记忆AI 的“临时工作台”3.1 它是什么—— Transformer 的上下文窗口短期记忆在技术上对应的是大语言模型的上下文窗口Context Window。这是一个固定长度的 Token 序列包含了模型当前推理能“看到”的全部信息。它的工作机制依赖于 Transformer 架构的KV 缓存Key-Value Cache。当模型生成下一个词时会复用之前计算过的注意力结果保证毫秒级的响应速度。3.2 存储与检索直接、快速、全量短期记忆的存储方式很“朴素”每次调用 API 时直接把所有内容拼进请求里。典型的短期记忆“内容包”包括系统指令Agent 的角色、能力和行为准则对话历史当前会话中所有交替出现的用户和助手消息工具调用结果Agent 调用外部 API 返回的数据当前用户输入最新提出的问题至于检索更简单——不存在“检索”这个过程。因为所有信息都在上下文窗口内模型通过自注意力机制直接“看见”全部内容无需额外查找。3.3 核心挑战容量天花板短期记忆面临两个硬约束有限容量当对话或任务超出窗口长度时最早的信息会被“挤出”导致 Agent 遗忘会话开头的内容。“迷失在中间”即便物理空间还有余量模型对中间位置信息的关注度会显著下降——信息“在场”但认知上可能已经“缺席”。最新的优化方向包括“选择性记忆压缩”——只保留对上下文有贡献的 Token在实验中实现了记忆利用率提升 3 倍、显存占用减少约 60%。4. 长期记忆AI 的“知识图书馆”4.1 它是什么—— 持久化的外部存储长期记忆是 Agent 跨会话存储和积累知识的关键。它的实现不依赖模型上下文窗口而是通过外部存储系统来构建。4.2 存储策略存什么怎么存存什么并非所有短期记忆都值得长期保存。聪明的存储策略通常包括用户显式指令“请记住我的生日是 X 月 X 日”Agent 自动摘要会话结束时LLM 提炼本次对话的关键要点关键事实提取从对话中抽取实体人名、地点和关系经验与教训任务执行成功或失败后的反思总结怎么存主流方案采用“双轨制”结构化存储关系数据库用于存储会话元数据、用户信息、偏好设置等。例如 SQLite、MySQL支持精确查询和事务管理。向量化存储向量数据库将文本通过 Embedding 模型转换为高维向量存入向量数据库如 Chroma、FAISS、Milvus、Pinecone。这是实现语义检索的基础。4.3 检索策略怎么“想”起来长期记忆的检索不是“全盘加载”那会瞬间撑爆上下文而是按需精准召回。典型流程如下查询向量化将当前用户问题或对话上下文通过同款 Embedding 模型转换为向量。相似性搜索在向量数据库中计算查询向量与所有存储向量的余弦相似度返回最相似的 Top-K 条记忆。结果注入检索到的记忆片段被动态插入到当前会话的“短期记忆”上下文窗口中通常以“以下是关于用户的一些背景信息…”的形式呈现。以OpenClaw 的内置记忆引擎为例它提供了三种检索模式关键词搜索通过 FTS5 全文索引实现 BM25 评分匹配向量搜索通过任意支持的 Embedding 提供商OpenAI、Gemini、Voyage 等实现语义检索混合搜索同时结合关键词和向量搜索取两者优势索引采用分块策略约 400 Token重叠 80 Token存储在~/.openclaw/memory/agentId.sqlite中文件变更会自动触发防抖重新索引。5. 协同工作一个完整的记忆闭环一个真正智能的 Agent不依赖单一类型的记忆而是让两者无缝协作。以 OpenClaw 为例其Dreaming 机制完整展示了这一闭环。日常交互短期记忆不断积累Light阶段排序并暂存近期短期材料REM阶段从轨迹中提取主题与反思信号Deep阶段加权评分筛选高价值记忆写入MEMORY.md成为长期记忆后续会话检索从长期记忆中召回相关片段这套系统用三个阶段完成记忆的“夜间整理”Light 阶段轻睡眠从短期召回状态和每日记忆中读取素材去重并暂存候选条目。不写入长期记忆。REM 阶段快速眼动从近期短期轨迹中构建主题和反思摘要产生强化信号。同样不写入长期记忆。Deep 阶段深度睡眠这才是真正“写入长期记忆”的环节。系统使用六个加权信号相关性 0.30、频率 0.24、查询多样性 0.15、近期性 0.15、巩固度 0.10、概念丰富度 0.06对候选条目打分只有通过阈值门槛的才被追加到MEMORY.md。6. 工程实践建议基于当前主流框架的实践以下建议值得直接带入项目存摘要而非全文用 LLM 将长对话提炼为结构化的摘要再存入长期记忆节省空间且提升检索质量。向量检索优先于关键词语义相似性搜索能找到表述完全不同但意思相近的历史记忆准确率远高于传统全文匹配。分层存储设计将记忆分为“当前会话短期记忆”、“近期摘要”、“长期向量库”三层按需逐级访问。定期清理与合并设置定时任务合并相似记忆或删除不再有用的旧记录避免向量库“越存越臃肿”。7. 结语短期记忆和长期记忆是 Agent 认知架构的两大支柱。短期记忆保证了 Agent 在当前任务中的流畅与专注长期记忆则赋予了它跨越时间的连续性与学习能力。理解它们的区别不是学术探讨而是工程落地的必修课。在此基础上OpenClaw 的 Dreaming 机制为我们展示了一个更前沿的方向——让 Agent 不只是“存储”和“检索”而是像人类一样在“睡眠”中主动对记忆进行巩固、提炼和升华最终实现从“记住”到“理解”的跨越。The End点点关注收藏不迷路⬆ ⬆ 顶部 ⬆ ⬆

相关新闻