“Memory in the Age of AI Agents: A Survey“ 论文笔记-尧图网站设计

涌现进一步模糊了概念的清晰度因此这篇综述直指当前领域的核心痛点我们迫切需要一套能够统一定义、厘清边界、并指引未来方向的系统性框架。论文旨在回答几个根本性问题智能体记忆究竟是什么智能体记忆有哪些不同的实现形态智能体记忆被设计来达成何种目的智能体记忆是如何随着时间动态发展、演化和使用的针对这些问题论文界定了智能体记忆和几个易混淆概念的边界与练习并在形式、功能、动态三个维度上提出了统一的分类体系这项研究系统性的梳理了已有的智能体工作和评测基准为后续研究提供了扎实的理论基础什么是智能体记忆智能体被形式化地定义为一个在特定环境中感知、决策并行动的系统。这个环境可以是一个网站浏览器、一个代码仓库甚至是一个多人在线的虚拟世界。智能体通过传感器通常是 LLM 对文本或图像的理解能力获取观察然后基于这些观察和自己的记忆来选择一个动作智能体记忆和 LLM 记忆的关系智能体记忆在概念让包含了早期的 LLM 记忆如何在多轮互动中维持状态与身份智能体记忆与 RAG 的关系智能体 RAG 通常操作的是一个为特定任务准备的外部数据库而智能体记忆维护的是一个属于智能体自身、持续累积、跨越任务的内部记忆基底随着环境交互而动态增长、演化的智能体记忆与上下文工程的关系二者的重合程度较高上下文工程关注的是如何把信息喂给大模型而智能体记忆更关注智能体应该知道什么、如何成长。一个是接口一个是内在智能体记忆不是管理在推理时向模型呈现信息的方式而是控制智能体知道什么、经历过什么以及这些元素如何随着时间的推移而演变。这包括将重复的交互整合为知识从过去的成功和失败中抽象出程序性知识以及在任务和场景之间保持一致的身份智能体记忆的实现形态(1) Token-level Memory这是最直观常见的记忆形式最大的优点是透明、可解释、易编辑。我们可以随时查看智能体记住了什么修改错误的信息或者删除过时的内容。例如早期著名的 MemGPT 框架就模仿计算机操作系统的内存管理将对话历史和外部的文档知识作为虚拟内存进行分页管理实现了超越模型原生上下文长度的记忆能力根据组织这些 token 的结构复杂度token-level memory 又可以分为三类扁平记忆1D像日记本一样按时间顺序或简单堆叠记录易于增删但查找和关联信息效率较低平面记忆2D引入了结构如用树来组织对话的层次或用图来连接不同的知识点如 A-MEM 系统将记忆组织成互相关联的卡片网络。这提升了信息的组织性和关联推理能力分层记忆3D在平面结构上叠加了抽象的层级形成多层级结构。例如 GraphRAG 通过社区检测构建多层索引或 G-Memory 为多智能体系统设计的三层图交互、查询、洞察层。这种结构能同时管理细节与大局支持从宏观战略到微观执行的垂直信息检索(2) Parametric Memory将记忆直接写入模型的权重参数之中它不像外部笔记那样可以被随时翻阅而是像人通过反复练习学会骑自行车一样将技能或知识转化为一种内隐的、本能式的反应模式这种记忆又分为两种路径一种是直接调整大模型本身的参数内部参数记忆例如通过微调让模型记住某个用户的特定偏好另一种是在模型之外附加轻量级的适配器模块如 LoRA让新记忆存放在这些额外参数中而不改动原始模型实现模块化的记忆更新外部参数记忆。参数记忆的优势在于推理速度快、无需外部检索知识被直接激活。但其缺点也很明显更新成本高需要训练且容易导致灾难性遗忘(3) Latent Memory将记忆存储在模型推理过程中的中间状态里例如 Transformer 模型中的 KV Cache 的形式论文将此种方法分为三类生成式让模型动态生成一些特殊的记忆令牌或压缩向量来代表当前重要的信息供后续步骤使用重用式直接保存和复用之前计算产生的中间状态避免重复计算是实现高效长上下文处理的关键技术之一转换式对已有的中间状态进行压缩、剪枝或聚合在保留核心信息的同时减少存储开销(4) 总结这三种形态的记忆并非彼此排斥而是构成了一个连续的谱系。令牌级记忆提供了可审计、可扩展的外脑参数记忆追求极致的性能与响应速度塑造智能体的内在本性而潜在记忆则是保障实时交互流畅度的高速缓存为什么需要智能体记忆在最高层次上智能体记忆主要分为长期记忆和短期记忆这种高级时间分割进一步分解成是三个主要功能(1) 事实记忆事实记忆是指代理存储和检索有关过去事件、用户特定信息和外部环境状态的明确的声明性事实的能力通常根据两个主要组成部分进行分析情景记忆和语义记忆。情景记忆存储与特定时间和空间背景相关的个人经历的事件语义记忆保留一般的事实知识、概念和词义(2) 经验记忆经验记忆负责将智能体在一次次任务执行中获得的 “亲身体验转化为可复用、可推广的策略与技能。通过维护结构化经验存储库智能体实现了非参数适应路径并避免了频繁参数更新的高昂成本。论文按照抽象程度将经验记忆归纳为四个层次案例记忆最原始的形式直接存储过去任务执行的完整轨迹录像包括操作、观察和结果。当遇到相似任务时直接进行类比和复用策略记忆不满足于具体案例而是从中提炼出通用的方法论。例如Buffer of Thoughts 维护一个思维模板库遇到新问题时检索并实例化合适的推理框架AWM 则从成功的网页操作轨迹中抽象出可复用的工作流这相当于为智能体装备了一个不断丰富的“策略工具箱”。技能记忆将经验进一步固化为可即插即用的可执行能力。最典型的形式是工具使用技能如将调用某个 API 的成功方式封装成一个函数从知道怎么做进化成直接做混合记忆先进的智能体架构越来越多的采用混合设计集成多种形式的经验记忆。这些系统动态地选择最合适的记忆格式确保检索精度和跨上下文的广泛概括(3) 工作记忆这是最贴近我们当下思考过程的记忆功能充当智能体在执行单个复杂任务时的思维便签或内存工作区。它的核心挑战在于如何在有限的信息处理容量即模型上下文窗口内动态地管理、筛选和压缩海量的中间信息以维持专注、高效的推理链条。工作记忆机制主要分为两种类型单轮工作记忆侧重于输入压缩和抽象。在这种情况下系统必须在一次前向传递中处理大量即时输入例如长文档或高维多模式流。目标是动态过滤和重写证据以构造有界计算暂存器从而最大化每个令牌的有效信息负载多轮工作记忆解决临时状态维护问题。在顺序交互中面临的挑战是防止历史积累压倒注意力机制从而在长程任务中始终保持思维画板的清晰与高效(4) 总结这三种功能构成了记忆系统的完整闭环一个强大的智能体其记忆系统必然是这三种功能有机结合的混合体。例如它在与用户对话依赖事实记忆时可能需要规划一个复杂操作调用工作记忆而其规划能力本身又得益于以往解决类似问题所积累的策略记忆智能体记忆的生命周期与模型参数或固定数据库中静态编码的知识不同代理内存系统可以动态构建和更新其内存存储并根据不同的查询执行定制的检索这种适应能力对于使智能体能够自我进化和终身学习至关重要。论文通过将其分解为三个基本过程来检查完整的记忆生命周期(1) 记忆形成作者将记忆形成定义为将原始上下文例如对话或图像编码为紧凑知识的过程记忆形成的必要性源于处理冗长、嘈杂和高度冗余的原始上下文所固有的缩放限制基于信息压缩的粒度和编码的逻辑我们将记忆形成过程分为五种不同的类型语义摘要将长篇对话或文档浓缩为保持核心语义的简短摘要。例如 Mem0 框架会持续将对话历史合并为更紧凑的总结知识蒸馏更高级的提取专注于从交互轨迹中蒸馏出具体的知识。例如从成功解决数学题的过程中提炼出关键解题步骤经验或从对话中抽取出用户明确的偏好声明事实结构化构建构建机器更易理解和推理的结构化表示如知识图谱或树状索引。像 GraphRAG 这样的工作会从文档中自动提取实体和关系构建多层次的图结构极大提升了复杂关系查询的效率潜在表示完全机器友好的编码方式将信息转化为模型内部的连续向量或特殊的记忆令牌。这种方式虽然人类无法直接读懂但计算效率高易于与模型本身的推理过程深度融合参数内部化通过模型微调等技术将知识直接写入模型的权重参数中使之成为模型的“本能反应”。但这种方式成本高且不易修改(2) 记忆演化下一个重要步骤是将新提取的记忆与现有的记忆存储库集成从而实现记忆系统的动态演化。新形成的记忆并不会被简单地堆叠进仓库演化过程负责维护记忆库的质量、一致性与效率它包含了三个核心机制记忆巩固将相关的新旧记忆进行融合与抽象形成更高层次的 insight 或者 mode。例如将多次成功的登录网站-搜索商品-加入购物车具体案例归纳为一条通用的在线购物工作流记忆更新当新获取的事实与旧记忆冲突时比如用户更改了地址系统需要安全地修正知识库。先进的方法如 Zep采用软删除标记过时而非物理删除来保持历史完整性而 Mem-α 则尝试用强化学习让智能体自己学会何时、如何更新记忆记忆遗忘主动忘记过时、冗余或低价值的信息以释放认知负载和存储空间。遗忘策略可以是基于时间淘汰最旧的、基于频率淘汰最少使用的或基于重要性由模型评估价值后淘汰(3) 记忆检索当智能体面对一个新情境需要决策时检索过程便被触发。其目标是从庞大的记忆库中精准、高效地召回最相关的记忆片段来辅助推理。这个过程主要分为四个步骤时机与意图判断智能体首先需要自主判断现在是否需要查询记忆以及该查哪个记忆库这已从早期的固定查询发展到由模型自主决策。例如 MemGen 框架引入了记忆触发器能从模型的潜在状态中学习何时该发起检索查询构造用户的原始问题可能不适合直接搜索系统会对查询进行改写或分解例如将复杂问题拆成子问题或生成一个假设性文档来更好地匹配记忆库中的语义执行检索技术手段多样包括传统的关键词匹配BM25、主流的语义向量相似度搜索以及针对图结构的图谱遍历检索。像 HippoRAG 这样的系统利用知识图谱上的随机游走算法能实现深度的多跳关系推理后处理检索出的结果可能太多、太杂或相互矛盾。因此需要重排序、过滤和聚合确保最终注入模型上下文的记忆是精炼、相干且最有价值的(4) 总结正是这个持续运转的、自指的生命周期使得智能体的记忆系统能够不断学习、适应和成长从静态的数据存储进化为一个真正具有认知演化能力的核心组件未来方向论文指出当前的研究只是打开了记忆领域的大门未来的探索仍然充满机遇与挑战自动化记忆设计目前记忆系统的架构如用什么形态、如何组织仍高度依赖人类专家的精心设计。未来我们能否让智能体自主地发现并优化其自身的记忆结构就像大脑在发育和学习中不断重塑神经连接一样让智能体根据任务需求自动配置最有效的记忆硬件与管理策略记忆与强化学习的深度融合强化学习是智能体通过试错与环境互动学习最优策略的范本。将其与记忆系统深度结合意味着智能体不仅能从当前的成功或失败中学习奖励信号还能从庞大的记忆库中高效地提取历史经验、进行

“Memory in the Age of AI Agents: A Survey“ 论文笔记

相关新闻

面向对象设计思想

ROS2实战：机器人匀速直线行走Action通信

C++ 高性能模糊字符串匹配库 rapidfuzz-cpp 完整实战指南

医院信创云PACS架构实践：从异构纳管到数据迁移的完整指南

从AI黑客松到工程实践：拆解复杂业务场景的AI系统设计思维

NBA选秀预测AI实战：从数据爬取到模型部署全流程解析

Agentic AI实战：基于LangChain构建具备ReAct推理能力的智能体

SQL性能突变排查：从CPU飙高到执行计划分析全流程

SQL性能突降与CPU飙升：系统性排查六步法实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

国产DSP FT-M6678 DDR3配置避坑指南：从PLL时钟到PHY寄存器，手把手调通你的第一块板

Coze与Dify对比指南：低代码AI应用开发从入门到实战

终端里的 AI 驾驶舱：Claude Code 斜杠命令深度解析

华为OD机试2025C卷-字符串变换最小次数[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

华为OD机试2025C卷-内存资源分配[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

国产DSP FT-M6678 DDR3配置避坑指南：从PLL时钟到PHY寄存器，手把手调通你的第一块板

Coze与Dify对比指南：低代码AI应用开发从入门到实战