,从原理到实战,收藏这一篇就够了!)
当我们还在手工调 prompt、搭 Agent 工作流的时候一群研究者已经在思考一个更大的问题能不能让 Agent 自己设计 Agent这不是科幻设定。3 月 19 日一篇名为Memento-Skills: Let Agents Design Agents的论文在 arXiv 上发布提出了一个能自我进化的 Agent 系统——它从最基础的 Web 搜索和终端操作开始通过不断试错和反思自动生成、优化和复用「技能」最终在两个顶级 Benchmark 上取得了惊人的提升● GAIA通用 AI 助手基准整体提升 26.2%● Humanity’s Last Exam人类最后考试整体提升 116.2%更关键的是整个过程不需要重新训练大模型。▲ HLE 各学科经过 4 轮学习后的准确率提升R0→R3▲ GAIA 各难度级别经过 4 轮学习后的准确率提升为什么这很重要目前主流的 AI Agent 框架——无论是 LangChain、AutoGen 还是 CrewAI——都有一个共同的痛点Agent 的能力边界是人类预先设计的。你需要手动定义工具、编写 prompt、设计工作流。Agent 越强大背后的人工设计就越复杂。Memento-Skills 提出了一种根本不同的思路让 Agent 自己去发现需要什么技能自己去创建这些技能然后自己去优化它们。论文将 LLM 的能力提升分为三种范式❶预训练/微调——修改模型权重成本高需要大量数据和算力❷上下文学习ICL——通过 prompt 注入知识受限于上下文窗口❸技能即记忆Skill-as-Memory——将学到的能力外化为可执行的 skill 文件不改模型参数理论上可无限扩展▲ LLM 能力提升的三种范式预训练/微调、上下文学习、技能即记忆Memento-Skills 走的就是第三条路。. . . . .核心机制Read-Write 反思学习循环系统的核心是一个Read-Write Reflective Learning闭环Read 阶段面对新任务技能路由器从技能库中检索最相关的 skill。这里用的不是简单的语义匹配而是基于离线强化学习训练的行为相似性路由——它关注的是「执行这个 skill 能不能产生期望的结果」而不仅仅是「这个 skill 的描述和任务看起来像不像」。⚡Execute 阶段Agent 使用检索到的 skill 执行任务。Reflect 阶段如果任务失败系统会审计执行日志分析失败原因。✏️Write 阶段基于反思结果Agent 自动更新现有 skill 或创建全新的 skill写回技能库。▲ Read-Write 反思学习循环Read → Execute → Reflect → Write 闭环▲ Read-Write 学习循环信息图这个循环有一个精妙之处所有的「学习」都发生在模型之外。LLM 的参数从头到尾不变变化的只是外部的技能库。这意味着● 不需要 GPU 集群来微调● 不会出现灾难性遗忘● 可以随时回滚到之前的状态● 不同任务学到的技能可以交叉复用. . . . .自我进化引擎把失败变成成长当任务执行失败时Self-Evolution Engine 启动❶审计——Orchestrator 审查执行日志定位失败原因❷生成——自动生成新的候选 skill 来解决问题❸验证——在沙盒中测试新 skill 是否有效❹优化——如果测试通过但效果不够好进一步优化❺持久化——将验证通过的 skill 写入全局技能目录▲ 自我进化引擎流程任务输入 → 执行 → 判断 → 失败反馈 → 技能进化 → 重试 → 保存结果这就像一个程序员遇到 bug 后的反应分析问题 → 写个工具函数 → 测试 → 优化 → 加到自己的工具库里。只不过 Memento-Skills 把这个过程完全自动化了。. . . . .技能路由不只是语义匹配传统的检索方法BM25、向量相似度对技能选择来说是不够的。论文举了一个例子搜索「分析这张图片中的化学结构」时语义路由可能返回「图片分析 skill」但实际上更合适的是「化学结构解析 skill」。Memento-Skills 的解决方案是用单步离线强化学习训练路由器●构建技能数据库爬取约 8000 个 skill●合成训练数据用 LLM 生成查询-skill 配对包括正样本和难负样本●对比学习用 InfoNCE 损失训练让路由器学会按「行为相似性」而非「语义相似性」来检索. . . . .基准测试数据说话论文在两个极具挑战性的 Benchmark 上验证了系统效果GAIAGeneral AI Assistants这是评估通用 AI 助手在真实世界多步推理任务上的表现。Memento-Skills 经过 4 轮学习后●Level 1简单任务58.6% → 96.6%38.0%●Level 2中等任务74.4% → 93.0%18.6%●Level 3困难任务45.5% → 72.7%27.2%▲ GAIA 训练集各难度级别 4 轮学习准确率变化▲ GAIA 测试集Memento-S 对比 Read-Write 基线整体提升 26.2%Humanity’s Last ExamHLE这是跨学科的专家级推理测试。各学科提升幅度● 生物学30.3% → 60.7%30.4%● 人文学科36.9% → 66.7%29.8%● 计算机科学19.8% → 46.5%26.7%● 物理学21.1% → 47.4%26.3%● 化学38.8% → 62.4%23.6%● 数学30.0% → 51.2%21.2%测试集上整体准确率达到 38.7%是 Read-Write 基线17.9%的两倍多。▲ HLE 基准测试各学科训练集准确率左与测试集对比 Read-Write 基线右▲ 基准测试结果信息图. . . . .技能库的成长轨迹一个有趣的发现是系统学到的技能会自动形成语义聚类。在 GAIA 上学习后技能库扩展到41 个技能形成了较为紧凑的分布。而在 HLE 上由于涉及 8 个学科领域技能库扩展到了235 个技能在嵌入空间中呈现出更广泛的分布形成了搜索/Web、量子/物理、数学/化学、代码/文本等清晰的语义聚类。▲ 技能嵌入 t-SNE 可视化GAIA 学习后 41 个技能左HLE 学习后 235 个技能右这说明系统不是在盲目积累技能而是在有结构地构建知识体系。. . . . .系统架构已经可以用了Memento-Skills 不只是一篇论文它已经是一个可部署的系统●CLI 模式交互式和单条消息模式●桌面 GUI基于 Flet 构建支持会话管理●飞书集成基于 WebSocket 的 IM 桥接●本地沙盒执行用 uv 隔离 Python 技能执行内置 9 个基础技能文件系统、Web 搜索、图片分析、PDF 处理、Office 文档处理、技能创建器和依赖安装。LLM 接入层用的是 litellm支持 OpenAI、Anthropic、Ollama 以及国内的 Kimi、MiniMax、GLM 等。▲ Memento-Skills 组件架构入口层、Agent 编排层、工具调度层、基础设施层和技能系统代码已在 GitHub 开源github.com/Memento-Teams/Memento-Skills学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】