微软开源 SkillOpt:让智能体技能文档自我进化,52 项评测全面领先!

发布时间:2026/6/1 11:40:19

微软开源 SkillOpt:让智能体技能文档自我进化,52 项评测全面领先! 【智能体技能文档编写现状】从大模型的提示词到智能体的 Skills看似进化实则未完全进化。在智能体应用中程序员花大量时间手写 CLAUDE.md、Codex 的 skill 文件、各种 Agent 的 system prompt。手写技能文档本质是试错的手工活和之前手调 prompt 无本质区别只是对象从一句话变成一整份文档。这很荒诞本想让 AI 帮忙干活结果却花精力教 AI 干活。【SkillOpt 登场】这个问题似乎迎来终点微软本周开源了 SkillOpt一个把 Agent 技能文档当作「可训练参数」的文本空间优化框架让技能文档自我进化。【核心思路与评测结果】核心思路简单不训练模型权重只训练指导 Agent 行为的自然语言文档。在 7 个目标模型、6 个基准测试、3 种执行环境的全部 52 个评测组合中SkillOpt 训练出的技能文档全部达到最优或并列最优。【Skills 优化训练】SkillOpt 的核心洞察是Agent 的技能文档就是它的「外部权重」内部权重可用梯度下降优化外部权重也应有系统化训练方法。【SkillOpt 流程与训练循环】SkillOpt 流程包括冻结的目标模型使用当前技能执行优化器模型提出有界的修改保留的验证决定候选是否成为新的当前技能。训练循环和传统深度学习类似Rollout前向传播冻结的目标模型拿当前版本技能文档执行任务记录轨迹产出「证据」Reflect反向传播优化器模型分析轨迹失败和成功案例分开反思计算「文本空间的梯度」Edit参数更新优化器模型基于反思结果对技能文档进行结构化编辑Gate验证门控候选新技能文档在验证集上跑性能提升才接受防止过拟合。整个循环跑多个 epoch每个 epoch 内跑多个 step。【文本学习率】训练神经网络时学习率太大会导致灾难性遗忘SkillOpt 在文本空间也有同样问题。解决方案是引入「文本学习率」每步允许的编辑操作数量有上限论文默认设置为 lr 4。消融实验验证了其必要性去掉学习率约束后多个基准测试性能下降。【被拒绝编辑的缓冲区】另一个精巧设计是 rejected - edit buffer。编辑提案被验证门控拒绝后进入缓冲区优化器后续反思可看到「失败的尝试」避免重复无效编辑。消融实验证实了其价值去掉 rejected buffer 后SpreadsheetBench 性能骤降。【慢更新与元技能】SkillOpt 引入两个跨 epoch 的记忆机制Slow Update每个 epoch 结束时对被接受的编辑做纵向对比分析产出更大范围更新Meta Skill优化器自身有「元技能」文档记录优化经验并在 epoch 间更新。这两个机制只在训练时存在部署时目标模型只需最终的 best_skill.md推理开销为零。【52 项评测全面领先】SkillOpt 的评测覆盖面全面目标模型涵盖多种类型基准测试覆盖 6 个不同任务执行环境包括三种主流 Agent 执行框架。在全部 52 个评测组合中达到最优或并列最优。亮点数据显示小模型提升幅度更大说明技能文档对能力较弱模型帮助更显著。【对比实验】SkillOpt 对比 6 种基线方法在每个 benchmark 上都超过最强基线方法。这表明系统化的训练循环设计比松散的自我修正更有效。【迁移实验】SkillOpt 训练出的技能文档有很强迁移能力包括跨模型迁移和跨环境迁移。自优化时即使优化器不比目标模型强也能发现有效改进方向。最终部署只需一个 best_skill.md 文件无额外推理开销。【技能进化的可视化】论文展示了 ALFWorld 任务的完整训练过程目标模型是 GPT - 5.4 - mini优化器是 GPT - 5.5。初始技能文档经训练后新增规则这些规则从失败轨迹中自动提炼。最终 ALFWorld 测试集 hard 难度提升训练过程中「提出假设、验证、接受或拒绝」的循环和人类科研方法论相似。SkillOpt 表明智能体一切可自我学习人类在 AI 工作流中的角色往后退未来会把更多认知负担转移给机器。

相关新闻