OpenSkill框架：让自进化Agent摆脱监督信号，多基准测试成绩领先！-尧图网站设计

【导语目前自进化Agent在真实部署中因难以满足前提条件而无法持续迭代里海大学孙立超团队提出OpenSkill框架让Agent不依赖监督信号获取技能在多个基准测试中取得领先还可迁移技能但也存在不足。】OpenSkill突破自进化Agent学习瓶颈当前自进化Agent的持续学习大多依赖成功轨迹、现成skills或明确反馈然而在真实部署中这些前提难以同时满足导致Agent无法继续积累经验并迭代。孙立超团队提出的OpenSkill框架不同于依赖人工策划、LLM生成或监督信号的自进化方法能让Agent在不依赖目标任务监督信号的情况下获得可执行、可迁移的skills。OpenSkill设计流程三步实现技能进化OpenSkill以任务指令、执行环境、基础模型、工具访问权限和开放世界资源为输入整体流程包括开放世界知识获取、无泄漏skills进化和零样本目标评估三步。在开放世界知识获取阶段团队从开放世界检索任务知识和验证知识无泄漏skills进化阶段先生成候选skills再通过虚拟任务反复测试、筛选和改进零样本目标评估阶段将进化后的skills部署到目标Agent上用隐藏的真实测试集进行最终评估。实验结果多方面表现优异在benchmark评测中OpenSkill在三个benchmark、两个目标Agent上均取得最佳自动化表现。在SkillsBench上将Opus 4.6和GPT 5.2的总体通过率分别提升至43.6%和42.1%较最强基线高出8.9和8.8个百分点。在SocialMaze和ScienceWorld中也有出色表现。在skills迁移方面由Opus 4.6生成的skills直接迁移到四个更弱模型上无需额外适配且在四个目标模型上都带来明显增益较无skills基线提升5.5至14.8个百分点。消融实验显示OpenSkill在3轮迭代时达到最高82.7%继续增加迭代轮数效果反而下降。开放世界检索和虚拟验证器单独使用能提升表现结合使用效果最佳虚拟验证器与真实评测结果存在明显一致性能覆盖88.9%的真实测试意图。不足与未来方向待提升可信度与降低成本研究团队指出OpenSkill存在一些不足开放世界知识源可能存在噪声、过时或相互冲突的信息虚拟任务难以完全还原真实任务复杂度且该方法成本昂贵、耗时较长。未来需重点提升知识源的可信度增强虚拟任务对真实任务的覆盖能力并进一步降低整体成本与时延。编辑观点OpenSkill框架为自进化Agent的发展带来新突破实验表现优异但也存在明显短板。未来若能解决现存问题有望推动自进化Agent在更多领域的应用。

OpenSkill框架：让自进化Agent摆脱监督信号，多基准测试成绩领先！

相关新闻

2026江苏高职单招集训中期班评测深度解析

深入解析NXP Kinetis K61：Cortex-M4高性能嵌入式核心设计与实战

服务器上数据库的创建

嵌入式开发必读：芯片数据手册前言的法律声明与文档状态解析

i.MX 7ULP硬件设计实战：电源、时钟与电气特性深度解析

科研小白看过来：5分钟学会用Zotero在Word里插入和修改参考文献（以Chemosphere期刊为例）

浏览器自动化学习工具的技术实现与应用探索

XGATE软件库：嵌入式多核实时系统的驱动框架与工程实践

如何实现网盘高速下载：9大主流平台直链解析完全指南

洛雪音乐音源配置终极指南：打造专业级免费音乐库

SpringBoot+Vue游戏赛事平台源码+论文

小区物业智能卡管理的设计与实现毕设源码

从放大器选型反推：为什么你的无线模块用OQPSK而不用QPSK？一个硬件工程师的避坑指南

实战指南：基于快马平台生成可集成的流程图组件，告别单纯安装教程

Qwerty Learner：程序员如何在VSCode中边写代码边记单词的终极指南

Harness 中的响应合并：将多个片段组装为完整输出

Windows Cleaner终极教程：5分钟彻底解决C盘爆红问题，让系统重获新生！

别再只会用ifconfig了！在Ubuntu 22.04/20.04上，教你用ip命令并顺带配置好国内镜像源