OpenSkill框架:让自进化Agent摆脱监督信号,多基准测试成绩领先!

发布时间:2026/6/9 14:26:49

OpenSkill框架:让自进化Agent摆脱监督信号,多基准测试成绩领先! 【导语目前自进化Agent在真实部署中因难以满足前提条件而无法持续迭代里海大学孙立超团队提出OpenSkill框架让Agent不依赖监督信号获取技能在多个基准测试中取得领先还可迁移技能但也存在不足。】OpenSkill突破自进化Agent学习瓶颈当前自进化Agent的持续学习大多依赖成功轨迹、现成skills或明确反馈然而在真实部署中这些前提难以同时满足导致Agent无法继续积累经验并迭代。孙立超团队提出的OpenSkill框架不同于依赖人工策划、LLM生成或监督信号的自进化方法能让Agent在不依赖目标任务监督信号的情况下获得可执行、可迁移的skills。OpenSkill设计流程三步实现技能进化OpenSkill以任务指令、执行环境、基础模型、工具访问权限和开放世界资源为输入整体流程包括开放世界知识获取、无泄漏skills进化和零样本目标评估三步。在开放世界知识获取阶段团队从开放世界检索任务知识和验证知识无泄漏skills进化阶段先生成候选skills再通过虚拟任务反复测试、筛选和改进零样本目标评估阶段将进化后的skills部署到目标Agent上用隐藏的真实测试集进行最终评估。实验结果多方面表现优异在benchmark评测中OpenSkill在三个benchmark、两个目标Agent上均取得最佳自动化表现。在SkillsBench上将Opus 4.6和GPT 5.2的总体通过率分别提升至43.6%和42.1%较最强基线高出8.9和8.8个百分点。在SocialMaze和ScienceWorld中也有出色表现。在skills迁移方面由Opus 4.6生成的skills直接迁移到四个更弱模型上无需额外适配且在四个目标模型上都带来明显增益较无skills基线提升5.5至14.8个百分点。消融实验显示OpenSkill在3轮迭代时达到最高82.7%继续增加迭代轮数效果反而下降。开放世界检索和虚拟验证器单独使用能提升表现结合使用效果最佳虚拟验证器与真实评测结果存在明显一致性能覆盖88.9%的真实测试意图。不足与未来方向待提升可信度与降低成本研究团队指出OpenSkill存在一些不足开放世界知识源可能存在噪声、过时或相互冲突的信息虚拟任务难以完全还原真实任务复杂度且该方法成本昂贵、耗时较长。未来需重点提升知识源的可信度增强虚拟任务对真实任务的覆盖能力并进一步降低整体成本与时延。编辑观点OpenSkill框架为自进化Agent的发展带来新突破实验表现优异但也存在明显短板。未来若能解决现存问题有望推动自进化Agent在更多领域的应用。

相关新闻