【导语:目前自进化Agent持续学习受前提条件限制,难以积累经验并迭代。里海大学孙立超团队提出OpenSkill框架,让Agent不依赖目标任务监督信号获得可执行、可迁移的skills,在多个基准上取得SOTA自动化表现。】
当前,自进化Agent的持续学习大多依赖成功轨迹、现成skills或明确反馈,但在真实部署中,这些前提难以同时满足,导致Agent无法继续积累经验并迭代。孙立超团队提出的OpenSkill框架,不同于依赖人工策划、LLM生成或监督信号的自进化方法,让Agent在无监督信号情况下也能获得可执行、可迁移的skills。
OpenSkill以任务指令、执行环境、基础模型、工具访问权限和开放世界资源为输入,整体流程分三步。开放世界知识获取阶段,从开放世界检索任务知识和验证知识,分别用于形成skills规划和支撑虚拟测试。
无泄漏skills进化阶段,先生成候选skills,再通过自动构造的虚拟任务反复测试、筛选和改进,且不使用目标任务的标准答案,真实测试集不提前进入构建阶段。零样本目标评估阶段,将进化完成的skills以显式文件形式部署到目标Agent上,隐藏的真实测试集仅用于最终评估。
实验从benchmark表现、skills迁移和消融实验方面评估。在benchmark评测中,OpenSkill在三个benchmark、两个目标Agent上均取得最佳自动化表现。如在SkillsBench上,将Opus 4.6和GPT 5.2的总体通过率分别提升至43.6%和42.1%,较最强基线高出8.9和8.8个百分点。
Skills迁移方面,由Opus 4.6生成的skills直接迁移到四个更弱模型上,无需额外适配,带来明显增益,较无skills基线提升5.5至14.8个百分点。消融实验显示,OpenSkill在3轮迭代时达到最高82.7%,开放世界检索和虚拟验证器结合使用效果最好。
研究团队指出,OpenSkill存在不足,开放世界知识源可能有噪声、过时或冲突信息,虚拟任务难以完全还原真实任务复杂度,深层语义验证和反作弊元验证覆盖有限,且方法成本昂贵、耗时较长。未来需提升知识源可信度,增强虚拟任务覆盖能力,降低整体成本与时延。
编辑观点:OpenSkill框架为自进化Agent学习带来新突破,虽有不足,但其实验结果亮眼,未来若能解决现存问题,有望在相关领域广泛应用。