news 2026/6/10 3:00:47

OpenSkill框架:让自进化Agent摆脱监督信号,多基准测试表现SOTA!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
OpenSkill框架:让自进化Agent摆脱监督信号,多基准测试表现SOTA!

【导语:目前自进化Agent持续学习受前提条件限制,难以积累经验并迭代。里海大学孙立超团队提出OpenSkill框架,让Agent不依赖目标任务监督信号获得可执行、可迁移的skills,在多个基准上取得SOTA自动化表现。】


OpenSkill:突破自进化Agent学习困境

当前,自进化Agent的持续学习大多依赖成功轨迹、现成skills或明确反馈,但在真实部署中,这些前提难以同时满足,导致Agent无法继续积累经验并迭代。孙立超团队提出的OpenSkill框架,不同于依赖人工策划、LLM生成或监督信号的自进化方法,让Agent在无监督信号情况下也能获得可执行、可迁移的skills。

OpenSkill设计流程:三步实现技能进化

OpenSkill以任务指令、执行环境、基础模型、工具访问权限和开放世界资源为输入,整体流程分三步。开放世界知识获取阶段,从开放世界检索任务知识和验证知识,分别用于形成skills规划和支撑虚拟测试。

无泄漏skills进化阶段,先生成候选skills,再通过自动构造的虚拟任务反复测试、筛选和改进,且不使用目标任务的标准答案,真实测试集不提前进入构建阶段。零样本目标评估阶段,将进化完成的skills以显式文件形式部署到目标Agent上,隐藏的真实测试集仅用于最终评估。

实验结果亮眼:多基准领先且技能可迁移

实验从benchmark表现、skills迁移和消融实验方面评估。在benchmark评测中,OpenSkill在三个benchmark、两个目标Agent上均取得最佳自动化表现。如在SkillsBench上,将Opus 4.6和GPT 5.2的总体通过率分别提升至43.6%42.1%,较最强基线高出8.9和8.8个百分点。

Skills迁移方面,由Opus 4.6生成的skills直接迁移到四个更弱模型上,无需额外适配,带来明显增益,较无skills基线提升5.5至14.8个百分点。消融实验显示,OpenSkill在3轮迭代时达到最高82.7%,开放世界检索和虚拟验证器结合使用效果最好。

不足与未来方向:提升可信度与降低成本

研究团队指出,OpenSkill存在不足,开放世界知识源可能有噪声、过时或冲突信息,虚拟任务难以完全还原真实任务复杂度,深层语义验证和反作弊元验证覆盖有限,且方法成本昂贵、耗时较长。未来需提升知识源可信度,增强虚拟任务覆盖能力,降低整体成本与时延。

编辑观点:OpenSkill框架为自进化Agent学习带来新突破,虽有不足,但其实验结果亮眼,未来若能解决现存问题,有望在相关领域广泛应用。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 2:59:48

2026年油管工厂推荐榜单:选对高质供应商的3个关键

在工程机械、工业设备及新能源领域,油管作为流体输送与系统连接的核心部件,其品质直接决定设备的运行效率与使用寿命。进入2026年,随着工业自对化与耐候性需求的持续升级,如何从众多供应商中筛选出高质可靠的油管工厂,…

作者头像 李华
网站建设 2026/6/10 2:55:00

Agent Skill 开发实战:跟着口播剪辑学习 AI 工具开发

Agent Skill 开发实战:跟着口播剪辑学习 AI 工具开发 开源地址 :https://github.com/threelab/claude-mate-skills 先聊聊:这个课程能帮你做什么? 想象一下:你是一个口播博主,录完视频发现里面有好多&quo…

作者头像 李华
网站建设 2026/6/10 2:53:00

别输在“手慢”上:知识竞赛抢答器的科学使用法则

在很多知识竞赛中,胜负的分水岭往往不是谁记得多,而是谁按得快。 那一声清脆的“叮”声,既是机会的号角,也是神经反应的试金石。然而,很多选手在台上拼尽全力,却因为不懂抢答器的“脾气”,要么因…

作者头像 李华
网站建设 2026/6/10 2:46:34

为什么“等离子牙齿美白”正在成为行业趋势?

在当下“颜值经济”与“自我关怀”并行的消费时代,牙齿美白早已不再是少数人的奢侈追求,而逐渐演变为一种日常的口腔美学生活方式。然而,在牙齿美白市场热度攀升的同时,消费者的诉求正在发生微妙而深刻的变化。过去,人…

作者头像 李华
网站建设 2026/6/10 2:45:39

杨逢昌:为什么要开这个6S实战专栏?——发刊词

「6S管理实战专栏」第1篇你好,我是杨逢昌。专注6S管理实战,助你打造高效工厂。很多厂长问我:“杨老师,我们也搞6S,为什么总是搞不好?要么搞成形式主义,要么搞完三个月又乱回去?”这些…

作者头像 李华