OpenSkill框架：让自进化Agent摆脱监督信号，多基准测试表现SOTA！-程序员充电站

【导语：目前自进化Agent持续学习受前提条件限制，难以积累经验并迭代。里海大学孙立超团队提出OpenSkill框架，让Agent不依赖目标任务监督信号获得可执行、可迁移的skills，在多个基准上取得SOTA自动化表现。】

OpenSkill：突破自进化Agent学习困境

当前，自进化Agent的持续学习大多依赖成功轨迹、现成skills或明确反馈，但在真实部署中，这些前提难以同时满足，导致Agent无法继续积累经验并迭代。孙立超团队提出的OpenSkill框架，不同于依赖人工策划、LLM生成或监督信号的自进化方法，让Agent在无监督信号情况下也能获得可执行、可迁移的skills。

OpenSkill设计流程：三步实现技能进化

OpenSkill以任务指令、执行环境、基础模型、工具访问权限和开放世界资源为输入，整体流程分三步。开放世界知识获取阶段，从开放世界检索任务知识和验证知识，分别用于形成skills规划和支撑虚拟测试。

无泄漏skills进化阶段，先生成候选skills，再通过自动构造的虚拟任务反复测试、筛选和改进，且不使用目标任务的标准答案，真实测试集不提前进入构建阶段。零样本目标评估阶段，将进化完成的skills以显式文件形式部署到目标Agent上，隐藏的真实测试集仅用于最终评估。

实验结果亮眼：多基准领先且技能可迁移

实验从benchmark表现、skills迁移和消融实验方面评估。在benchmark评测中，OpenSkill在三个benchmark、两个目标Agent上均取得最佳自动化表现。如在SkillsBench上，将Opus 4.6和GPT 5.2的总体通过率分别提升至43.6%和42.1%，较最强基线高出8.9和8.8个百分点。

Skills迁移方面，由Opus 4.6生成的skills直接迁移到四个更弱模型上，无需额外适配，带来明显增益，较无skills基线提升5.5至14.8个百分点。消融实验显示，OpenSkill在3轮迭代时达到最高82.7%，开放世界检索和虚拟验证器结合使用效果最好。

不足与未来方向：提升可信度与降低成本

研究团队指出，OpenSkill存在不足，开放世界知识源可能有噪声、过时或冲突信息，虚拟任务难以完全还原真实任务复杂度，深层语义验证和反作弊元验证覆盖有限，且方法成本昂贵、耗时较长。未来需提升知识源可信度，增强虚拟任务覆盖能力，降低整体成本与时延。

编辑观点：OpenSkill框架为自进化Agent学习带来新突破，虽有不足，但其实验结果亮眼，未来若能解决现存问题，有望在相关领域广泛应用。

2026年油管工厂推荐榜单：选对高质供应商的3个关键

在工程机械、工业设备及新能源领域，油管作为流体输送与系统连接的核心部件，其品质直接决定设备的运行效率与使用寿命。进入2026年，随着工业自对化与耐候性需求的持续升级，如何从众多供应商中筛选出高质可靠的油管工厂，…

李华

STM32实现的FX2N指令兼容PLC固件，带Modbus与RS232触摸屏通信支持及多版硬件图

本文还有配套的精品资源，点击获取简介：这个资源包提供一套已在真实硬件上验证的STM32 PLC固件源码，完全兼容三菱FX2N指令集（V3.8），可直接用GX Works软件编程、编译和下载。运行时环境包含基本逻辑运算、…

李华

Agent Skill 开发实战：跟着口播剪辑学习 AI 工具开发

Agent Skill 开发实战：跟着口播剪辑学习 AI 工具开发开源地址 ：https://github.com/threelab/claude-mate-skills 先聊聊：这个课程能帮你做什么？ 想象一下：你是一个口播博主，录完视频发现里面有好多&quo…

李华

别输在“手慢”上：知识竞赛抢答器的科学使用法则

在很多知识竞赛中，胜负的分水岭往往不是谁记得多，而是谁按得快。那一声清脆的“叮”声，既是机会的号角，也是神经反应的试金石。然而，很多选手在台上拼尽全力，却因为不懂抢答器的“脾气”，要么因…

李华

为什么“等离子牙齿美白”正在成为行业趋势？

在当下“颜值经济”与“自我关怀”并行的消费时代，牙齿美白早已不再是少数人的奢侈追求，而逐渐演变为一种日常的口腔美学生活方式。然而，在牙齿美白市场热度攀升的同时，消费者的诉求正在发生微妙而深刻的变化。过去，人…

李华

杨逢昌：为什么要开这个6S实战专栏？——发刊词

「6S管理实战专栏」第1篇你好，我是杨逢昌。专注6S管理实战，助你打造高效工厂。很多厂长问我：“杨老师，我们也搞6S，为什么总是搞不好？要么搞成形式主义，要么搞完三个月又乱回去？”这些…

李华