news 2026/5/8 17:23:23

AI Agent下半场:模型能力过剩,Skill生态成为新壁垒

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI Agent下半场:模型能力过剩,Skill生态成为新壁垒

目录

一、GPT-5.4和Claude 4.5谁更强?这个问题已经没意义了

二、从拼模型到拼Skill,本质是工程化分水岭

三、Skill到底是什么:一个可复用的认知-执行闭环

四、OpenClaw、Cursor、Claude Code的Skill路线对比

五、工程落地:Skill不是脚本,是对业务的重新建模

六、你的Agent系统有没有“可生长的能力层”

如果你最近还在纠结“GPT-5.4比Claude 4.5强多少”,大概率没在一线做Agent落地。

2026年5月,这个问题的答案已经不重要了。

头部模型的差距在快速收窄。MMLU、HumanEval这些基准上,前五名的分差不到两个点。你在生产环境换一个模型,用户完全感知不到。

但另一件事正在变得要命:同样用Claude 4.5,有人搭出来的Agent能自动处理工单、修Bug、跑完整条CI流水线;有人只跑了一个“帮我写段代码”的聊天窗口。

差距在哪?

不是模型能力。是Skill生态

这个判断不是我说的。看看Anthropic最近的招聘方向,超过一半的岗位在招“Agent Tooling Engineer”。OpenAI的GPT Store早就改名成了“Actions + Skills”。Cursor把Skill定义成最高层级的付费功能。

很多人已经开始感觉到:模型调用太简单了,难的是一整套可复用的、带上下文的、能自动纠错的执行单元。这个东西,就是Skill。

今天我从业内工程视角拆一次:Skill到底是什么,它为什么成为新的壁垒,以及你该怎么规划自己的Skill策略。

一、GPT-5.4和Claude 4.5谁更强?这个问题已经没意义了

三月份,我参加了一场闭门的技术讨论。台上两拨人分别展示用自家模型做的UI自动化测试Demo。

一方展示:模型看截图,分析哪里可能有问题,输出一段建议。

另一方展示:模型看截图,识别到登录按钮偏右5像素,直接调用Playwright修正定位策略,然后重新截图验证,整个过程不需要人盯着。

同样的模型系列,效果天差地别。

为什么?

前一个团队把模型当成“高级API”,问一句答一句。后一个团队在模型外面包了一层Skill——这个Skill知道什么时候截图、什么时候调用视觉比对、什么时候执行重试、什么时候把结果写回Jira。

核心不在模型参数,在Skill的设计。

这在行业里已经不是个案了。Cursor去年底的爆火,本质不是它的模型多强(底层也是Claude和GPT),而是它的Skill做得足够深——能够理解当前光标位置、能解析整个项目上下文、能规划多步文件操作。

再看OpenClaw,那个让LLM控制电脑浏览器的开源项目。它的成功不是因为用了某个独家模型,而是把“鼠标移动”“点击”“滚动”“截图分析”这几件事串成一个可组合的Skill库。用户只需要告诉它“帮我订下周飞北京的机票”,Skill自动分解成十几个原子操作。

模型的通用能力已经不再是护城河。谁能在模型之上构建更厚、更稳、更适配业务的Skill层,谁才有真正的议价权。

本质是:模型能力正在变成像电力一样的基础设施。你不能说“我们家用的电更纯”来竞争,你要比的是“谁用这些电设计出了更好的电器”。

二、从拼模型到拼Skill,本质是工程化分水岭

为什么Skill突然变得这么重要?

三个原因,一个比一个靠近工程本质。

第一,模型的能力增长进入了平台期。2024年到2025年,每三个月模型能力就有质的飞跃。但从2025年下半年开始,边际收益明显递减。GPT-5.4比GPT-5.3强,但强得有限。你再怎么调prompt,也不可能让模型凭空多出“执行shell命令”或“访问内部数据库”的能力。这些能力必须通过工具、通过Skill来补。

第二,业务场景是长尾的。没有一个通用模型能覆盖你公司内部那套老旧系统的操作逻辑。模型可以看懂ERP系统的截图,但它不知道你们公司的“订单审批”按钮藏在第三级菜单下的那个蓝色图标。你需要Skill去教它:这个场景下,先调哪个接口,遇到什么错误回退到哪个操作。

第三,也是最关键的——成本结构在变。模型调用一次的成本在快速下降,但错误处理、上下文拼接、重试逻辑的成本却在上升。如果你每个Agent任务都要从头写一遍“截图-分析-执行-重试”的流程,人力和心智成本会让你放弃99%的场景。Skill把这些固化下来,一次编写,到处复用。

工程师视角看:Skill就是一个封装了“感知-决策-执行-反馈”闭环的可复用单元。

这个闭环一旦封好,上层Agent只需要声明“我要用哪些Skill”,不再关心内部细节。

行业内已经在用Skill区分Agent的质量等级:

  • 等级1:没有Skill,每次都裸调模型,prompt长到爆,结果不稳定。

  • 等级2:有几个原子Skill(如“截图对比”“执行SQL”),但彼此孤立,组合需要人工编排。

  • 等级3:有一套可组合的Skill生态,Skill之间可以相互调用,能处理长链路任务。

目前大部分商业化Agent在等级2到等级3之间。Cursor、Devin、OpenClaw都在等级3。这也是为什么它们看起来比普通聊天式AI“聪明”——不是模型聪明,是Skill层替模型挡掉了大量低层次决策。

三、Skill到底是什么:一个可复用的认知-执行闭环

不要被“Skill”这个名字迷惑。它不是脚本,也不是插件。

脚本是一段线性指令:“打开浏览器,输入网址,点击登录”。执行完就完了,没有反馈,没有自适应。

插件是一个功能扩展:“我能帮你查天气”。被动等待调用。

Skill是带上下文的、能主动规划的、可组合的最小执行单元

拆开看,一个标准的Skill包含四个部分:

  1. 触发条件:什么时候该调用这个Skill。可以是自然语言意图匹配,也可以是系统状态变化。

  2. 上下文声明:这个Skill需要哪些输入。比如“视觉定位Skill”需要一张截图和一个目标描述。

  3. 执行体:实际干活的代码或调用链。可以是本地命令、API请求、浏览器操作等。

  4. 反馈与修正逻辑:执行失败后怎么办。重试?降级?上报人类?

这四个部分一起,才构成一个Skill。

我拿一个真实的例子说明。

我们内部做了一个“UI视觉回归Skill”,代码不到80行。它的执行体很简单:调用Playwright截图,和基线做pixel diff,超过阈值就调GPT-4o做语义解释。

但真正让它成为Skill的,是另外两件事:

  • 触发条件:当CI流程中检测到UI组件变更时自动触发。不是等测试人员手动跑。

  • 反馈修正:如果第一次diff因为网络超时失败,自动重试两次。如果两次都失败,切换到本地缓存基线。如果语义解释返回空,降级到只输出pixel diff结果。

没有这些容错和自适应逻辑,它就只是一个脚本,不是Skill。

这也是为什么Skill生态难以复制——不是技术难,是需要在大量真实场景中踩坑、补逻辑、优化分支。你抄一个Skill的代码很容易,但抄不到它背后针对你业务的长尾适配。

另一个例子是Claude Code的“代码理解Skill”。它的触发条件是用户输入中包含“这个函数是做什么的”。它会自动做三件事:定位函数定义、读取相关调用链、生成自然语言解释。如果函数太长,它还会分段分析。这些分段逻辑是Skill内部写死的,模型不需要每次重新思考“我应该怎么处理长函数”。

Skill的本质,是把“模型需要反复思考的低层次问题”预置成确定性流程。模型只在关键决策点介入,其余全部走固定路径。这样既省钱,又稳定。

四、OpenClaw、Cursor、Claude Code的Skill路线对比

既然说到Skill,绕不开三个代表性产品。它们代表了三种不同的Skill设计哲学。

OpenClaw:原子Skill + 自由组合

OpenClaw把浏览器操作拆到最细:click、scroll、type、screenshot、wait。每个Skill只做一件事。然后让LLM决定组合顺序。

优点是灵活,任何网页操作都能组合出来。缺点是长链路任务容易失败,比如“先登录,再搜索,再点击第三个结果,再截图”——中间如果登录失败,LLM可能不知道回退。

Cursor:上下文感知的深度Skill

Cursor的Skill不对外暴露原子操作。它只暴露几个高级Skill:理解项目、重构、查找引用、生成测试。每个Skill内部封装了数十个原子操作。

优点是用户不用操心顺序,一个Skill搞定整个任务。缺点是Skill边界固定,想做自定义组合很难。

Claude Code:混合模式

Claude Code介于两者之间。它有一组基础Skill(读文件、写文件、执行命令),也支持用户自定义Skill(通过Skill配置文件)。而且Skill可以调用Skill,形成层级。

比如“修复Bug”这个Skill,内部会调用“定位错误”“分析调用链”“生成补丁”“运行测试”四个子Skill。任何一个子Skill失败,上层Skill可以决定重试或换策略。

从工程落地角度看,Claude Code的模式最接近生产环境需求。OpenClaw太底层,对LLM推理能力要求太高;Cursor太黑盒,出了问题不好调试。混合模式让你既能灵活扩展原子能力,又能用高层Skill封装复杂流程。

不管你选哪种,都绕不开一个事实:Skill的设计质量,直接决定了Agent的上限。

五、工程落地:Skill不是脚本,是对业务的重新建模

如果你在考虑把Skill引入团队,有几个坑需要提前知道。我用工程视角讲三个最关键的。

第一,Skill的粒度选择。太细了Agent决策负担重,太粗了复用性差。一个经验法则:如果一个Skill内部会调用同一个外部服务超过3次,或者会写超过50行代码,就该拆。如果一个Skill需要你在调用它之前做超过两个条件判断,就该合。

具体到视觉测试场景,我们把“截图比对”和“语义解释”拆成两个Skill。因为截图比对在大量场景中独立使用(比如验证某个元素是否出现),而语义解释只在diff超过阈值时才需要。如果合成一个,每次都要白花语义解释的费用。

第二,Skill的元数据管理。每个Skill必须有清晰的名称、描述、输入输出格式。这不是形式主义。LLM要通过这些元数据决定调用哪个Skill。描述写不清楚,模型就不调用或乱调用。

我们踩过一个坑:把一个“上报测试结果”的Skill描述写成了“保存数据”。结果模型在需要保存用户配置时也调用了它,把测试结果存到了配置表里。后来强制规定Skill描述必须包含“什么时候用”和“什么时候不用”。

第三,Skill版本与回滚。Skill和代码一样会迭代。新版本可能引入Bug。必须有机制让Agent可以锁定某个版本的Skill,或者在灰度阶段只给特定流量使用。

我们的做法是在Skill配置中加入version字段,Agent运行时根据场景选择版本。测试环境用latest,生产环境用固定版本。配合监控,如果新版本失败率上升,自动回滚到上一个稳定版本。

说这些是想表达一个观点:构建Skill生态不是一个技术问题,而是一个工程管理问题。你不需要攻克什么AI难题,你需要的是定义清楚接口、管理好版本、设计好 fallback。

六、你的Agent系统有没有“可生长的能力层”

Skill的下一个阶段是什么?

我认为是Skill的自动生成和进化。

现在Skill还靠人写。但已经有探索让模型自动生成Skill:你给它几个成功和失败的例子,它总结出共性的成功模式,固化成一个新的Skill。

这很像人类的学习方式:做一件事,复盘,提炼出经验,下次直接用。

如果这个方向走通,Skill就不再是一堆静态文件,而是一个可生长的能力层。Agent每处理一个任务,有可能产出新的Skill,供后续任务复用。

届时,不同Agent的差距会进一步拉大。一个跑了十万次任务的Agent,积累了成千上万个经过验证的Skill;一个新Agent什么都没有。这种差距,不是换个更强模型能弥补的。

对在座各位来说,今天就可以开始做的事:

  • 盘点你的团队在日常工作中重复做三次以上的事情。选一个,封装成第一个Skill。

  • 不用完美,只要它能在你的场景中稳定跑通。

  • 然后第二个、第三个。

Skill不会从天而降。它来自你对真实场景的逐个击破。

最后问一个判断题:

如果让你的Agent系统在一个全新的业务领域跑通一个完整任务,你需要从零写多少胶水代码?这些胶水代码里,有哪些可以沉淀成跨领域通用的Skill?

本文部分内容参考了霍格沃兹测试开发学社整理的相关技术资料,主要涉及软件测试、自动化测试、测试开发及 AI 测试等内容,侧重测试实践、工具应用与工程经验整理。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/8 17:23:15

3个关键技巧让de4dot成为你的.NET反混淆利器

3个关键技巧让de4dot成为你的.NET反混淆利器 【免费下载链接】de4dot .NET deobfuscator and unpacker. 项目地址: https://gitcode.com/gh_mirrors/de/de4dot de4dot是一个功能强大的开源.NET反混淆与解包工具,采用C#编写并遵循GPLv3协议。它能将经过混淆处…

作者头像 李华
网站建设 2026/5/8 17:23:09

龙芯3A6000高端办公台式机:5G时代提升办公效率的优选方案

在当前5G时代,数据传输速度与办公任务复杂度同步提升,传统办公电脑已难以满足高效办公的需求,办公效率低下的问题日益凸显。针对这一痛点,选用高性能办公台式机成为破解难题的关键,龙芯3A6000高端办公台式机GA-PC403-0…

作者头像 李华
网站建设 2026/5/8 17:22:33

示波器高阶应用:时间轨迹功能解调PWM/PAM/FSK信号实战

1. 示波器进阶技巧:从“看波形”到“解信号”上周的“周五小测验”是不是让你对示波器的隐藏功能有了新的认识?如果你觉得那只是开胃小菜,那这周的内容绝对能让你大呼过瘾。我们继续深入,聚焦于那些能让一台普通示波器发挥出“超能…

作者头像 李华
网站建设 2026/5/8 17:22:31

tektronix泰克AWG70001A任意波形信号发生器

泰克AWG70001A,AWG70001A任意波形信号发生器:AWG70000 系列任意波形发生器代表的采样率、信号保真度和波形内存,非常适合复杂组件、系统和试验的设计、测试和操作。AWG70000 系列具有高达 50 GS/s 和 10 位垂直分辨率,提供业内的信号激励解决…

作者头像 李华
网站建设 2026/5/8 17:22:02

利用 Taotoken 聚合能力为 AIGC 应用提供稳定的模型供应链

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 利用 Taotoken 聚合能力为 AIGC 应用提供稳定的模型供应链 在构建图像生成或内容创作类 AIGC 应用时,技术团队常常面临…

作者头像 李华
网站建设 2026/5/8 17:21:59

如何为VLC播放器选择最适合的界面主题:VeLoCity皮肤深度解析

如何为VLC播放器选择最适合的界面主题:VeLoCity皮肤深度解析 【免费下载链接】VeLoCity-Skin-for-VLC Castom skin for VLC Player 项目地址: https://gitcode.com/gh_mirrors/ve/VeLoCity-Skin-for-VLC VLC媒体播放器以其强大的功能和跨平台兼容性而闻名&am…

作者头像 李华