news 2026/5/11 23:39:25

阿里:技能正文决定Agent路由精度

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
阿里:技能正文决定Agent路由精度

📖标题:SkillRouter: Retrieve-and-Rerank Skill Selection for LLM Agents at Scale
🌐来源:arXiv, 2603.22455v1

🌟摘要

随着LLM代理生态系统的发展,可用技能的数量(工具,插件)已经达到数万个,这使得将所有技能注入到代理的上下文中变得不可行。这就需要进行技能路由-从给定用户任务的大型池中检索最相关的技能。社区技能库中普遍存在的功能重叠使问题更加复杂,其中许多技能具有相似的名称和目的,但在实现细节上有所不同。尽管其实际重要性,目前的代理体系结构采用渐进式公开设计-只向代理公开技能名称和描述,同时隐藏整个实现主体-隐式地将元数据视为足以进行选择。我们通过对2080 K技能和75个专家验证查询的基准进行系统的实证研究来挑战这一假设。我们的关键发现是,技能主体(全文执行)是决定性的信号:删除它会导致所有检索方法的29-44个百分点的下降,跨编码器注意力分析显示91.7%的注意力集中在身体领域。基于这一发现,我们提出了SKILLROUTER,两级检索和重新排序管道,总共只有1.2亿个参数(0.6B编码器+ 0.6B reranker). SKILLROUTER实现了74.0%的top-1路由精度,并在我们评估的紧凑和零拍摄基线中提供了最强的平均结果,同时保持可部署在消费者硬件上。

🛎️文章简介

🔸研究问题:在拥有数万个技能的大规模生态中,仅凭名称和描述是否足以让智能体准确检索到最相关的技能,还是必须依赖完整的代码实现正文?
🔸主要贡献:论文通过实证研究推翻了对元数据的传统依赖,证明技能正文是路由的关键信号,并提出了轻量级 SkillRouter 流水线实现高效精准检索。

📝重点思路

🔸构建了包含约 8 万个技能和 75 个专家验证查询的大规模基准测试,模拟真实社区技能库中功能高度重叠的挑战场景。
🔸设计了控制变量实验与注意力机制分析,对比仅使用名称描述与使用完整文本(含正文)在不同检索模型下的性能差异。
🔸提出了 SkillRouter 两阶段检索重排序架构,包含一个 0.6B 参数的双编码器检索器和一个 0.6B 参数的交叉编码器重排序器,均输入完整技能文本。
🔸引入三层假负例过滤机制去除功能重复的技能,并采用列表式交叉熵损失函数进行微调,以解决技能库同质化导致的排序难题。

🔎分析总结

🔸移除技能正文会导致所有检索方法的 Top-1 准确率下降 29 至 44 个百分点,BM25 甚至降至零,证明正文是决定性信号。
🔸交叉编码器的注意力分析显示,91.7% 的注意力集中在技能正文上,而名称和描述分别仅占 7.3% 和 1.0%。
🔸SkillRouter 紧凑版(共 1.2B 参数)实现了 74.0% 的 Top-1 路由准确率,优于参数量大得多的零样本基线模型,且可部署于消费级硬件。
🔸假负例过滤提升了 4.0% 的准确率,而列表式损失函数相比点式损失函数提升了 30.7%,表明在同质化池中比较排序至关重要。

💡个人观点

论文论证了路由系统必须访问完整代码正文才能做出正确判断,个人理解skill检索其实是对长上下文的一种妥协。

🧩附录


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/9 17:08:17

CTF工具-----Web安全篇----嘤嘤嘤

Web安全:内网工具:PHPWeb:JAVAWeb:Webshell:XSSshell:链接:https://pan.quark.cn/s/0e4a73812438?pwdmrup 提取码:mrup多为压缩包哦

作者头像 李华
网站建设 2026/4/9 17:07:38

3个关键技巧:如何用Source Code Pro可变字体提升你的编程效率

3个关键技巧:如何用Source Code Pro可变字体提升你的编程效率 【免费下载链接】source-code-pro Monospaced font family for user interface and coding environments 项目地址: https://gitcode.com/gh_mirrors/so/source-code-pro 你是否曾因代码阅读疲劳…

作者头像 李华
网站建设 2026/4/9 17:02:54

金融PHP支付安全加固实战(2024央行新规适配版)

第一章:金融PHP支付安全加固的监管背景与新规要点近年来,随着《中国人民银行关于加强支付受理终端及相关业务管理的通知》(银发〔2021〕259号)、《金融行业网络安全等级保护实施指引》(JR/T 0072—2020)及《…

作者头像 李华
网站建设 2026/4/9 17:02:48

Windows平台ADB与Fastboot驱动自动化部署指南

Windows平台ADB与Fastboot驱动自动化部署指南 【免费下载链接】Latest-adb-fastboot-installer-for-windows A Simple Android Driver installer tool for windows (Always installs the latest version) 项目地址: https://gitcode.com/gh_mirrors/la/Latest-adb-fastboot-i…

作者头像 李华
网站建设 2026/4/9 17:02:24

PHP大文件安全处理生死线:绕过open_basedir、规避exec注入、防御临时文件竞争(SAST扫描验证版)

第一章:PHP大文件安全处理生死线总览在Web应用中,上传或生成GB级日志、视频切片、数据库备份等大文件时,PHP默认配置极易触发内存溢出、超时中断、临时文件残留甚至远程代码执行漏洞。安全处理大文件不是性能优化的“加分项”,而是…

作者头像 李华