news 2026/5/15 17:33:08

微软多Agent系统登顶AI漏洞发现测试,用别人模型打破模型竞争格局!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
微软多Agent系统登顶AI漏洞发现测试,用别人模型打破模型竞争格局!

微软多Agent系统登顶测试

微软用一套多Agent系统在AI漏洞发现的顶级基准测试上拿下第一,超过Anthropic最强模型Mythos五个百分点。5月12日,微软发布了代号MDASH的AI安全系统,同时登顶CyberGym基准测试榜首,成绩88.45%。排在它后面的是Anthropic的Mythos Preview(83.1%)和OpenAI的GPT - 5.5(81.8%)。

微软系统的独特之处

微软自己并没有一个能与Mythos或GPT - 5.5竞争的前沿模型。微软在博客里明确表示,MDASH使用的全部是市面上公开可用的模型。但它组了一套系统,调度100多个专业化Agent,让多个模型分工协作,跑出了比任何单一模型都高的分数。微软已经用这套工具,挖出了自家Windows 11系统16个高危漏洞。

CyberGym榜单情况

CyberGym由UC Berkeley团队开发,论文发表在ICLR 2026,是目前AI安全能力评估领域最权威的公开基准之一。Anthropic、OpenAI、Meta、智谱都在上面提交过成绩。测试方式是给AI一段有已知漏洞的代码和漏洞描述,让它自己写出能触发漏洞的攻击代码。1507道题,来自188个真实开源项目。榜单成绩由各公司自行提交,基准代码公开但无独立第三方验证。

多Agent系统的强大能力

MDASH带来的核心启示是「系统」可以抹平甚至反超「模型」的差距。Anthropic花巨大研发投入训练出Mythos,OpenAI的GPT - 5.5同样是前沿模型。而微软没有这样的模型,但它有一套流水线,把「准备→扫描→验证→去重→证明」五个阶段拆开,每个阶段用不同的Agent、不同的模型去跑。这套系统对底层模型不绑定,新模型出来,换个配置跑A/B测试就行,前面积累的所有工程资产全部复用。这对Anthropic和OpenAI构成一种新型威胁。

对ASI终局的潜在变数

在前沿模型这张牌桌上,真正有筹码的只有Anthropic和OpenAI。微软虽为OpenAI最大投资方和云计算合作伙伴,但自己未训出过进入第一梯队的旗舰大模型。CyberGym的结果引发思考,通往ASI的路径,到底是一条还是两条?路径一是Anthropic和OpenAI正在走的,把单一模型推到极致,此路径门槛极高;路径二是微软用MDASH展示的,不追求造出最强的单一模型,转而构建一个能把现有模型能力最大化的系统。MDASH的成绩证明了路径二至少在特定领域是可行的,但它不能替代路径一,因为MDASH用的底层模型仍然来自路径一的公司。

多Agent系统的实战意义

多Agent系统作为一种范式,正在从实验走向生产。MDASH团队的多位核心成员来自Team Atlanta。微软公布了16个由MDASH辅助发现的Windows漏洞,其中4个是Critical级别的远程代码执行,这些漏洞大多可在无需认证的情况下从网络侧触发,已在5月Patch Tuesday中修复。在内部回溯测试中,MDASH对Windows核心组件clfs.sys过去五年的已确认漏洞召回率达到96%,tcpip.sys达到100%。微软表示,以后的Patch Tuesday会越来越大,同时攻击者也能用同样的技术,因为MDASH用的全是公开可用的模型,没有技术上的独占壁垒。

MDASH对不同人群的意义

MDASH验证了一个猜想:在AI能力的下一阶段竞争中,「围绕模型构建系统」可能和「训练更强模型」同等重要。这对模型公司(Anthropic、OpenAI)敲响警钟,模型能力领先不能自动转化为应用层领先;对平台公司(谷歌、微软)指出了一条差异化路径,即构建最强系统,但需深刻理解具体领域的工程细节;对普通用户,要及时打补丁,否则不懂技术的人也能借助AI利用这类漏洞。MDASH目前正在进行小范围客户私测,微软未公布定价和正式发布时间。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/15 17:32:14

LaTeX-PPT:PowerPoint公式编辑效率提升400%的终极解决方案

LaTeX-PPT:PowerPoint公式编辑效率提升400%的终极解决方案 【免费下载链接】latex-ppt Use LaTeX in PowerPoint 项目地址: https://gitcode.com/gh_mirrors/la/latex-ppt 还在为PowerPoint中编辑复杂数学公式而头痛吗?LaTeX-PPT这款开源插件将彻…

作者头像 李华
网站建设 2026/5/15 17:32:11

基于MCP协议构建AI智能体记忆系统:mnemo-mcp实战指南

1. 项目概述:一个为AI记忆而生的开源工具最近在折腾AI应用开发,特别是围绕大语言模型(LLM)构建智能体(Agent)时,一个绕不开的痛点就是“记忆”。模型本身没有持久化记忆,每次对话都是…

作者头像 李华
网站建设 2026/5/15 17:31:50

独家披露:PlayAI多语种同步翻译底层采用“分层注意力对齐+语种无关音素嵌入”双引擎(附论文级架构图与benchmark对比数据)

更多请点击: https://intelliparadigm.com 第一章:PlayAI多语种同步翻译功能详解 PlayAI 的多语种同步翻译功能基于端到端神经机器翻译(NMT)架构与实时语音流处理引擎深度融合,支持中、英、日、韩、法、西、德、俄等 …

作者头像 李华
网站建设 2026/5/15 17:30:55

DBeaver | 从驱动缺失到连接成功:一站式解决数据库连接报错指南

1. 遇到数据库连接报错时的心态调整 第一次用DBeaver连接数据库就遇到"无法创建驱动实例"的红色报错,那种感觉就像准备大展拳脚时突然被泼了盆冷水。我清楚地记得三年前接手一个新项目时,团队里三个开发人员围着这个报错折腾了一整天。其实这类…

作者头像 李华
网站建设 2026/5/15 17:29:47

基于MCP协议的Claude对话历史管理工具:架构、配置与实战

1. 项目概述:一个为Claude桌面应用量身定制的历史记录管理工具如果你和我一样,是Claude桌面应用的深度用户,那你一定对那个内置的对话历史管理功能颇有微词。它太基础了,基础到几乎只能算是一个“查看器”。想按日期、按项目、按关…

作者头像 李华