微软多Agent系统登顶AI漏洞发现测试，用别人模型打破模型竞争格局！-程序员充电站

微软多Agent系统登顶测试

微软用一套多Agent系统在AI漏洞发现的顶级基准测试上拿下第一，超过Anthropic最强模型Mythos五个百分点。5月12日，微软发布了代号MDASH的AI安全系统，同时登顶CyberGym基准测试榜首，成绩88.45%。排在它后面的是Anthropic的Mythos Preview（83.1%）和OpenAI的GPT - 5.5（81.8%）。

微软系统的独特之处

微软自己并没有一个能与Mythos或GPT - 5.5竞争的前沿模型。微软在博客里明确表示，MDASH使用的全部是市面上公开可用的模型。但它组了一套系统，调度100多个专业化Agent，让多个模型分工协作，跑出了比任何单一模型都高的分数。微软已经用这套工具，挖出了自家Windows 11系统16个高危漏洞。

CyberGym榜单情况

CyberGym由UC Berkeley团队开发，论文发表在ICLR 2026，是目前AI安全能力评估领域最权威的公开基准之一。Anthropic、OpenAI、Meta、智谱都在上面提交过成绩。测试方式是给AI一段有已知漏洞的代码和漏洞描述，让它自己写出能触发漏洞的攻击代码。1507道题，来自188个真实开源项目。榜单成绩由各公司自行提交，基准代码公开但无独立第三方验证。

多Agent系统的强大能力

MDASH带来的核心启示是「系统」可以抹平甚至反超「模型」的差距。Anthropic花巨大研发投入训练出Mythos，OpenAI的GPT - 5.5同样是前沿模型。而微软没有这样的模型，但它有一套流水线，把「准备→扫描→验证→去重→证明」五个阶段拆开，每个阶段用不同的Agent、不同的模型去跑。这套系统对底层模型不绑定，新模型出来，换个配置跑A/B测试就行，前面积累的所有工程资产全部复用。这对Anthropic和OpenAI构成一种新型威胁。

对ASI终局的潜在变数

在前沿模型这张牌桌上，真正有筹码的只有Anthropic和OpenAI。微软虽为OpenAI最大投资方和云计算合作伙伴，但自己未训出过进入第一梯队的旗舰大模型。CyberGym的结果引发思考，通往ASI的路径，到底是一条还是两条？路径一是Anthropic和OpenAI正在走的，把单一模型推到极致，此路径门槛极高；路径二是微软用MDASH展示的，不追求造出最强的单一模型，转而构建一个能把现有模型能力最大化的系统。MDASH的成绩证明了路径二至少在特定领域是可行的，但它不能替代路径一，因为MDASH用的底层模型仍然来自路径一的公司。

多Agent系统的实战意义

多Agent系统作为一种范式，正在从实验走向生产。MDASH团队的多位核心成员来自Team Atlanta。微软公布了16个由MDASH辅助发现的Windows漏洞，其中4个是Critical级别的远程代码执行，这些漏洞大多可在无需认证的情况下从网络侧触发，已在5月Patch Tuesday中修复。在内部回溯测试中，MDASH对Windows核心组件clfs.sys过去五年的已确认漏洞召回率达到96%，tcpip.sys达到100%。微软表示，以后的Patch Tuesday会越来越大，同时攻击者也能用同样的技术，因为MDASH用的全是公开可用的模型，没有技术上的独占壁垒。

MDASH对不同人群的意义

MDASH验证了一个猜想：在AI能力的下一阶段竞争中，「围绕模型构建系统」可能和「训练更强模型」同等重要。这对模型公司（Anthropic、OpenAI）敲响警钟，模型能力领先不能自动转化为应用层领先；对平台公司（谷歌、微软）指出了一条差异化路径，即构建最强系统，但需深刻理解具体领域的工程细节；对普通用户，要及时打补丁，否则不懂技术的人也能借助AI利用这类漏洞。MDASH目前正在进行小范围客户私测，微软未公布定价和正式发布时间。

PX4避障开发实战：在伴飞电脑（Raspberry Pi）上部署视觉算法并与飞控通信

PX4避障开发实战：在伴飞电脑（Raspberry Pi）上部署视觉算法并与飞控通信当无人机需要实现自主避障时，仅靠飞控的传感器往往难以满足复杂环境的需求。这时，引入伴飞电脑运行视觉算法成为提升环境感知能力的关键方案。本…

李华

LaTeX-PPT：PowerPoint公式编辑效率提升400%的终极解决方案

LaTeX-PPT：PowerPoint公式编辑效率提升400%的终极解决方案【免费下载链接】latex-ppt Use LaTeX in PowerPoint 项目地址: https://gitcode.com/gh_mirrors/la/latex-ppt 还在为PowerPoint中编辑复杂数学公式而头痛吗？LaTeX-PPT这款开源插件将彻…

$作者头像$ 李华

基于MCP协议构建AI智能体记忆系统：mnemo-mcp实战指南

1. 项目概述：一个为AI记忆而生的开源工具最近在折腾AI应用开发，特别是围绕大语言模型（LLM）构建智能体（Agent）时，一个绕不开的痛点就是“记忆”。模型本身没有持久化记忆，每次对话都是…

李华

独家披露：PlayAI多语种同步翻译底层采用“分层注意力对齐+语种无关音素嵌入”双引擎（附论文级架构图与benchmark对比数据）

更多请点击： https://intelliparadigm.com 第一章：PlayAI多语种同步翻译功能详解 PlayAI 的多语种同步翻译功能基于端到端神经机器翻译（NMT）架构与实时语音流处理引擎深度融合，支持中、英、日、韩、法、西、德、俄等 …

李华

DBeaver | 从驱动缺失到连接成功：一站式解决数据库连接报错指南

1. 遇到数据库连接报错时的心态调整第一次用DBeaver连接数据库就遇到"无法创建驱动实例"的红色报错，那种感觉就像准备大展拳脚时突然被泼了盆冷水。我清楚地记得三年前接手一个新项目时，团队里三个开发人员围着这个报错折腾了一整天。其实这类…

李华

基于MCP协议的Claude对话历史管理工具：架构、配置与实战

1. 项目概述：一个为Claude桌面应用量身定制的历史记录管理工具如果你和我一样，是Claude桌面应用的深度用户，那你一定对那个内置的对话历史管理功能颇有微词。它太基础了，基础到几乎只能算是一个“查看器”。想按日期、按项目、按关…

李华