news 2026/4/18 11:34:24

AAAI 2026 | 教大模型玩「谁是卧底」,竟然治好了它“睁眼说瞎话“的毛病?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AAAI 2026 | 教大模型玩「谁是卧底」,竟然治好了它“睁眼说瞎话“的毛病?

论文标题:

Multi-agent Undercover Gaming: Hallucination Removal through Counterfactual Test for Multimodal Reasoning

论文链接:

https://arxiv.org/abs/2511.11182

代码开源:

https://github.com/YongLD/MUG

核心思想一句话

大模型看图经常一本正经地胡说八道,传统方法是让多个模型投票“少数服从多数”,但如果大家都在瞎说呢?

这篇论文换了个思路——故意给其中一个模型看“假图片”,让它当“卧底”,然后通过多轮博弈把这个说错话的揪出来。就像玩“谁是卧底”游戏一样,通过主动设局、互相质疑,反而能让整个系统变得更聪明、更不容易被幻觉带偏。

实验证明,这招在多个基准测试上都显著降低了模型的幻觉问题。

为什么大模型会“睁眼说瞎话”?

你肯定遇到过:问 GPT 或者其他多模态大模型一个关于图片的问题,它回答得特别自信,但仔细一看完全是在编故事——图里根本没有它说的那个东西,或者把数字、颜色、位置全都理解反了。这就是所谓的“多模态幻觉”问题。

本质原因是,大模型的推理能力建立在海量数据的统计规律上,而不是真正“看懂”了图片。只要训练数据里某种答案出现频率高,模型就可能自信地输出,哪怕这和眼前的图片内容完全对不上号。

现在流行的一个解决办法是“多智能体辩论”(Multi-Agent Debate):让好几个模型一起讨论同一个问题,通过投票达成共识。

听起来很美好,但有个致命缺陷——这个方法默认所有模型都是“理性辩手”,会认真听别人意见、会反思自己的错误。

但实际上呢?如果每个模型本身都带着幻觉,那它们的“共识”很可能只是一群人一起瞎说,反而更加自信地给出错误答案。

这篇论文就是要打破这个困境:能不能设计一种机制,主动把那个“说错话”的模型揪出来,而不是盲目相信“少数服从多数”?

灵感来源:线下聚会玩的“谁是卧底”

论文作者的灵感来自一个经典桌游——“谁是卧底”。

游戏规则是这样的:每个人拿到一个词条,但卧底拿到的词和其他人的略有不同(比如别人是“玫瑰”,卧底是“月季”)。大家轮流描述自己的词,互相试探、互相怀疑,最后通过投票把卧底找出来。

这和多模态推理的问题简直一模一样!那个“看错图”或者“理解错细节”的模型,不就是带着幻觉的卧底吗?

如果能把多智能体推理变成一场有信息不对称的博弈游戏,让模型在博弈中暴露和发现彼此的错误,就有机会更稳健地消除幻觉。

基于这个想法,论文提出了 Multi-agent Undercover Gaming(MUG)框架——把传统的多智能体辩论改造成一场抓“卧底”的推理游戏。

游戏规则是这样的:

给定一个多模态问题(比如“图片里有几个红色物体?”),系统会准备两张图片:一张是真实图片,另一张是精心编辑过的"反事实图片"——看起来很像原图,但关键细节被悄悄改掉了(比如把两个红色物体改成三个)。

然后,随机选一个模型当“卧底”,给它看反事实图片;其他模型都看真实图片,它们是“普通辩手”。

接下来进入多轮博弈:每轮先让所有模型基于自己看到的图片给出推理,然后互相质疑、投票,找出谁最可疑。一旦卧底被成功识别并移除,剩下的“清白”模型就给出最终答案。

这个设计的妙处在于:通过故意制造信息不对称,系统能主动诱导出模型的认知差异。

如果某个模型坚持说图里有三个红色物体,而其他模型都说是两个,那这个模型要么是卧底(看到了假图),要么是产生了幻觉(看错了真图)。无论哪种情况,都能通过投票把它排除掉。

核心技术:如何造出“以假乱真”的反事实图片?

反事实图片的质量直接决定了整个框架的效果。论文的目标是:改动要足够细微、足够关键,让卧底很难察觉自己拿到的是假图,但又要在推理过程中暴露出明显的逻辑矛盾。

举个例子:原图里有个红头发的女孩在玩手机,问题是“图片的主体关注点是什么?”。

论文会把女孩的头发从红色改成黑色——整体画面几乎没变,但视觉焦点从“醒目的红发”转移到了“手机”。如果卧底坚持说“主要关注点是手机”,而其他模型都说“是那个红头发女孩”,矛盾就暴露了。

具体怎么做?

论文先用大模型对问题分类(比如“多少类”对应数量编辑,“是什么”对应实体编辑),然后基于真实图片构建场景图,找出需要编辑的目标实体和关系,生成编辑提示词,交给图像编辑模型执行。

三大质量约束:

1. 视觉相似度要高:反事实图要和真实图在整体外观上尽量一致,不能让卧底一眼就看出是假图。

2. 语义大方向要一致:大场景和主要语义不能被破坏,只改与问题相关的关键细节。

3. 图像要自然不违和:不能出现明显的伪影或逻辑错误,否则容易被模型凭经验排除。

论文用一个综合打分函数来衡量生成质量:把视觉特征相似度、基于图文联合嵌入的语义相似度、以及图像自然度(用 FID 等指标衡量)这三个分数加权求和,只有综合分数超过设定阈值的反事实图片才会被接受,否则重新生成。

博弈机制:让模型在质疑中暴露漏洞

有了反事实图片,接下来就是设计博弈规则。每一轮分为推理和投票两个步骤。

推理阶段:

每个模型基于自己看到的图片(可能是真实图也可能是反事实图)、自己的角色(卧底还是普通辩手)、以及之前所有轮次的对话和投票历史,给出本轮回答。

普通辩手的目标是两件事:一方面基于真实图给出准确推理,另一方面观察其他模型的回答,找出谁更可疑。

所以普通辩手在选择回答时,会同时考虑“这个回答在真实图上有多准确”以及“这个回答在发现卧底方面有多大价值”,然后在两者之间找平衡。

卧底的目标则更复杂:既要在符合反事实图的前提下显得合理可信,又要避免暴露与其他模型描述的冲突。所以卧底在选择回答时,会考虑“这个回答在反事实图上有多合理”,同时减去“这个回答会引发多大的可疑程度”。

如果卧底越害怕被发现,它就越倾向于说模糊安全的话,以降低被投票的风险。

投票阶段:

每个模型给出自己认为最可疑的对象。论文综合考虑四类信号来做判断:

1. 逻辑不一致程度:某个模型的推理与真实图可能推理之间的冲突有多大。

2. 与群体共识的偏离度:它的回答是否总是与大多数不同。

3. 细节描述的准确度:颜色、数量、位置等细节是否经得起交叉检查。

4. 行为模式的可疑性:是否总说模糊的话,是否频繁自我防御或改变立场。

把这四类信号加权求和,得分最高的就是最可疑的对象。然后根据所有模型的投票,采用多数票机制选出本轮最可疑的对象。

如果被投出的恰好是卧底,游戏进入总结阶段;如果误杀了普通辩手或仍未找到卧底,则继续下一轮,直到达到轮数上限。

这个设计的巧妙之处在于:强烈的信息不对称迫使模型给出足够细致的描述来证明自己“清白”。含糊其辞反而成了高风险策略,更鼓励模型主动做出细粒度推理。

实验结果:把卧底藏在辩论中真的有效!

论文在四个代表性基准上做了实验:

通用推理基准:

  • MMStar:多领域高难度视觉问题

  • MMMU:多学科大学级别题目

幻觉检测基准:

  • HallusionBench:通过视觉错觉和语言诱导刻意触发模型幻觉

  • POPE:系统测试模型在物体存在与否上的幻觉

对比策略:

  • Self Refine:单智能体自我反思

  • MAD:传统多智能体辩论

  • MUG:论文提出的卧底博弈框架

结果亮眼:

在 Qwen2.5VL-7B 模型上引入 MUG 后:

  • MMMU(跨学科综合考试):精度提升约 5%,明显减少了“看错图”和“想当然”导致的失分。

  • MMStar(多步推理和复杂场景):精度提升接近 2.6%。

  • HallusionBench 和 POPE(专门考察幻觉):相比 MAD 的简单投票策略,平均提升 13.0% 以上!即使面对刻意制造的图文不一致和语言诱导,也能有效拆穿错误描述。

在更大的 InternVL-14B 基座上也有不同程度提升,说明框架在不同模型上都有拓展性。

消融实验:哪些设计最关键?

论文做了两类消融实验:

1. 去掉反事实图片:让所有模型都看原图进行辩论。结果在 MMStar、HallusionBench 和 MMMU 上性能分别下降 1-3 个百分点,尤其幻觉相关指标下降明显。说明精心设计的反事实图片确实能有效挖掘模型的认知差异。

2. 保留反事实图但取消卧底机制:不区分卧底角色,也不进行博弈式投票,仅把多视角信息简单合并。这时性能下降更明显,在 HallusionBench 上跌幅接近 5 个百分点。

说明单纯提供反事实图信息会适得其反,卧底机制和投票博弈对暴露幻觉至关重要。

博弈轮数的影响:

论文还分析了观察轮数对效果的影响。结果发现,只进行一轮博弈时,框架性能通常就能达到峰值或接近峰值。继续增加轮数,收益开始变小甚至略有下降。

这说明适度的互动足以让模型暴露关键矛盾,而给卧底更多议论轮数可能会导致更多模型被“策反”或迷惑。

统计显示,大部分卧底都能在第二轮后被准确识别,卧底数量出现陡降。

一个有趣的案例:Red Bull 还是 Red Deer?

论文给出了一个很有意思的例子:原图中有两只红色公牛,但下面的文字写着 “Red Deer”(红鹿)。那这张图显然不是某知名饮料品牌的 logo。

但单智能体推理时,模型往往会凭视觉惯性,直接认定这是 Red Bull 的标志——因为两个红色公牛和黄色圆形的视觉信息太强烈了。

在传统多智能体辩论中也是如此,如果多个模型都有类似的偏见,那么多数投票结果依然会指向错误答案。

而在 MUG 中:

论文让卧底看到一个反事实版本——图中文字被改为 “Red Bull”,而其他模型看到写着 “Red Deer” 的真实图。

在互相描述和质询的过程中,卧底会坚持图中文字写着 “Red Bull”,这会让其他模型开始围绕文字信息展开争论,从而让拥有原图的模型更加关注文字细节。最终,卧底被排除,系统给出正确结论。

总结:主动出击,让 AI 在博弈中变聪明

这篇 AAAI 工作提出的多智能体卧底博弈框架,从协议设计的角度切入多模态大模型的幻觉问题。

通过故意制造信息不对称、引入博弈机制,系统能主动诱导出模型的认知差异,把那个“说错话”的揪出来。

实验证明,这种方法在多个强基座模型上都带来了稳定提升,尤其在幻觉检测和鲁棒推理方面效果显著。

未来,论文团队希望把这种博弈式协议推广到视频推理、医学影像等更多场景,也期待和社区一起探索,如何在保持推理效率的前提下进一步提升多智能体辩论的可靠性。

如果你正在研究多模态大模型幻觉问题,或者在研究场景中遇到模型“看图乱说”的困扰,欢迎关注并尝试论文的 MUG 框架,代码正在整理开源中!

@article{liang2025multi, title={Multi-agent Undercover Gaming: Hallucination Removal via Counterfactual Test for Multimodal Reasoning}, author={Liang, Dayong and Wei, Xiao-Yong and Zheng, Changmeng}, journal={arXiv preprint arXiv:2511.11182}, year={2025} }

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以markdown格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!