AAAI 2026 | 教大模型玩「谁是卧底」，竟然治好了它“睁眼说瞎话“的毛病？-程序员充电站

论文标题：

Multi-agent Undercover Gaming: Hallucination Removal through Counterfactual Test for Multimodal Reasoning

论文链接：

https://arxiv.org/abs/2511.11182

代码开源：

https://github.com/YongLD/MUG

核心思想一句话

大模型看图经常一本正经地胡说八道，传统方法是让多个模型投票“少数服从多数”，但如果大家都在瞎说呢？

这篇论文换了个思路——故意给其中一个模型看“假图片”，让它当“卧底”，然后通过多轮博弈把这个说错话的揪出来。就像玩“谁是卧底”游戏一样，通过主动设局、互相质疑，反而能让整个系统变得更聪明、更不容易被幻觉带偏。

实验证明，这招在多个基准测试上都显著降低了模型的幻觉问题。

为什么大模型会“睁眼说瞎话”？

你肯定遇到过：问 GPT 或者其他多模态大模型一个关于图片的问题，它回答得特别自信，但仔细一看完全是在编故事——图里根本没有它说的那个东西，或者把数字、颜色、位置全都理解反了。这就是所谓的“多模态幻觉”问题。

本质原因是，大模型的推理能力建立在海量数据的统计规律上，而不是真正“看懂”了图片。只要训练数据里某种答案出现频率高，模型就可能自信地输出，哪怕这和眼前的图片内容完全对不上号。

现在流行的一个解决办法是“多智能体辩论”（Multi-Agent Debate）：让好几个模型一起讨论同一个问题,通过投票达成共识。

听起来很美好，但有个致命缺陷——这个方法默认所有模型都是“理性辩手”，会认真听别人意见、会反思自己的错误。

但实际上呢？如果每个模型本身都带着幻觉，那它们的“共识”很可能只是一群人一起瞎说，反而更加自信地给出错误答案。

这篇论文就是要打破这个困境：能不能设计一种机制，主动把那个“说错话”的模型揪出来，而不是盲目相信“少数服从多数”？

灵感来源：线下聚会玩的“谁是卧底”

论文作者的灵感来自一个经典桌游——“谁是卧底”。

游戏规则是这样的：每个人拿到一个词条，但卧底拿到的词和其他人的略有不同（比如别人是“玫瑰”，卧底是“月季”）。大家轮流描述自己的词，互相试探、互相怀疑，最后通过投票把卧底找出来。

这和多模态推理的问题简直一模一样！那个“看错图”或者“理解错细节”的模型，不就是带着幻觉的卧底吗？

如果能把多智能体推理变成一场有信息不对称的博弈游戏，让模型在博弈中暴露和发现彼此的错误，就有机会更稳健地消除幻觉。

基于这个想法，论文提出了 Multi-agent Undercover Gaming（MUG）框架——把传统的多智能体辩论改造成一场抓“卧底”的推理游戏。

游戏规则是这样的：

给定一个多模态问题（比如“图片里有几个红色物体？”），系统会准备两张图片：一张是真实图片，另一张是精心编辑过的"反事实图片"——看起来很像原图，但关键细节被悄悄改掉了（比如把两个红色物体改成三个）。

然后，随机选一个模型当“卧底”，给它看反事实图片；其他模型都看真实图片，它们是“普通辩手”。

接下来进入多轮博弈：每轮先让所有模型基于自己看到的图片给出推理，然后互相质疑、投票，找出谁最可疑。一旦卧底被成功识别并移除，剩下的“清白”模型就给出最终答案。

这个设计的妙处在于：通过故意制造信息不对称，系统能主动诱导出模型的认知差异。

如果某个模型坚持说图里有三个红色物体，而其他模型都说是两个，那这个模型要么是卧底（看到了假图），要么是产生了幻觉（看错了真图）。无论哪种情况，都能通过投票把它排除掉。

核心技术：如何造出“以假乱真”的反事实图片？

反事实图片的质量直接决定了整个框架的效果。论文的目标是：改动要足够细微、足够关键，让卧底很难察觉自己拿到的是假图，但又要在推理过程中暴露出明显的逻辑矛盾。

举个例子：原图里有个红头发的女孩在玩手机，问题是“图片的主体关注点是什么？”。

论文会把女孩的头发从红色改成黑色——整体画面几乎没变，但视觉焦点从“醒目的红发”转移到了“手机”。如果卧底坚持说“主要关注点是手机”，而其他模型都说“是那个红头发女孩”，矛盾就暴露了。

具体怎么做？

论文先用大模型对问题分类（比如“多少类”对应数量编辑，“是什么”对应实体编辑），然后基于真实图片构建场景图，找出需要编辑的目标实体和关系，生成编辑提示词，交给图像编辑模型执行。

三大质量约束：

1. 视觉相似度要高：反事实图要和真实图在整体外观上尽量一致，不能让卧底一眼就看出是假图。

2. 语义大方向要一致：大场景和主要语义不能被破坏，只改与问题相关的关键细节。

3. 图像要自然不违和：不能出现明显的伪影或逻辑错误，否则容易被模型凭经验排除。

论文用一个综合打分函数来衡量生成质量：把视觉特征相似度、基于图文联合嵌入的语义相似度、以及图像自然度（用 FID 等指标衡量）这三个分数加权求和，只有综合分数超过设定阈值的反事实图片才会被接受，否则重新生成。

博弈机制：让模型在质疑中暴露漏洞

有了反事实图片，接下来就是设计博弈规则。每一轮分为推理和投票两个步骤。

推理阶段：

每个模型基于自己看到的图片（可能是真实图也可能是反事实图）、自己的角色（卧底还是普通辩手）、以及之前所有轮次的对话和投票历史，给出本轮回答。

普通辩手的目标是两件事：一方面基于真实图给出准确推理，另一方面观察其他模型的回答，找出谁更可疑。

所以普通辩手在选择回答时，会同时考虑“这个回答在真实图上有多准确”以及“这个回答在发现卧底方面有多大价值”，然后在两者之间找平衡。

卧底的目标则更复杂：既要在符合反事实图的前提下显得合理可信，又要避免暴露与其他模型描述的冲突。所以卧底在选择回答时，会考虑“这个回答在反事实图上有多合理”，同时减去“这个回答会引发多大的可疑程度”。

如果卧底越害怕被发现，它就越倾向于说模糊安全的话，以降低被投票的风险。

投票阶段：

每个模型给出自己认为最可疑的对象。论文综合考虑四类信号来做判断：

1. 逻辑不一致程度：某个模型的推理与真实图可能推理之间的冲突有多大。

2. 与群体共识的偏离度：它的回答是否总是与大多数不同。

3. 细节描述的准确度：颜色、数量、位置等细节是否经得起交叉检查。

4. 行为模式的可疑性：是否总说模糊的话，是否频繁自我防御或改变立场。

把这四类信号加权求和，得分最高的就是最可疑的对象。然后根据所有模型的投票，采用多数票机制选出本轮最可疑的对象。

如果被投出的恰好是卧底，游戏进入总结阶段；如果误杀了普通辩手或仍未找到卧底，则继续下一轮，直到达到轮数上限。

这个设计的巧妙之处在于：强烈的信息不对称迫使模型给出足够细致的描述来证明自己“清白”。含糊其辞反而成了高风险策略，更鼓励模型主动做出细粒度推理。

实验结果：把卧底藏在辩论中真的有效！

论文在四个代表性基准上做了实验：

通用推理基准：

MMStar：多领域高难度视觉问题
MMMU：多学科大学级别题目

幻觉检测基准：

HallusionBench：通过视觉错觉和语言诱导刻意触发模型幻觉
POPE：系统测试模型在物体存在与否上的幻觉

对比策略：

Self Refine：单智能体自我反思
MAD：传统多智能体辩论
MUG：论文提出的卧底博弈框架

结果亮眼：

在 Qwen2.5VL-7B 模型上引入 MUG 后：

MMMU（跨学科综合考试）：精度提升约 5%，明显减少了“看错图”和“想当然”导致的失分。
MMStar（多步推理和复杂场景）：精度提升接近 2.6%。
HallusionBench 和 POPE（专门考察幻觉）：相比 MAD 的简单投票策略，平均提升 13.0% 以上！即使面对刻意制造的图文不一致和语言诱导，也能有效拆穿错误描述。

在更大的 InternVL-14B 基座上也有不同程度提升，说明框架在不同模型上都有拓展性。

消融实验：哪些设计最关键？

论文做了两类消融实验：

1. 去掉反事实图片：让所有模型都看原图进行辩论。结果在 MMStar、HallusionBench 和 MMMU 上性能分别下降 1-3 个百分点，尤其幻觉相关指标下降明显。说明精心设计的反事实图片确实能有效挖掘模型的认知差异。

2. 保留反事实图但取消卧底机制：不区分卧底角色，也不进行博弈式投票，仅把多视角信息简单合并。这时性能下降更明显，在 HallusionBench 上跌幅接近 5 个百分点。

说明单纯提供反事实图信息会适得其反，卧底机制和投票博弈对暴露幻觉至关重要。

博弈轮数的影响：

论文还分析了观察轮数对效果的影响。结果发现，只进行一轮博弈时，框架性能通常就能达到峰值或接近峰值。继续增加轮数，收益开始变小甚至略有下降。

这说明适度的互动足以让模型暴露关键矛盾，而给卧底更多议论轮数可能会导致更多模型被“策反”或迷惑。

统计显示，大部分卧底都能在第二轮后被准确识别，卧底数量出现陡降。

一个有趣的案例：Red Bull 还是 Red Deer？

论文给出了一个很有意思的例子：原图中有两只红色公牛，但下面的文字写着 “Red Deer”（红鹿）。那这张图显然不是某知名饮料品牌的 logo。

但单智能体推理时，模型往往会凭视觉惯性，直接认定这是 Red Bull 的标志——因为两个红色公牛和黄色圆形的视觉信息太强烈了。

在传统多智能体辩论中也是如此，如果多个模型都有类似的偏见，那么多数投票结果依然会指向错误答案。

而在 MUG 中：

论文让卧底看到一个反事实版本——图中文字被改为 “Red Bull”，而其他模型看到写着 “Red Deer” 的真实图。

在互相描述和质询的过程中，卧底会坚持图中文字写着 “Red Bull”，这会让其他模型开始围绕文字信息展开争论，从而让拥有原图的模型更加关注文字细节。最终，卧底被排除，系统给出正确结论。

总结：主动出击，让 AI 在博弈中变聪明

这篇 AAAI 工作提出的多智能体卧底博弈框架，从协议设计的角度切入多模态大模型的幻觉问题。

通过故意制造信息不对称、引入博弈机制，系统能主动诱导出模型的认知差异，把那个“说错话”的揪出来。

实验证明，这种方法在多个强基座模型上都带来了稳定提升，尤其在幻觉检测和鲁棒推理方面效果显著。

未来，论文团队希望把这种博弈式协议推广到视频推理、医学影像等更多场景，也期待和社区一起探索，如何在保持推理效率的前提下进一步提升多智能体辩论的可靠性。

如果你正在研究多模态大模型幻觉问题，或者在研究场景中遇到模型“看图乱说”的困扰，欢迎关注并尝试论文的 MUG 框架，代码正在整理开源中！

@article{liang2025multi, title={Multi-agent Undercover Gaming: Hallucination Removal via Counterfactual Test for Multimodal Reasoning}, author={Liang, Dayong and Wei, Xiao-Yong and Zheng, Changmeng}, journal={arXiv preprint arXiv:2511.11182}, year={2025} }

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以markdown格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧