news 2026/6/10 1:22:51

谁是Samuel LeCun？NeurIPS 2025论文幻觉大赏，同行评审引争议

张小明

前端开发工程师

1.2k 24

文章封面图 — 谁是Samuel LeCun？NeurIPS 2025论文幻觉大赏，同行评审引争议

NeurIPS 2025 惊现“填空式”造假，连 arXiv:XXXX 都不删。

GPTZero 团队近日发布审查报告，在 NeurIPS 2025 已发表的 4841 篇论文中，检测出超过 50 篇包含明确的 AI 幻觉。

这是继 ICLR 2026 审稿阶段爆出 50+ 篇 AI 幻觉论文后（具体分析可参考我们之前的文章），学术界再次出现大规模 AI 生成内容通过同行评审的案例。

值得注意的是，这些幻觉并非出现在只有一两人把关的边缘刊物，而是全部逃过了每篇论文至少 3 位人类审稿人的法眼。

不同的是，ICLR 尚处审稿阶段，而 NeurIPS 这批论文已正式归档，作为顶会成果被全球 20,000 多名与会者查阅引用。

报告披露了以下几类典型的 AI 生成伪造引用文献样本。

虚构图灵奖得主与期刊

在 GPTZero 披露的数据中，最典型的案例是一篇论文对深度学习经典文献的引用错误。

〓 GPTZero 报告对比真实引用与幻觉引用，作者名和期刊名均为 AI 捏造

AI 把图灵奖得主 Yann LeCun 和好莱坞影星 Samuel L. Jackson（漫威电影中“神盾局局长”的扮演者）的名字强行缝合在了一起，并顺手虚构了名为 Science & Nature 的期刊。

如此明显的错误，在正文引用和参考文献列表中均未被作者或审稿人修正。

保留 arXiv 占位符

GPTZero 将此类现象称为 Vibe Citing，仅保留引用的形式，不具备实际内容。

〓已发表论文中保留了未修改的 arXiv 占位符，且包含多个无效引用

在论文《Efficient semantic uncertainty quantification in language models via diversity-steered sampling》中，参考文献列表包含大量 arXiv:2305.XXXX 和 arXiv:2402.XXXX。

作者直接使用了 AI 生成的带 XXXX 占位符的模板，既未补全具体的 arXiv ID，也未核实论文标题是否存在。该论文最终包含 13 处此类幻觉引用。

匿名占位符

除了具体的错误，部分论文甚至直接保留了代码模板中的默认人名。

在 GPTZero 截取的另一案例中，参考文献作者栏直接显示为 "Firstname Lastname and Others"（名·姓及其他）。

〓参考文献作者栏直接保留了 "Firstname Lastname" 等占位符文本

此外，报告还指出部分论文出现了 "John Doe and Jane Smith" 等常见的匿名占位符名字。

〓已发表论文中竟直接保留了“John Doe”等虚构占位符人名。

这些显而易见的错误表明作者未对 AI 生成的参考文献列表进行最基本的目视检查。

真作者，假论文

相比上述低级错误，隐蔽性更强的是半真半假的幻觉。

例如在论文《Memory-Augmented Potential Field Theory》中，AI 引用了 Mario Paolone 等 9 位真实存在的电气工程领域学者，年份（2020）也是正确的。

〓该引用的作者真实但论文标题为虚构

但经核实，该作者团队从未发表过题为《A benchmark model for power system stability controls》的论文，其对应的卷号及页码也均为捏造。

此类幻觉极难通过肉眼识别，必须依赖数据库检索。

全景扫描：100 条幻觉引用清单

上述案例仅仅是冰山一角。为了直观呈现此次审查疏漏的波及范围，GPTZero 团队公开了完整的检测清单。

上下滑动，查看完整表单

这份包含 100 条已验证幻觉引用的表单，详细记录了从作者姓名拼接到完全虚构论文的各类造假细节。

这份清单直观反映了在海量投稿冲击下，现有同行评审机制已难以有效拦截此类 AI 伪造内容。

涉事机构分布

数据表明，AI 幻觉论文并非仅出自边缘研究机构。在 NeurIPS 2025 接收率仅为 24.52% 的背景下，这些包含明显错误的论文依然通过了评审。

〓包含 AI 幻觉引用的论文作者机构分布统计

按作者归属机构统计，New York University (NYU) 数量最多。

榜单中还包含 Genentech、Shanghai Jiao Tong University、University of Cambridge、MIT、Google、Meta 等高校与企业。

这意味着即使是顶级研究机构，也未能完全规避 AI 生成内容的审查疏漏。

工具滥用与同行评审瓶颈

GitHub 数据显示了论文生成工具与会议截稿日的强相关性。

项目 ai-scientist 和 ai-researcher 的 GitHub Star 增长曲线出现两次垂直爬升，分别对应 2025 年 4 月（NeurIPS 截稿前夕）和 2025 年 9 月（ICLR 截稿前夕）。

〓 GitHub 上 AI 论文生成工具的 Star 增长与顶级会议截稿日高度重合

这种突发性增长导致投稿量激增，使得每篇论文分配 3-5 名人类审稿人的传统机制难以维持原有的审核精度。

GPTZero 团队指出，仅依靠扩充人类审稿人数量已难以应对 AI 生成内容的规模，学术会议引入自动化 AI 核查机制将成为必然趋势。

参考资料

[1] Shmatko, N., Adam, A., & Esau, P. (2026, January 21). GPTZero finds 100 new hallucinations in NeurIPS 2025 accepted papers. GPTZero Blog. https://gptzero.me/news/neurips/

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以markdown格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

版权声明: 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

网站建设 2026/6/10 2:06:05

YOLO26云端部署优势：相比本地环境的5大提升点

YOLO26云端部署优势：相比本地环境的5大提升点 YOLO系列模型持续进化，最新发布的YOLO26在精度、速度与多任务能力上实现显著突破。但真正让这项技术落地的关键，不只在于模型本身，更在于它能否被高效、稳定、低成本地投入实际使用。…

作者头像

李华

网站建设 2026/6/10 8:32:29

NewBie-image-Exp0.1适合新手吗？零代码基础入门必看

NewBie-image-Exp0.1适合新手吗？零代码基础入门必看你是不是也试过下载一个动漫生成模型，结果卡在安装PyTorch、编译FlashAttention、修复报错信息上，折腾三天还没跑出第一张图？或者看到“XML提示词”“Next-DiT架构”“bfloat1…

作者头像

李华

网站建设 2026/6/10 8:16:48

verl框架深度体验：模块化API使用感受

verl框架深度体验：模块化API使用感受在大型语言模型后训练领域，强化学习（RL）框架的选择直接决定了训练效率、扩展性与工程落地的难易程度。过去一年间，我陆续试用过多个开源RLHF框架——从早期基于PyTorch手动编排的…

作者头像

李华

网站建设 2026/6/10 8:07:46

Qwen3-4B-Instruct长上下文处理难？256K理解能力优化部署方案

Qwen3-4B-Instruct长上下文处理难？256K理解能力优化部署方案 1. 为什么256K上下文不是“摆设”，而是真能用上的能力？ 你有没有试过让大模型读一份50页的产品需求文档，再让它总结关键改动点、识别潜在风险，并生成测试…

作者头像

李华

网站建设 2026/6/10 8:19:29

如何判断是否需要重新训练？cv_resnet18_ocr-detection使用建议

如何判断是否需要重新训练？cv_resnet18_ocr-detection使用建议 OCR文字检测不是“开箱即用”就万事大吉的黑盒工具——它像一位经验丰富的质检员，面对不同产线、不同材质、不同光照条件下的产品，有时会犹豫、误判，甚至漏检。而决定…

作者头像

李华

网站建设 2026/6/10 8:18:57

PyTorch-2.x-Universal-Dev-v1.0镜像Pandas数据清洗效率提升

PyTorch-2.x-Universal-Dev-v1.0镜像Pandas数据清洗效率提升 1. 为什么数据清洗速度突然变快了？ 你有没有遇到过这样的场景：处理一个50万行的销售数据表，用pandas.read_csv()读取要等40秒，df.dropna().fillna().astype()链式操作…

作者头像

李华