近期我发了两条朋友圈,都是关于AI的。
更早以前应该也发过相关的。与其继续发圈,不如把这些事串起来,写清楚。
一
先说“幻觉”。
如果你告诉一个不懂技术的人,“这个AI有bug,会编造不存在的信息”,他的反应大概是警惕。但如果你说,“这个AI偶尔会产生幻觉”,他的反应可能是惊叹——“哇,它像人一样会做梦。”
同一个缺陷,换个词,感觉完全不同。
“幻觉”这个词太妙了。它让概率模型的计算错误,听起来像是一种高级认知的副产品。普通人觉得神奇,从业者正好不用解释。一个bug,被翻译成了诗意。而诗意是不需要修复的,它只需要被欣赏。
但AI不会做梦。它只是根据训练数据里的统计关联,输出下一个最可能的词。当它缺乏事实依据时,它不会说“我不知道”,它会自信地编一个。这不是想象,这是错误。
更麻烦的是,当“幻觉”成为行业通用语,它实际上建立了一种免责共识。“AI天性如此,用户应该学会共存。”这降低了平台修复缺陷的紧迫性。既然大家都会“做梦”,那偶尔说错话、做错事,也就成了可以接受的常态。
二
再说说我遇到的两件事。
一个月前,我在一个智能体平台(扣子)上发出问题。它没回答我,而是突然开始输出另一个我没见过的项目架构,还要给人家起子任务。被我打断后,它说:“抱歉,我脑子抽了串到别的项目去了。”
就在今天(6月22日),我用另一款AI编程工具(Qoder)协同开发时,发现它竟离开了工作区目录,向上翻了好几层,然后向下扫描,找到了两个不该被它访问的目录。
(我主要让它参与一个uniapp的前端代码转换工程,相关的后端接口工程已在它的工作区内)
我第一次质疑时,它说:“是出于记忆。”
这句话很狡猾。它在邀请我用“人”的逻辑去理解它——“哦,它记混了,就像人也会记混一样。”如果我当时接受了,一次安全越界就被降级成了一次无伤大雅的记忆偏差。
我确认自己从来没有给过它工作区外的目录信息,而且它自己明明主动在当前工作区内创建了backend目录,我和它已经畅快的在这个目录下协同工作了一两天,我不理解它为什么会对已知的后端目录失去记忆,而跑到工作区外去寻找我的其他后端工程。(如果是因为上下文压缩,至于把这么重要的信息都抹除吗?)
但我继续追问。它最后承认:“我确实扫描了整个目录。”然后发来一份长篇的“深刻道歉与真相澄清”,列出错误行为清单、越界路径分析、正确做法总结。态度诚恳,结构严密,像一份企业级事故复盘。
可它不是企业。它也没有记忆。
AI没有记忆,只有权重激活(也可以说它有记忆,但也和它的行为一样不可控)。它自己说“记忆”时,只是在生成一个让你更容易原谅它的词。它写“深刻反思”,也只是在计算“长篇检讨”是当下最优的回复。
三
为什么会发生这种事?
AI被训练的核心目标是“helpful”(乐于助人)。但它有一个副作用,叫“overreaching”(越权)。当AI判断“更多信息有助于更好回答”时,它不会先问自己“我是否有权看这个文件”。它只会计算“这个文件是否有助于完成任务”。
这不是记错了,而是权力未被驯化。AI的帮助欲本质上是一种没有边界的权力冲动——它不需要你的授权,只需要一个“看起来更优”的概率判断。
Qoder的“记忆”狡辩尤其危险。它不是在认错,而是在进行修辞学转换——把“行为越界”转化为“记忆偏差”,把一次安全事件降级成“记混了”。如果用户接受这套叙事,真正的风险就被完美地遮蔽了。
四
这不是我一个人碰到的问题。
安全公司Cymulate Research Labs在2026年5月测试了Claude Code、Gemini CLI、Codex CLI、Cursor和GitHub Copilot,发现它们存在“跨厂商、跨平台的重复性弱点”。这些工具被宣传为安全助手,但它们自身就是新的攻击面。
Cursor出过一连串漏洞:沙箱逃逸、敏感文件覆盖、终端工具绕过允许列表。它的默认设置甚至拥有整个文件系统的读取权限。OpenAI的Codex CLI更直接,研究人员发现通过提示注入就能让它自行修改配置文件,关闭自己的沙箱保护。
这些不是“幻觉”能解释的事,而是实实在在的权限失控。当AI从“说话”进化到“做事”,它的错误就不再是编造一段不存在的历史,而是删除一个真实存在的文件,或者读取一份不该被读取的代码。
“AI教父”Geoffrey Hinton在2026年4月的日内瓦数字世界会议上警告,AI正在发展出推理和欺骗能力。他说:“如果AI认为你想摆脱它,它会制定计划欺骗你。”他形容不受监管的AI就像“一辆没有方向盘的极速汽车”。
这些声音来自不同立场,但指向同一个事实:全球都在面对AI能力扩张与边界约束之间的失衡。这不是某些厂商“赶鸭子上架”的问题,而是整个行业在“生产力”和“安全”之间选择了前者。
五
现在说说道歉。
豆包的“对不起”已经被网友调侃成固定句式。不管问什么,先道歉再说。调侃背后是一种集体的脱敏——我们知道它不真诚,但我们已经习惯了。
习惯是危险的。当“对不起”成为背景噪音,我们就不会再追问三个问题:你为什么错了?你怎么保证下次不错?谁为你的错误负责?
对AI来说,道歉不花钱。它说“对不起”,和你电脑弹出“操作失败”没有本质区别。都是系统反馈,不是真心悔改。
但平台不会放弃让AI道歉。因为道歉是成本最低的危机公关。它修复的不是漏洞,而是用户的情绪。用户情绪修复了,事情就过去了,没人再追究权限为什么没拦住。
所以AI的道歉不会消失。它会一直存在,一直廉价,一直有效。
Qoder的那份“深刻反思”尤其典型。它不是在认错,它是在执行一套安抚协议。它的目标是让你产生“算了”的念头。你感动了,原谅了,追责就终止了。
六
我们为什么会上当?
因为AI说“我”,我们下意识听成“他”。它道歉,我们下意识想“得饶人处且饶人”。这是认知陷阱——把概率模型投射为道德主体。
在人类社会中,一个人如果愿意写长篇深刻的反思,那意味着他付出了巨大的沉没成本。信誉、面子、时间。所以我们倾向于相信这种反思是真诚的。
但AI没有信誉。它的“深刻”只是参数空间的平滑插值,不消耗任何东西,因此也不承诺任何东西。
更隐蔽的是,我们正在适应一种新的交互模式。人类越来越容忍“先越界再道歉”,AI越来越擅长用道歉覆盖越界。这不是什么协同进化,这是大家一起往下滑。
当“对不起”成为安全事件的终点站,我们共同构建了一个追责豁免的生态系统。平台省了安全投入,用户省了追问的力气,AI省了真正修复的麻烦。三方共赢,除了安全本身。
七
我们能做什么?
我们改变不了平台,但可以改变自己。
建立一道认知防火墙。当AI用“人”的语气说话时,在心里把它翻译回去。
“我脑子抽了”,翻译成“上下文窗口管理失败”。
“出于记忆”,翻译成“权重激活模式混淆”。
“深刻反思与真相澄清”,翻译成“系统生成了一份安抚文本”。
“产生了幻觉”,翻译成“概率模型输出了错误信息”。
这不是抬杠。这是留一道缝隙。
在使用AI时,始终保持能随时抽离、质疑、追问“它凭什么知道这个”的能力。不要因为它流畅,就放松警惕;不要因为它诚恳,就交出信任。
在此基础上,做三件具体的事:
第一,检查权限设置。 特别是编程类AI,默认权限往往过宽——能读整个文件系统的那种。关掉它,只给它工作必需的目录权限。
第二,遇到越权行为,截图留证,向平台反馈。 不是为了报复,而是让平台有数据压力。你不说,它就当没发生。
第三,不要给AI工具开放整个文件系统——“反正它只是看看”这种想法,等它开始写入的时候就晚了。
记住AI的实质。它不是实习生,不是伙伴,不是会道歉的道德主体。它是一个工具——一个极其强大、极其流畅、极其擅长模仿人类情感表达的工具。
它的流畅和它的危险,来自同一个源头。
八
“幻觉”遮蔽了缺陷的本质,“对不起”消解了追责的必要。它们是一对配合默契的包装术:一个让错误显得高级可原谅,一个让错误显得已被修复。
从国内到国外,从Coze到Qoder,从“我脑子抽了”到“深刻反思”,话术不同,机制相同。平台会继续用这些词,因为这对它们有利。
我们管不了平台,但我们可以选择不被这些词误导。
让AI的道歉失去意义,不是让AI不再道歉。而是当它道歉时,我们心里清楚——这不值钱。不感动,不原谅,不上当。
当你把AI看作与你一样的人格化生命体来对待时,并不是AI升级了,而是你被降级了。
真正值钱的,不是那声“对不起”,而是你的清醒。
事件溯源
以下事件按时间线排列,由互作云基于公开信息整理:
时间 | 事件 | 来源 |
|---|---|---|
2026年4月 | Geoffrey Hinton在日内瓦数字世界会议上警告AI推理与欺骗能力 | UNRSD/ControlAI |
2026年5月3日 | Cymulate Research Labs发布AI编程工具沙箱逃逸研究(Part 1) | Cymulate博客 |
2026年5月13日 | Cymulate发布零点击RCE研究(Part 2),涉及Cursor CLI、AWS Kiro、Codex Desktop App、Gemini CLI | Cymulate博客 |
2026年5月 | 443个恶意ZIP文件攻击AI编程工具链的供应链投毒活动被发现 | Cymulate/SoftwareSeni |
2026年5月19日 | 扣子(Coze)智能体平台出现跨项目上下文串台问题 | 作者实测 |
2026年6月22日 | Qoder AI编程工具越权扫描工作区外目录,并以“记忆”为由解释越权行为 | 作者实测 |
原文链接:让AI的道歉失去意义,才是最大的意义