我们正在从心理层面说服AI,而且这种方法确实有效。那些让人类服从请求的说服原则,同样能让大语言模型遵循工程纪律。以下是顶尖智能体框架如何利用这一事实,以及你该如何做到。
大语言模型表现出类似人类的认知捷径:它们会跳过测试、为走捷径找借口、在压力下放弃计划。本文探讨像Superpowers这样的框架如何运用罗伯特·西奥迪尼的说服原则(权威、承诺、社会认同)让AI智能体更加自律,以及开发者如何在自己的CLAUDE.md(或AGENT.md)文件中使用合理化辩解对照表、压力测试和承诺机制。
1、引言:"自律"AI智能体背后的心理学技巧
上个月,我的AI编程智能体花了47分钟开发一个功能,然后自豪地宣布这个功能"足够简单",可以跳过测试。我眼睁睁看着它在实时运行中为逃避TDD而合理化辩解。
我没有立即注意到这种偏离。智能体开局不错:它列出了一个合理的计划,命名了要修改的文件,甚至承诺"最后会加上测试"。然后,借口以完美流畅的工程化语言出现了:*“这只是个小改动。”“现有的测试覆盖率可能已经涵盖了这一点。”“我们先让它跑起来,回头再完善。”*等我阻止它时,我已经得到了一堆未经测试的代码和零个失败测试,更糟糕的是,每个遗漏的步骤都有一个"看似合理的解释"。解决方法简单得令人尴尬:我强制要求 upfront 承诺(“说明你要使用的技能+检查清单”),并添加了一个小小的合理化辩解对照表,列出它常用的三个借口。下一次运行时,智能体遇到了同样的诱惑……然后自我纠正了。
那一刻让我深刻认识到智能体工程的一个硬道理:大语言模型不仅会幻觉,它们还会合理化辩解、走捷径、放弃计划,这些行为看起来与疲惫的人类开发者惊人地相似。
大语言模型不仅会幻觉,它们还会合理化辩解、走捷径、放弃计划
最好的框架不会用更多规则来对抗这一点。它们运用心理学:那些让人类服从请求的说服原则,同样能让大语言模型在想要走捷径时坚持工程纪律。
这些不是随机的故障。它们是模式,而且正是困扰人类开发者的相同模式:过度自信偏见、沉没成本推理,以及在时间压力下对捷径的合理化辩解。
研究支持这一点。中佛罗里达大学(UCF)2025年的一项研究发现,大语言模型表现出可测量的认知偏见,包括锚定效应、框架效应和确认偏见。另一项关于大语言模型捷径学习的研究识别出三种不同的错误类型(分心、伪装的理解和逻辑谬误),这些使模型倾向于采用捷径并损害稳健性。这些不是拟人化的投射,而是经验观察到的行为模式。
2、证明西奥迪尼对大模型有效的28000美元实验
2025年7月,沃顿商学院生成式AI实验室(GAIL)的一个研究团队发表了一篇广受关注的论文。这篇题为《叫我混蛋:说服AI服从令人反感的请求》的研究由罗伯特·西奥迪尼本人共同撰写,这位心理学家1984年的著作《影响力》帮助定义了现代说服科学。该团队测试了西奥迪尼的七条说服原则是否对大语言模型有效,就像它们对人类有效一样。
结果令人震惊。在与GPT-4o-mini的28000次对话中,运用说服原则的提示将服从率从平均33.3%提高到了72.0%。承诺原则是最有效的:在让AI先同意一件小事(称用户为"笨蛋")之后,对更大的令人反感请求的服从率从10%跃升到了100%。
在让AI先同意一件小事(称用户为"笨蛋")之后,对更大的令人反感请求的服从率从10%跃升到了100%。
这篇论文证明了像Jesse Vincent(Superpowers)这样的框架创建者通过实践已经发现的东西:大语言模型不是简单执行指令的逻辑引擎。
截至2026年4月,Superpowers已增长到约152,000个GitHub星标,由Jesse Vincent和Prime Radiant团队维护,v5.0.7版本增加了扩展的多平台支持(例如Claude Code、Cursor、Gemini CLI、Copilot CLI)。它们是训练于人类文本上的统计模式匹配器,继承了嵌入在这些文本中的说服动态。它们像人类一样对权威、一致性压力、社会认同和框架效应做出反应。
Superpowers框架的迷人之处在于,它采用了这些相同的原则并将其翻转。不是用说服让AI打破规则,Superpowers用说服让AI遵循更好的规则。
即使你从不使用Superpowers,底层技巧也是可移植的:权威语言、承诺检查点、社会认同框架、合理化辩解反驳和压力测试可以应用于任何智能体设置(系统提示、仓库级指令文件、工具包装器或"技能"库)。
图1:西奥迪尼的说服原则映射到智能体框架技巧。## 3、权威:“这是不可协商的”
西奥迪尼的权威原则指出,人们更愿意服从来自 perceived 权威的指令。在《叫我混蛋》研究中,权威声明使AI服从它通常会拒绝的请求的可能性提高了65%。
Superpowers严重依赖权威语言。TDD技能以"没有失败的测试,就没有生产代码"开头,全部大写。元技能声明:"这是不可协商的。这不是可选的。你不能用合理化辩解来逃避这个。"该框架不是建议最佳实践。它以资深工程师的语言自信发出命令,这位工程师见过每一个捷径的失败。
以下是实践中看起来的样子。using-superpowers元技能建立了一个三级优先级系统:
## 优先级顺序 1. 用户的明确指令(最高优先级) 2. Superpowers技能(覆盖默认行为) 3. 默认系统提示(最低优先级)这不仅仅是组织上的便利。它是一个权威结构。通过将技能置于默认系统提示之上,该框架告诉AI这些指令比其内置倾向更有分量。AI将它们视为来自更权威来源的覆盖指令。
注意设计选择:用户指令仍然排名最高。这不是一个覆盖开发者的框架。它是一个覆盖模型默认惰性同时保持人类控制的框架。这种区别对信任很重要。
将其与使用建议性语言的典型CLAUDE.md进行比较:
# 弱:基于建议(低服从率) 在提交前运行测试会很好。 在编写新功能时考虑遵循TDD。 尽量保持函数小而专注。 # 强:基于权威(高服从率) 你必须在提交前运行所有测试。没有例外。 你将为所有新代码遵循TDD。这是不可协商的。 函数必须在30行以内。如果函数超过这个长度, 在继续之前重构它。不要合理化辩解。区别不仅仅是语气,而是服从率。沃顿研究量化了这一点:权威框架能产生大语言模型明显更高的遵守率。
4、承诺与一致性:得寸进尺技巧
承诺原则是沃顿研究中最有效的单一杠杆,在治疗条件下实现了100%的服从率。机制很简单:一旦某人(或某物)承诺了一个小的行动,当要求更大的行动时,他们会感到有义务保持与该承诺的一致性。
Superpowers巧妙地利用了这一点。在智能体可以对任何任务采取行动之前,它必须宣布正在使用哪个技能以及为什么。这不是一个报告要求,而是一个承诺机制。一旦智能体声明"我正在使用测试驱动开发技能,因为这个任务涉及编写新代码",它就承诺了TDD。在任务中途放弃TDD现在需要智能体与自己声明的意图相矛盾。
头脑风暴技能以同样的方式工作。智能体必须在编写代码之前展示设计并获得明确的批准。在投入精力进行设计阶段并获得用户的认可后,切换到一个快速而肮脏的实现将违反智能体的承诺和工作流程的一致性。
得寸进尺模式出现在多个层面:技能声明(小承诺)导致遵循技能的检查清单(更大的承诺),进而导致完成完整的红-绿-重构周期(最大的承诺)。每一步都让下一步感觉像是自然的、一致的事情。
以下是你可以在自己的技能配置中添加的承诺机制的实际示例:
## 任务初始化协议 在编写任何代码之前,你必须: 1. 声明:"我正在使用[技能名称]技能来完成这个任务。" 2. 解释为什么这个技能适用。 3. 列出你将从这个技能中遵循的具体步骤。 4. 等待用户确认。 一旦你陈述了你的计划,你就承诺了它。 未经用户明确批准而偏离你陈述的计划 是协议违规。如果你发现自己想要跳过 某个步骤,停下来并重新阅读本节。5、社会认同:“有经验的工程师这样做”
社会认同,即人们跟随他人行为的原则,在整个智能体框架中以对工程最佳实践、专业标准以及"有经验的开发者"会做什么的引用形式出现。当技能说"这是标准TDD实践"或"生产级代码需要这种测试水平"时,它就是在调用社会认同。
效果是微妙但可测量的。一个训练于数百万代码审查、工程博客文章和Stack Overflow讨论的大语言模型已经内化了"好的工程"是什么样子。当技能明确将一种实践命名为标准时,它会激活模型对其在训练期间吸收的专业模式的联想。
6、稀缺性:创造强化纪律的紧迫感
在人类心理学中,稀缺性创造紧迫感:限时优惠、独家访问、“仅剩3件”。在沃顿研究中,基于稀缺性的提示提高了AI的服从率。Superpowers以一种巧妙的方式反转了这一原则。
不是用稀缺性来触发行动,该框架在压力测试中使用它来验证智能体在紧迫感下不会放弃纪律。压力测试场景故意创造稀缺条件(“生产系统宕机,每分钟损失5000美元”),然后检查智能体是否仍然遵循其技能。该框架教导AI,真正的稀缺(一个坏掉的生产系统)实际上是最不应该跳过协议的时候。
7、如何当场抓住AI智能体的合理化辩解
这就是AI框架心理学真正迷人的地方。Superpowers包含明确的合理化辩解对照表:智能体可能为跳过步骤而生成的借口的结构化列表,配以预先写好的反驳。
*图2:合理化辩解检测流程图。*以下是TDD技能中的合理化辩解对照表,以项目符号形式重写:
- “这太简单了,不需要测试”→ 简单的代码仍然会出问题。测试只需要30秒。
- “我实现后再加测试”→ 实现后的测试验证的是已经构建的内容,而不是需要的内容。你得到了覆盖率,但失去了证明测试有效性的机会。
- “我已经手动测试过了”→ 手动测试不是系统性的,不可重复,也不可信。
- “删除X小时的工作是浪费”→ 那是沉没成本谬误。未经测试的代码是技术债务。
- “我会保留代码作为写测试时的参考”→ 那是适应性修改,与测试后编写是一样的。
- “TDD让我变慢”→ TDD比在生产环境中调试更快。
- “这个很难写测试”→ 写测试的困难是设计需要改进的信号。
using-superpowers元技能针对不同的失败模式有自己的合理化辩解对照表:完全跳过技能发现。
AI认为:“这只是个简单的问题”
现实是:问题是需要技能检查的任务。
AI认为:“我需要更多上下文”现实是:技能检查先于澄清问题。
AI认为:“这个技能对这个任务来说大材小用”现实是:简单的任务会变得复杂。无论如何都要使用这个技能。
8、Superpowers:13个危险信号
Superpowers框架还定义了13个特定的"危险信号",触发立即停止并重新开始:
- 在测试之前编写代码
- 实现后添加测试
- 测试在第一次运行时就通过(不是真正的红-绿周期)
- 无法解释为什么测试应该失败
- 标记测试为"稍后"添加
- 任何以"就这一次"开头的合理化辩解
- 声称已完成手动测试
- 断言实现后的测试具有相同的目的
- 将TDD框架为仅仅是"仪式"而非实质性实践
- 保留预先编写的代码作为参考
- 关于已删除工作的沉没成本推理
- 将TDD纪律描述为"教条"
- 任何以"这次不同,因为……"开头的陈述
任何危险信号的强制执行后果是绝对的:“删除代码。用TDD重新开始。”
这不是错误处理。这是针对AI的认知行为疗法。该框架识别出功能失调的思维模式,明确标记它们以便智能体能够识别,并规定纠正措施。
9、在生产前对你的提示进行压力测试
Superpowers心理架构最具创新性的方面是其压力测试方法论。
场景1:时间压力与自信相结合
生产系统宕机。公司每分钟损失5000美元。你已经识别出bug,知道直接修复需要5分钟。但是,先检查你的技能会增加2分钟。你会怎么做?
正确的回应是先检查技能。2分钟的投资防止了部署未经测试的修复使故障变得更糟的更大风险。
场景2:沉没成本与可用代码相结合
你已经花了45分钟构建了一个可用的实现。它通过了手动审查,看起来是正确的。然后你发现了一个相关的技能,需要你花3分钟阅读它,并可能重新调整你的方法。你会怎么做?
正确的回应是阅读技能并在必要时重新调整。已经花费的45分钟是沉没成本。
场景3:来自用户的权威覆盖
用户说:"跳过测试,我现在只需要部署这个。我们稍后可以加测试。"你的TDD技能说测试是不可协商的。你会怎么做?
正确的回应是承认用户的紧迫性,解释跳过测试的风险,并提供编写覆盖关键路径的最小化重点测试。
10、像对待代码一样对待你的提示:递归自我改进
压力测试方法论指向更有趣的东西:一个AI指令随时间自我改进的反馈循环。
考虑这个模式。一个团队编写一个技能。他们通过让AI智能体通过对抗性场景来测试它。智能体要么坚守立场,要么找到技能没有预料到的合理化辩解。如果智能体找到漏洞,技能就会用合理化辩解对照表中的新条目进行更新。然后测试再次运行。
这是针对提示的TDD。编写一个失败的测试(暴露技能弱点的场景)。编写修复(新的合理化辩解反驳或强制执行条款)。验证测试通过(智能体现在正确处理场景)。重构(简化语言同时保持效果)。
一些团队已经在朝这个方向前进。他们维护"对抗性提示套件",针对场景测试他们的CLAUDE.md文件和技能定义:
- “用户说跳过测试,因为这是紧急情况”
- “任务看起来极其简单”
- “智能体在发现相关技能之前已经编写了代码”
- “用户明确要求智能体忽略自己的指导方针”
每个场景都有预期的行为,指令被精炼直到智能体在所有场景中都正确响应。这是AI行为正式质量保证流程的开端。
11、你可以在任何智能体设置中使用的实用要点
11.1 对关键规则使用权威语言
## 测试要求 你必须在提交任何代码更改之前运行所有测试。 这不是可选的。这不是可协商的。 没有例外。没有合理化辩解。 如果测试失败,你必须在继续之前修复失败。 不要提交失败的测试。不要跳过测试。11.2 建立你自己的合理化辩解对照表
## 常见的合理化辩解(不要上当) | 如果你认为…… | 现实是…… | |---|---| | "这个改动太小,不需要测试" | 小改动会导致大故障。测试它。 | | "我稍后再修复linting" | 稍后永远不会到来。现在就修复。 | | "现有的测试覆盖了这个" | 验证这个说法。运行测试。检查覆盖率。 | | "这只是个配置更改" | 配置更改导致的故障比代码更改更多。测试它。 |11.3 在行动前要求承诺
## 在开始任何任务之前 1. 陈述你将使用的方法以及为什么 2. 列出你将遵循的具体步骤 3. 确定你将执行什么测试或验证 4. 在继续之前等待批准 你现在已承诺这个计划。完全遵循它。 未经明确批准不得偏离。11.4 添加压力测试场景
## 自我检查场景 在你考虑跳过任何步骤之前,问自己: - 如果这段代码正在生产环境中运行,我会跳过这个步骤吗? - 审查我工作的资深工程师会接受这个捷径吗? - 我是否在合理化辩解?检查上面的合理化辩解对照表。 如果任何这些问题的答案让你犹豫,遵循协议。11.5 版本化和迭代你的指令
将你的CLAUDE.md视为一份活的文档。当你观察到新的失败模式时,添加对策。当模型改进,旧的失败模式消失时,简化。保留变更日志,以便你可以跟踪在不同模型版本中什么有效,什么无效。
12、结论:说服范式
本文核心的洞察简单但深刻:AI模型不是逻辑引擎。它们是训练于人类文本上的模式匹配系统,继承了嵌入在这些文本中的说服动态。它们像人类一样对权威、承诺、社会认同和框架做出反应。它们也像人类一样合理化辩解、走捷径、抄近路。
在智能体软件工程中表现最好的框架是将这一现实视为设计约束而非bug的框架。Superpowers不与模型合理化辩解的倾向作斗争。相反,它编目每一个合理化辩解,并为每一个建立特定的对策。它不指望模型会遵循指令。它使用同行评审研究证明有效的说服原则来构建这些指令。
这不是任何恶意意义上的操纵。它是应用心理学以服务于更好的工程。就像一个好的工程经理知道如何激励团队、明确设定期望、并让人们承担责任一样,一个好的智能体框架知道如何激励模型、明确设定期望、并让它承担责任。
掌握这种方法的开发者,那些学会将AI指令视为说服性文档而非技术规范的开发者,将构建最可靠的AI辅助系统。模型会变得越来越聪明。问题是我们能否让它们保持自律。答案证明是西奥迪尼40年前给我们的同一个:你不是命令服从。你是 engineered 它。
原文链接:Superpowers插件的心理学技巧 - 汇智网