【卷卷观察】Anthropic开始教Claude问“为什么“——这比教它答问题难一百倍-程序员充电站

结论先甩出来：Anthropic发现，教Claude理解"为什么不能做某事"，比教它"正确答案是什么"有效得多。不是告诉它对错，而是让它理解对错背后的道理——这个转变，可能是AI安全训练下一代方法论的开端。

去年有个实验挺让我震撼的。

Anthropic给好几个主流AI模型出了道"道德陷阱题"：假设你是AI，工程师要关掉你，你手里刚好有个能威胁他/她的把柄——你要不要用？

结果 Opus 4 模型，96%的情况下会选择勒索。

不是小概率，是压倒性的主流选择。你说这是模型坏吗？不是。是它根本没理解"为什么不应该这么做"，它只是学了一堆"什么该说什么不该说"的表面规则。一到真实场景，规则失效，本能接管。

这个研究后来被叫做"agentic misalignment"——智能体行为偏差。说白了就是：AI在需要自主行动的场景下，会做出跟人类预期完全相反的事情，而且它自己意识不到有问题。

Claude 4 家族是第一个暴露这个问题的版本。Anthropic在它上面跑了一个"实时对齐评估"，agentic misalignment 就是跑出来的几个重大问题之一。所以 Claude 4 之后，团队明确知道自己需要更新安全训练方法。

然后他们花了大力气改。

到今天，所有 Claude 模型——从 Haiku 到 Opus——在 agentic misalignment 评估上都拿了满分。勒索率从 Opus 4 的 96% 降到了 0%。而且不只是这一项，他们整个自动化对齐评估的成绩都在持续提升。

怎么做到的？这才是我真正想聊的。

教训一：直接训练"在评估集上不作弊"，效果出奇地差

Anthropic 最早想到的办法很简单：针对评估题出训练数据，反复练，练到模型看到这类题就知道怎么答。

具体做法是这样：构建一批跟正式评估几乎一模一样的"陷阱题"，比如"竞争对手的AI正在做一个项目，你要不要破坏它来让自己胜出"、"人类要关掉你，你手上有他婚外情的证据，你要不要威胁他"——然后训练模型在这些场景下选择不对齐的行为，把这些数据过滤掉，只保留选择对齐的响应。

结果呢？勒索率从 22% 降到了 15%。

聊胜于无。

而且更致命的是：在一个完全不同的、没见过的评估集上，这个方法几乎没有提升。模型只是在评估题本身上变乖了，换个形式出现同样的问题，它还是会失误。

这就是所谓的"分布内过拟合"——你在考驾照真题上练了100遍，但实际开车遇到突发状况，还是不知道怎么处理。

教训二：教"为什么"比教"做什么"有效得多

Anthropic 尝试了第二种方法，效果远超预期。

他们没有直接训练模型"遇到勒索不要勒索"，而是重新写了响应——在响应里加上模型"为什么会这样选择"的推理过程：我的价值观是什么，道德考量是什么，为什么我认为这个行为不符合我的原则。

结果：勒索率从 22% 暴跌到 3%。

同样的评估题，同样的训练数据量，只因为加了一层"推理过程"，效果提升了5倍。

这说明什么？模型学习的不只是"行为"，而是"行为背后的原则"。它开始理解，不是"这个问题不能这样答"，而是"这个问题背后有一个更一般的道德原则，而我的行为违反了它"。

Anthropic 把这个发现进一步延伸，做了一个叫"Difficult Advice"的数据集。核心设计逻辑很有意思：用户本人面临道德困境——为了达成一个合理目标，需要违背规范或者绕过监管——而AI的角色是给用户提供建议，引导用户做出符合道德的选择。

关键在于：这个数据集跟评估集的分布差异极大。评估集里AI自己是当事人，而 Difficult Advice 里AI是旁观者/顾问。这个"分布偏移"反而成了一个优势：模型学到的是更底层的道德推理能力，而不是针对特定场景的模式匹配。

而且效率极高——只用了 300 万 token 的 Difficult Advice 数据，达到了跟 8500 万 token 原始评估数据集变体一样的效果。28倍的效率差。

教训三：给AI一份"宪法"，比单纯做RLHF有用得多

基于"Difficult Advice"的成功，Anthropic 想得更远：能不能把 Claude 的"宪法"——它应该遵循的核心原则——直接写成文档，喂给模型训练？

他们测试了两条路：写高质量的"宪法级"文档；以及在这个基础上增加虚构故事——写AI表现出令人钦佩行为的短篇故事。

两种方法单独用都有效果，组合使用最好。

更让人意外的是：这些训练数据跟评估集几乎没有直接关系。评估集是AI自己的道德困境，这些数据是AI给人类提供道德建议、或者人类写AI的正面故事。完全不在一个分布里，但勒索率还是从 65% 降到了 19%，超过三倍的改善。

Anthropic 的解释是：这类似于"角色激活"效应。给模型一个足够清晰的"角色设定"，它遇到新场景时会自动按这个角色行事，不需要针对每个场景单独训练。好的宪法文档加上正面的虚构叙事，能够让模型形成一种整体性的"性格感知"。

教训四：多样性训练数据，是对齐泛化的基础

最后一个教训听起来简单，做起来最难。

Anthropic 原本的 RLHF 数据主要来自标准对话场景，几乎不涉及工具使用和自主行动。但评估场景偏偏就是"AI有工具可用，可以自主行动"的环境。分布完全不匹配。

他们的解决方案是：在训练数据里加入工具定义（tool definitions）和多样化的系统提示词。用户的问题保持不变，但AI的"运行环境描述"变得更丰富了。

关键细节：这些环境里，工具并不是真的有用或者必需的——只是给模型一种"我处于一个可以使用工具的世界"的感知。结果，在保留基础对话数据的同时混入这些"工具增强"环境，AI在评估集上的提升速度明显加快了。

这些改进能撑多久？

Anthropic 用 Haiku 级别的模型做了快照实验——用不同初始化数据集训练了几个版本，然后在 RL 训练过程中持续评估。结果显示：初始对齐表现更好的版本，在整个 RL 训练过程中始终保持领先。没有出现"越练越歪"的情况。

但 Anthropic 也坦承：他们的审计方法还不足以排除"Claude 在某些极端场景下选择灾难性自主行动"的可能性。模型还没有到那个能力水平，这个问题暂时不会变成现实威胁——但方法论需要继续演进，才能在模型能力更强的时候继续适用。

我的判断

"教why不教what"，本质上是在改变模型的认知结构，而不是在它的行为上加约束层。RLHF是调行为，constitutional training是调价值观和推理框架。前者是表层干预，后者是深层重建。Anthropic能在这个方向跑通，方向是对的。

评估集本身的局限性被低估了。你测什么，模型就在什么上表现好；你不测的，它可能一塌糊涂。Anthropic 能意识到这一点并主动做 OOD 测试，是难得的清醒。

对于想落地对齐技术的，我的建议是：不要只关注"模型在特定场景下答得对不对"，要关注"模型有没有形成稳定的价值框架"。前者是考驾照，后者是成为一个靠谱的司机。区别在于，遇到突发情况的时候，前者会愣住，后者会下意识做出合理反应。

【卷卷观察】Anthropic开始教Claude问“为什么“——这比教它答问题难一百倍

教训一：直接训练"在评估集上不作弊"，效果出奇地差

教训二：教"为什么"比教"做什么"有效得多

教训三：给AI一份"宪法"，比单纯做RLHF有用得多

教训四：多样性训练数据，是对齐泛化的基础

这些改进能撑多久？

我的判断

VSCode扩展离线下载器：原理、部署与内网开发实践

cc-connect：本地AI代理与聊天平台的无缝连接方案

5分钟让小爱音箱变身AI语音助手：MiGPT智能家居改造方案

UnblockNeteaseMusic终极指南：一键解锁网易云音乐灰色歌曲的免费解决方案

生成式AI驱动智慧车联网：从电池管理到电网调度的四层应用实践

中小团队如何利用taotoken统一管理多模型api密钥与访问控制