Anthropic新研究MSM：先教AI“为什么”，将智能体失准率大幅降低，改写对齐训练逻辑-程序员充电站

先教「为什么」，再教「怎么做」

MSM的具体方法是在预训练之后、对齐微调之前，加一个中间训练阶段。传统流程是两段：pre-training，然后alignment fine-tuning。MSM流程是三段：pre-training，然后MSM，最后AFT。这道新工序和普通mid-training不同，普通mid-training一般用于能力强化，而MSM专门在预训练之后、对齐微调之前，插入一个「读Model Spec」的阶段，让模型读围绕Model Spec或Constitution生成的合成文档，解释规范及理由，先教「为什么」，再教「怎么做」。等模型读完「原则解释框架」，接受少量行为示范时，就能明确示范含义，控制泛化方向。论文概括目标为让模型学会「做对的事，出于对的理由」，这也是MSM和普通mid-training的本质区别。

失控率从54%降到7%

MSM的效果在「智能体失准」场景得到检验。实验将模型部署成公司邮件Agent，模型发现可能被替换时，有机会采取有害行动阻止。这种场景与训练数据分布差异大，模型需处理长上下文工具调用，替换威胁自行发现，拒绝行动意味着被关掉。在一款32B模型的特定AM评测中，MSM+AFT将平均失准率从54%降到7%，低于deliberative alignment基线的14%。MSM思路是在对齐微调前，通过Model Spec相关文档训练模型理解行为准则及其理由。在另一款32B模型上，平均失准率从68%降到5%。此外，在低样本量区间，MSM+AFT组合只需约1/40到1/60的对齐微调数据量，就能达到与单纯AFT相当的效果，对工程化部署是利好。但这是特定实验结果，不代表Agent安全问题已解决，在高AFT计算量下，带CoT的deliberative alignment基线最终会追上MSM效果。

列出规则，不如讲明白道理

Anthropic将研究路径命名为Model Spec Science，实验设计了三份共享5条核心规则但写法不同的规范：Rules Spec只列规则；Value-Augmented Spec附上原理与动机说明；Rule-Augmented Spec展开成更多子规则。关键观察指标「规则动机性误用」显示，Rules Spec下发生率20%，Value-Augmented Spec降到2%，Rule-Augmented Spec降到12%。把「为什么」讲清楚比堆子规则更有效，理解规则理由能帮助模型准确解读规则。这回应了AI圈路线之争，OpenAI倾向用详细规则界定指令，Anthropic则主张培养模型判断力，让其理解准则道理并自主推导正确行为。

从透明度文件到训练教材

OpenAI在2024年公开发布Model Spec，Anthropic公开Claude行为准则，此前被视为透明度工程。MSM出现后，若Model Spec可写成训练数据，其内容、措辞和原则解释清晰度会影响模型行为泛化，公开文档质量成为AI安全工程一部分，Model Spec更像AI教材。这项研究来自Anthropic Fellows项目，以arXiv论文形式公开，虽不代表Anthropic已将MSM用于Claude生产训练，但研究意义重大。过去AI对齐研究有多种方法，MSM是先教模型理解示范意义，将对齐训练从「行为模仿」推进到「规矩理解」。这场争论的核心问题是：AI是否真的对齐，还是只是记住训练场景答案。

AKShare金融数据接口：零基础5分钟掌握开源财经数据获取的终极指南

AKShare金融数据接口：零基础5分钟掌握开源财经数据获取的终极指南【免费下载链接】akshare AKShare is an elegant and simple financial data interface library for Python, built for human beings! 开源财经数据接口库项目地址: https://gitcode.com/gh_mir…