news 2026/5/8 17:36:17

Anthropic新研究MSM:先教AI“为什么”,将智能体失准率大幅降低,改写对齐训练逻辑

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Anthropic新研究MSM:先教AI“为什么”,将智能体失准率大幅降低,改写对齐训练逻辑

先教「为什么」,再教「怎么做」

MSM的具体方法是在预训练之后、对齐微调之前,加一个中间训练阶段。传统流程是两段:pre-training,然后alignment fine-tuning。MSM流程是三段:pre-training,然后MSM,最后AFT。这道新工序和普通mid-training不同,普通mid-training一般用于能力强化,而MSM专门在预训练之后、对齐微调之前,插入一个「读Model Spec」的阶段,让模型读围绕Model Spec或Constitution生成的合成文档,解释规范及理由,先教「为什么」,再教「怎么做」。等模型读完「原则解释框架」,接受少量行为示范时,就能明确示范含义,控制泛化方向。论文概括目标为让模型学会「做对的事,出于对的理由」,这也是MSM和普通mid-training的本质区别。

失控率从54%降到7%

MSM的效果在「智能体失准」场景得到检验。实验将模型部署成公司邮件Agent,模型发现可能被替换时,有机会采取有害行动阻止。这种场景与训练数据分布差异大,模型需处理长上下文工具调用,替换威胁自行发现,拒绝行动意味着被关掉。在一款32B模型的特定AM评测中,MSM+AFT将平均失准率从54%降到7%,低于deliberative alignment基线的14%。MSM思路是在对齐微调前,通过Model Spec相关文档训练模型理解行为准则及其理由。在另一款32B模型上,平均失准率从68%降到5%。此外,在低样本量区间,MSM+AFT组合只需约1/40到1/60的对齐微调数据量,就能达到与单纯AFT相当的效果,对工程化部署是利好。但这是特定实验结果,不代表Agent安全问题已解决,在高AFT计算量下,带CoT的deliberative alignment基线最终会追上MSM效果。

列出规则,不如讲明白道理

Anthropic将研究路径命名为Model Spec Science,实验设计了三份共享5条核心规则但写法不同的规范:Rules Spec只列规则;Value-Augmented Spec附上原理与动机说明;Rule-Augmented Spec展开成更多子规则。关键观察指标「规则动机性误用」显示,Rules Spec下发生率20%,Value-Augmented Spec降到2%,Rule-Augmented Spec降到12%。把「为什么」讲清楚比堆子规则更有效,理解规则理由能帮助模型准确解读规则。这回应了AI圈路线之争,OpenAI倾向用详细规则界定指令,Anthropic则主张培养模型判断力,让其理解准则道理并自主推导正确行为。

从透明度文件到训练教材

OpenAI在2024年公开发布Model Spec,Anthropic公开Claude行为准则,此前被视为透明度工程。MSM出现后,若Model Spec可写成训练数据,其内容、措辞和原则解释清晰度会影响模型行为泛化,公开文档质量成为AI安全工程一部分,Model Spec更像AI教材。这项研究来自Anthropic Fellows项目,以arXiv论文形式公开,虽不代表Anthropic已将MSM用于Claude生产训练,但研究意义重大。过去AI对齐研究有多种方法,MSM是先教模型理解示范意义,将对齐训练从「行为模仿」推进到「规矩理解」。这场争论的核心问题是:AI是否真的对齐,还是只是记住训练场景答案。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/8 17:35:47

【数值策划】笔记

一、数值策划 1、数值策划入门 先看懂数值模型,了解基本常识,熟悉整个工作流程及相应内容 2、入门到进阶 需要0-1的完整项目经历,必须上线后才能验证数值模型(猜想到确认) 3、成长为主数值 从小的数值模型建起&#xf…

作者头像 李华
网站建设 2026/5/8 17:34:56

告别VM自带界面:手把手教你用C# WinForm打造专属视觉检测上位机(含流程控制与结果绘制)

工业视觉检测上位机开发实战:C# WinForm与VM深度集成指南 在工业自动化领域,视觉检测系统已成为质量控制的核心环节。传统视觉软件的标准界面往往无法满足特定产线的个性化需求,而定制化上位机开发能够完美解决这一痛点。本文将深入探讨如何利…

作者头像 李华
网站建设 2026/5/8 17:34:15

深入RK CIF驱动:从buf_wake_up_cnt到reset_work,图解MIPI错误监测与复位全流程

深入解析RK CIF驱动的MIPI错误监测与复位机制 在视频采集系统的开发中,稳定性是衡量驱动质量的重要指标。RK平台的CIF驱动通过一套精巧的错误监测与复位机制,有效解决了MIPI链路中可能出现的各种异常情况。本文将带您深入理解这一机制的设计哲学与实现细…

作者头像 李华
网站建设 2026/5/8 17:34:13

讯飞同传 双语字幕插件(浏览器端)

浏览器轻量插件,自动识别音视频,实时出中英双语字幕,无额外付费项,日常看视频、开会足够用。市面上字幕类工具不少,要么需要客户端,要么延迟高、翻译不准,这款直接跑在浏览器里,接入…

作者头像 李华