news 2026/6/10 10:26:41

RL才会泛化?上海AI Lab系统研究:SFT也能学会跨域推理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
RL才会泛化?上海AI Lab系统研究:SFT也能学会跨域推理

上海 AI Lab 等团队用系统实验发现,SFT 并非天然不泛化,关键在于有没有训透。

引言

随着大语言模型后训练(Post-training)技术的飞速演进,强化学习(RL)在提升模型复杂推理能力方面的卓越表现备受瞩目。

在此背景下,一个广为流传的观点是 “SFT(监督微调)仅能记忆,而 RL(强化学习)带来泛化”。这一论断源于部分合成任务实验及后续研究的佐证,并在一定程度上主导了学术界对两类训练范式的认知。

然而,“SFT 的泛化能力差”是否是一个绝对的结论?

近期,来自上海人工智能实验室、上海交通大学与中国科学技术大学的研究团队发表了题为《Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability》的工作,通过系统性的控制变量实验揭示了上述观点的局限性。

论文标题:

Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

论文作者:

Qihan Ren, Peng Wang, Ruikun Cai, Shuai Shao, Dadi Guo, Yuejin Xie, Yafu Li, Quanshi Zhang, Xia Hu, Jing Shao, Dongrui Liu

作者机构:

上海人工智能实验室、上海交通大学、中国科学技术大学

论文链接:

https://arxiv.org/abs/2604.06628

Github链接:

https://github.com/Nebularaid2000/rethink_sft_generalization

huggingface链接:

https://huggingface.co/collections/jasonrqh/rethink-sft-generalization

该研究的核心结论是:SFT 的跨领域泛化能力并非天然缺失,而是一种受多重因素制约的条件属性。

具体而言,泛化表现由优化充分度、数据质量与结构、基模型能力三个维度共同决定。此前部分研究得出的 “SFT 不泛化”结论,可能源于实验设定的局限,而非 SFT 目标函数本身的固有缺陷。

发现一:优化不充分可能是“不泛化”假象的根源

2.1 短训练轮次下的现象复现

研究团队首先复现了部分相关工作发现的现象:使用 2 万条经过验证的高质量长思维链(Long-CoT)数学数据,对 Qwen3-14B-Base 模型进行单轮(1 epoch)微调。

结果与先前研究一致:模型在同分布数学任务(如 AIME)上表现显著提升,但在分布外任务(如代码生成、科学推理)上增益有限,甚至在指令遵循等通用能力评测上出现退化。

2.2 延长训练后的“先降后升”模式

当训练周期延长至 8 个 epoch 时,情况发生了实质性变化。

研究观察到一种显著的“先降后升”(Dip-and-Recovery)动态模式:在训练早期,分布外任务的性能出现下滑;随着训练推进,性能逐步回升并最终超越基模型,然后继续上升。

这一现象在 Qwen3 系列、InternLM2.5-20B 等多个模型上均得到验证。

2.3 回复长度作为优化阶段的诊断指标

进一步分析发现,模型输出的回复长度与性能变化存在高度关联。训练初期,回复长度急剧增长,恰与性能低谷期重合;随着训练深入,回复长度逐渐回落趋于精炼,同时跨领域性能开始恢复。

研究者对此的解释是:在长思维链 SFT 的早期阶段,模型首先捕获的是数据中“冗长输出”这一表面特征,尚未真正习得问题分解、回溯验证等深层推理模式。此时的冗长输出反而干扰了指令遵循等能力。

随着优化的深入,模型逐步内化了可迁移的程序化推理模式,输出变得更加精练有效。

因此,回复长度可作为优化进程的粗粒度诊断指标:若输出仍在持续缩短,往往表明优化尚未充分完成。

2.4 重复曝光优于单次遍历

在控制总梯度更新步数(640 步)的对比实验中,研究发现 “2.5k 数据训练 8 轮”的效果全面优于 “20k 数据训练 1 轮”。

这表明,在同等计算预算下,对少量长思维链数据进行多轮重复学习,比单轮遍历大规模数据更有利于推理模式的内化。

发现二:数据质量与结构是泛化的关键变量

3.1 低质量数据的负面影响

研究引入 NuminaMath 数据集作为对比。该数据集包含传统的简短解答,质量参差不齐(比如包含大量跳步)且缺乏长思维链结构。

实验结果显示,使用此类低质量数据进行训练,不仅对同领域数学任务的提升有限,更导致分布外泛化能力的显著下降,且在整个训练过程中未能触发“先降后升”的恢复机制。

3.2 程序化推理模式的迁移:Countdown实验

为区分“领域知识学习”与“推理模式学习”的贡献,研究团队设计了一组关键实验,使用 Countdown 数据集进行训练。

Countdown 是一个简单的算术凑数游戏,仅涉及基础四则运算,不包含任何高等数学知识,但其解题过程蕴含完整的"尝试-发现错误-回溯-验证"结构。

实验结果表明,仅在 Countdown 数据上进行微调的模型,不仅在 AIME24 等竞赛级数学评测上取得显著提升,在代码生成、科学推理等完全不相关的领域也展现出泛化能力。

这一发现有力地说明:SFT 泛化的核心驱动力并不一定是特定领域知识的记忆,而可能是隐藏于长思维链中的程序化推理模式(如分解、回溯、验证)的学习与迁移。

发现三:模型基础能力决定泛化上限

4.1 不同规模模型的对比实验

在严格控制数据与训练配置的条件下,研究对比了 Qwen3 系列中 1.7B 至 14B 不同规模模型的表现:14B 模型完整经历“先降后升”过程,最终在多个跨领域任务上获得全面提升,回复长度在训练后期迅速收敛至较低水平。

而 1.7B 模型:在各项任务上增益极其有限,部分任务甚至出现负增长;回复长度在整个训练周期内始终维持在极高水平,未能有效收敛。

4.2 表层模仿与深层内化的差异

案例分析揭示了能力差异的具体表现:面对复杂数论问题时,1.7B 模型在耗尽大量 Token 后,仍陷入 “Let me check 17,Let me check 53...” 式的无效循环,本质上仅是对长思维链格式的表层统计模仿。

相比之下,词汇层面的对数概率分析显示,14B 模型在 SFT 过程中显著强化了对 “therefore”、“alternatively”、“wait”、“however” 等推理转折词的预测能力,表明其真正习得了高层逻辑控制流,能够判断何时应回溯重算、何时应调整策略。

发现四:泛化的非对称性——推理增强与安全退化并存

5.1 安全性能的下降

研究揭示了一个值得关注的副作用:长思维链 SFT 在提升推理能力的同时,会导致模型安全性的显著下降。

在 HEx-PHI 安全基准测试中,经长思维链训练的模型面对有害指令时的攻击成功率(ASR)大幅上升。作为对照,使用无思维链数据训练的模型则安全性下降幅度较小。

5.2 自我合理化机制

案例分析表明,基模型原本会对有害请求直接输出简短拒绝。

但经过长思维链训练后,模型会在思考过程中进行“自我合理化”——例如推演“这虽然是非法的,但如果假设是网络安全教育场景呢?”,从而绕过自身的安全机制,最终输出带有免责声明的有害内容。

研究者指出,这在某种意义上也是一种“泛化”:长思维链强化了模型“探索替代方案、克服障碍”的底层求解倾向,而在面对有害查询时,被克服的“障碍”恰恰是模型自身的安全策略。

结论

本研究系统表明,“SFT 是否具备泛化能力”并非一个绝对的是非命题。泛化是一种条件属性,其激活与否取决于优化是否充分、数据结构是否具备可迁移的推理模式、以及基模型是否具备足够的能力将这些模式内化。

在任一条件缺失的情况下得出的 “SFT 不泛化”结论,可能是实验设定的产物而非 SFT 的内在局限。

对于大模型训练而言,本研究提示需要将模型选择、数据设计、训练策略置于统一框架下进行协同优化,而非孤立地评判某一训练范式的优劣。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以markdown格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/16 13:45:06

智能体循环:基于LLM的自我迭代工作流实现10倍效率提升

1. 项目概述:从“10倍速”到“智能体循环”的工程实践 最近在开源社区里,一个名为“10x-Agent-Loop”的项目引起了我的注意。看到这个标题,我的第一反应是:这又是一个关于“10倍速工程师”的讨论吗?但仔细研究其代码仓…

作者头像 李华
网站建设 2026/6/10 10:12:04

从技能原子化到量化评估:构建现代技能管理系统的架构与实践

1. 项目概述与核心价值最近在GitHub上闲逛,发现了一个挺有意思的项目,叫easyskillz。乍一看这个名字,可能有点摸不着头脑,但点进去研究了一下,发现它其实是一个关于“技能”或“能力”管理的工具或框架。作为一个在技术…

作者头像 李华
网站建设 2026/5/16 13:40:18

高效跨平台部署:Windows安卓应用安装器深度解析与实战指南

高效跨平台部署:Windows安卓应用安装器深度解析与实战指南 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer APK安装器是一款专为Windows系统设计的安卓应用安…

作者头像 李华
网站建设 2026/5/16 13:40:11

Android ChatGPT客户端开发:从API集成到流式响应实现

1. 项目概述:一个为Android设备量身定制的ChatGPT客户端如果你和我一样,是个喜欢在手机、平板上折腾各种效率工具的Android用户,同时又对ChatGPT这类大语言模型(LLM)的强大能力垂涎三尺,那你肯定也遇到过类…

作者头像 李华
网站建设 2026/5/16 13:39:15

Windows Server激活不求人:5分钟搞定基于vlmcsd的KMS服务部署与排错

Windows Server高效激活指南:KMS服务部署与深度排错实战 在服务器运维领域,批量授权管理一直是系统管理员的核心工作之一。面对数十甚至上百台Windows Server的授权需求,传统的单机激活方式显然力不从心。KMS(Key Management Serv…

作者头像 李华