RL才会泛化？上海AI Lab系统研究：SFT也能学会跨域推理-程序员充电站

上海 AI Lab 等团队用系统实验发现，SFT 并非天然不泛化，关键在于有没有训透。

引言

随着大语言模型后训练（Post-training）技术的飞速演进，强化学习（RL）在提升模型复杂推理能力方面的卓越表现备受瞩目。

在此背景下，一个广为流传的观点是 “SFT（监督微调）仅能记忆，而 RL（强化学习）带来泛化”。这一论断源于部分合成任务实验及后续研究的佐证，并在一定程度上主导了学术界对两类训练范式的认知。

然而，“SFT 的泛化能力差”是否是一个绝对的结论？

近期，来自上海人工智能实验室、上海交通大学与中国科学技术大学的研究团队发表了题为《Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability》的工作，通过系统性的控制变量实验揭示了上述观点的局限性。

论文标题：

Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

论文作者：

Qihan Ren, Peng Wang, Ruikun Cai, Shuai Shao, Dadi Guo, Yuejin Xie, Yafu Li, Quanshi Zhang, Xia Hu, Jing Shao, Dongrui Liu

作者机构：

上海人工智能实验室、上海交通大学、中国科学技术大学

论文链接：

https://arxiv.org/abs/2604.06628

Github链接：

https://github.com/Nebularaid2000/rethink_sft_generalization

huggingface链接：

https://huggingface.co/collections/jasonrqh/rethink-sft-generalization

该研究的核心结论是：SFT 的跨领域泛化能力并非天然缺失，而是一种受多重因素制约的条件属性。

具体而言，泛化表现由优化充分度、数据质量与结构、基模型能力三个维度共同决定。此前部分研究得出的 “SFT 不泛化”结论，可能源于实验设定的局限，而非 SFT 目标函数本身的固有缺陷。

发现一：优化不充分可能是“不泛化”假象的根源

2.1 短训练轮次下的现象复现

研究团队首先复现了部分相关工作发现的现象：使用 2 万条经过验证的高质量长思维链（Long-CoT）数学数据，对 Qwen3-14B-Base 模型进行单轮（1 epoch）微调。

结果与先前研究一致：模型在同分布数学任务（如 AIME）上表现显著提升，但在分布外任务（如代码生成、科学推理）上增益有限，甚至在指令遵循等通用能力评测上出现退化。

2.2 延长训练后的“先降后升”模式

当训练周期延长至 8 个 epoch 时，情况发生了实质性变化。

研究观察到一种显著的“先降后升”（Dip-and-Recovery）动态模式：在训练早期，分布外任务的性能出现下滑；随着训练推进，性能逐步回升并最终超越基模型，然后继续上升。

这一现象在 Qwen3 系列、InternLM2.5-20B 等多个模型上均得到验证。

2.3 回复长度作为优化阶段的诊断指标

进一步分析发现，模型输出的回复长度与性能变化存在高度关联。训练初期，回复长度急剧增长，恰与性能低谷期重合；随着训练深入，回复长度逐渐回落趋于精炼，同时跨领域性能开始恢复。

研究者对此的解释是：在长思维链 SFT 的早期阶段，模型首先捕获的是数据中“冗长输出”这一表面特征，尚未真正习得问题分解、回溯验证等深层推理模式。此时的冗长输出反而干扰了指令遵循等能力。

随着优化的深入，模型逐步内化了可迁移的程序化推理模式，输出变得更加精练有效。

因此，回复长度可作为优化进程的粗粒度诊断指标：若输出仍在持续缩短，往往表明优化尚未充分完成。

2.4 重复曝光优于单次遍历

在控制总梯度更新步数（640 步）的对比实验中，研究发现 “2.5k 数据训练 8 轮”的效果全面优于 “20k 数据训练 1 轮”。

这表明，在同等计算预算下，对少量长思维链数据进行多轮重复学习，比单轮遍历大规模数据更有利于推理模式的内化。

发现二：数据质量与结构是泛化的关键变量

3.1 低质量数据的负面影响

研究引入 NuminaMath 数据集作为对比。该数据集包含传统的简短解答，质量参差不齐（比如包含大量跳步）且缺乏长思维链结构。

实验结果显示，使用此类低质量数据进行训练，不仅对同领域数学任务的提升有限，更导致分布外泛化能力的显著下降，且在整个训练过程中未能触发“先降后升”的恢复机制。

3.2 程序化推理模式的迁移：Countdown实验

为区分“领域知识学习”与“推理模式学习”的贡献，研究团队设计了一组关键实验，使用 Countdown 数据集进行训练。

Countdown 是一个简单的算术凑数游戏，仅涉及基础四则运算，不包含任何高等数学知识，但其解题过程蕴含完整的"尝试-发现错误-回溯-验证"结构。

实验结果表明，仅在 Countdown 数据上进行微调的模型，不仅在 AIME24 等竞赛级数学评测上取得显著提升，在代码生成、科学推理等完全不相关的领域也展现出泛化能力。

这一发现有力地说明：SFT 泛化的核心驱动力并不一定是特定领域知识的记忆，而可能是隐藏于长思维链中的程序化推理模式（如分解、回溯、验证）的学习与迁移。

发现三：模型基础能力决定泛化上限

4.1 不同规模模型的对比实验

在严格控制数据与训练配置的条件下，研究对比了 Qwen3 系列中 1.7B 至 14B 不同规模模型的表现：14B 模型完整经历“先降后升”过程，最终在多个跨领域任务上获得全面提升，回复长度在训练后期迅速收敛至较低水平。

而 1.7B 模型：在各项任务上增益极其有限，部分任务甚至出现负增长；回复长度在整个训练周期内始终维持在极高水平，未能有效收敛。

4.2 表层模仿与深层内化的差异

案例分析揭示了能力差异的具体表现：面对复杂数论问题时，1.7B 模型在耗尽大量 Token 后，仍陷入 “Let me check 17，Let me check 53...” 式的无效循环，本质上仅是对长思维链格式的表层统计模仿。

相比之下，词汇层面的对数概率分析显示，14B 模型在 SFT 过程中显著强化了对 “therefore”、“alternatively”、“wait”、“however” 等推理转折词的预测能力，表明其真正习得了高层逻辑控制流，能够判断何时应回溯重算、何时应调整策略。

发现四：泛化的非对称性——推理增强与安全退化并存

5.1 安全性能的下降

研究揭示了一个值得关注的副作用：长思维链 SFT 在提升推理能力的同时，会导致模型安全性的显著下降。

在 HEx-PHI 安全基准测试中，经长思维链训练的模型面对有害指令时的攻击成功率（ASR）大幅上升。作为对照，使用无思维链数据训练的模型则安全性下降幅度较小。

5.2 自我合理化机制

案例分析表明，基模型原本会对有害请求直接输出简短拒绝。

但经过长思维链训练后，模型会在思考过程中进行“自我合理化”——例如推演“这虽然是非法的，但如果假设是网络安全教育场景呢？”，从而绕过自身的安全机制，最终输出带有免责声明的有害内容。

研究者指出，这在某种意义上也是一种“泛化”：长思维链强化了模型“探索替代方案、克服障碍”的底层求解倾向，而在面对有害查询时，被克服的“障碍”恰恰是模型自身的安全策略。

结论

本研究系统表明，“SFT 是否具备泛化能力”并非一个绝对的是非命题。泛化是一种条件属性，其激活与否取决于优化是否充分、数据结构是否具备可迁移的推理模式、以及基模型是否具备足够的能力将这些模式内化。

在任一条件缺失的情况下得出的 “SFT 不泛化”结论，可能是实验设定的产物而非 SFT 的内在局限。

对于大模型训练而言，本研究提示需要将模型选择、数据设计、训练策略置于统一框架下进行协同优化，而非孤立地评判某一训练范式的优劣。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以markdown格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

RL才会泛化？上海AI Lab系统研究：SFT也能学会跨域推理

智能体循环：基于LLM的自我迭代工作流实现10倍效率提升

从技能原子化到量化评估：构建现代技能管理系统的架构与实践

高效跨平台部署：Windows安卓应用安装器深度解析与实战指南

Android ChatGPT客户端开发：从API集成到流式响应实现

Windows Server激活不求人：5分钟搞定基于vlmcsd的KMS服务部署与排错

Cheshire Cat AI：开箱即用的AI代理框架，构建具备记忆与工具调用能力的智能应用