收藏！大模型后训练的黄金法则：探索效率与稳定性实战经验-程序员充电站

文章分享了使用强化学习(RL)对大语言模型进行后训练的实战经验，聚焦探索效率和训练稳定性两大核心问题。探讨了多模型加载导致的效率瓶颈、rollout与训练同步、探索延迟等挑战，以及训练不稳定、崩溃预防、loss选择、正样本重要性等解决方案。特别强调了基座模型选择(推荐Qwen2.5)和Thinking模型后训练的特殊考量。这些经验对从事大模型后训练的研究者和工程师具有重要参考价值。

用 RL 做后训练 LLM 时，探索效率和训练稳定性是两个最核心的问题。这半年，我积累了不少心得感悟，也踩了很多坑。由于打算金盆洗手不再做这方面的工作了，索性把这些经验分享给大家。

当然，这些经验不一定都正确，存在我个人认知的局限。

探索效率

先说探索效率这块。普通研究者会觉得 RL 太重了，需要预先加载一堆模型：当前模型算 logprob，reference model 算 reference logprob，还要记录 old logprob，PPO 还需要 critic model，额外可能还有 reward model。

四份模型加一份 logprob 记录，光看着就头大。训练效率就更不用说了，涉及的模型越多，瓶颈点和 pipeline 气泡就越大。

一个典型的问题是rollout 和训练之间的同步间隔。如果 Sync=1，就是探索一个 step 采样数据，再用这批数据训练一个 step，这种情况下机器利用率能有 50% 就不错了。

那如果提升同步频率呢？也就是允许数据是 off-policy 的，探索多步再训练，这样就可能造成训练不稳定。GRPO 的重要性采样就是为此而生的，但它并不能保证训练不崩溃。

Agent 环境的探索延迟也是个大问题。拿 Webshop 来说，32 个 runner 同时创建 32 个环境探索，大约需要 1.7T 内存，Retrieve 步骤还需要很多 CPU，延迟也很高。

数学任务和 Alfworld 这种还好做一些。Mobile Agent、GUI Agent 的探索成本就高得离谱了，不是我能玩得转的。

自然而然会想到，做 Mobile Agent 时不要用真实手机采样，而是 Mock 一个环境，界面和手机相同，截图就行。这样可以开多个 Runner 而采样成本低。缺点是仿真环境不够真，而且难以更新和覆盖 Corner Case。

但 Corner Case 的覆盖恰恰是 RL 最大的魅力，相较于 SFT，RL 只需要准备好环境和 Questions，剩下的就无脑交给 GRPO 和 LLM 梭哈，它可以自动处理 OOD 和 Corner Cases。

另一个角度说，RL肯定是希望正样本越多越好，多样性越高越好。这里有个坑要注意：以前数据合成的思路不一定能直接搬到 RL 里用。

比如通过环境反馈加自然语言反思来合成数据，反思得到的轨迹的 logprob 是在有额外上下文的情况下获得的，和直接用 Question 推理的 logprob 是不一致的，所以重要性采样理论上不能直接用。

这里可以采取的一个技巧叫上下文蒸馏。当然实践中不用重要性采样有时候也能 work。总之通过各种数据合成策略提升正样本数量，总体上是有益的。

训练稳定性

再说训练稳定性。很多人会发现 RL 不像预训练和 SFT 那样可以 scaling，可能训几千步就崩了，熵、KL、reward、PPO loss、输出长度这些指标突然不正常，即使手里有再多数据和机器也没用。

DeepSeek 3.2 还是 Qwen3 来着，他们技术报告里说训推理能力的 RL 阶段只依赖 4k 条数据，多个 Epoch 训练。这么少的数据就能训出推理能力，一方面感慨 RL 对数据利用够充分，另一方面也说明 RL 的 Scaling 确实难。

另一个稳定性问题是训 GRPO 时的崩溃。这里细节和坑特别多，我总结一些自己遇到过的。

首先是基建层面。大家探索用 vLLM 或 SGLang，但由于推理浮点精度和某些 Bug，它们预测的序列 logprob 和 Huggingface 推理出的不完全等价（应该有 Issue 在讨论和解决这个）。

最典型的现象是，Sync=1 时所有数据理论上都是最新的，但实际上很多会被重要性采样 clip 掉，而且随着训练时间增加 clip 比例还会增加。一个潜在思路是不完全相信 vLLM 的 logprob，用 HF 重算一遍 Prefill 阶段，用这里获得的Logprob。

loss的选择方面，Seq-level loss 还是 Token-level loss，两个典型工作是 GSPO 和 DAPO。我实测下来，GSPO 对 Dense 模型收敛偏慢但更稳定，而且 GSPO 对 MOE 有优化，所以 MOE 模型无脑用 GSPO。

其他情况下 GRPO、DAPO、Reinforce++ 差别不大。DAPO 因为对长序列有限制，在多轮对话非数学场景下可能训不起来。

输出 Token 长度设置不当也会导致崩溃。比如任务只需要每轮输出 200 token，你却设了 8192，就比较危险。

因为 RL 中如果 rollout 出超长的崩溃循环输出，这部分轨迹会在 Token-level Loss 中影响很大。能设小就设小；如果非要很大的输出长度，就要非常小心超长轨迹和离群值，该过滤就过滤。

对于小 LLM 做多轮 Agent RL，因为能力有限很容易丢失焦点。最好在每轮对话时把原始 Target 和前几轮 Action 都在 Prompt 里重复告诉模型。

关于 Sync 值，其实 Sync 越大不一定越坏，我见过 Sync=10 比 Sync=1 效果更好的场景。但全异步训练还是要谨慎，最好配合 Priority Buffer，把比较新的数据放在靠前位置来保证稳定性。

如果模型对某类任务成功率不高，不能直接用 GRPO，要想办法提高正样本在 loss 中的比例，无论是 Token 级别过滤、Sample 级别过滤，还是提升正样本的 Advantage 权重都可以试。否则负样本占主导容易崩溃。

这是因为传统 RL 的动作空间小，抑制错误 Action 后概率会自然偏移到正确 Action 上；但LLM RL 的动作空间是词表大小乘以序列长度，抑制了某个序列输出的概率，这些概率被分配到哪里是未知且混沌的，所以必须强调正样本的作用。

关于 PPO，如果有 Verifiable Reward 就最好不用 PPO。一般主观题才用 PPO，客观题用 GRPO。因为 Critic Model 预测其实不准，尤其是有争议或数据有冲突的时候。

基座模型选择

做 Paper 最好选 Qwen2.5 或 Mistral 的 Instruct 或 Base 模型，用 SFT 做冷启动再上 RL。Qwen 的标签在词表里不是一个独立的Token，模型不一定能稳定按这个格式输出，其实完全没必要非用，可以用词表更亲和的 Token来代表Think Tag。

不要用 Llama 系列。它在基座训练时 COT 能力不够强，用 RL 训出来结论会很奇怪。Qwen 系列在 Post-Training 早就训得很像 Thinking 模型了，更容易训出来。

Thinking 模型的后训练

Thinking/Reasoning 模型的后训练需要单独说，里面隐式的坑更多。相较于 Instruct 模型到 Thinking 模型的路径，直接对 Thinking 模型做 RL 是更难的。

因为它们的多轮对话并非通用多轮对话，而是拼接多轮对话，也就是多组修改上下文的单轮对话。

拿 Qwen3 举例，它在 Turn 2 的时候会把 Turn 1 的 thinking 部分删掉，目的是降低上下文长度。这样一来标准的多轮 GRPO 就没法用了。标准 GRPO 是对一个很长的多轮对话轨迹 Mask 掉 Input 部分，然后梯度从尾向头传递。

但 Qwen3 因为修改了 Turn 2中Turn 1部分的上下文，训练就变成 Turn 1 训一下、Turn 2 在不同上下文训一下，以此类推。所以所有面向 GRPO 做的 paper 和工作，在这种范式下要重新思考。强行按通用多轮去训 Qwen3，是有可能水土不服的。

多次 tool call 的场景就更复杂了。比如 Kimi 模型，Turn 1 里有三次工具调用，每次调用前的 Thinking 会被保留，但到 Turn 2 时，Turn 1 每个工具调用前的 Thinking 会被删除。现代模型的 Template 真是越来越复杂了。

如果我们预先不知道 Thinking 模型是用什么 RL 算法和上下文修改规则训的，直接做后训练风险很高。

另一个被忽视的问题是Thinking 模型的 Temperature。主流开源模型都会说要在指定温度、TopP 下运行，那训练时有必要遵循吗？我推荐训练时按温度 1 或官方推荐温度采样，推理评估按官方的来。

希望这些经验能帮到在这条路上探索的朋友。

最后

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包：

✅AI大模型学习路线图
✅Agent行业报告
✅100集大模型视频教程
✅大模型书籍PDF
✅DeepSeek教程
✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

为什么说现在普通人就业/升职加薪的首选是AI大模型？

人工智能技术的爆发式增长，正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议，到全国两会关于AI产业发展的政策聚焦，再到招聘会上排起的长队，AI的热度已从技术领域渗透到就业市场的每一个角落。

智联招聘的最新数据给出了最直观的印证：2025年2月，AI领域求职人数同比增幅突破200%，远超其他行业平均水平；整个人工智能行业的求职增速达到33.4%，位居各行业榜首，其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张，也让人才供需矛盾愈发突出。麦肯锡报告明确预测，到2030年中国AI专业人才需求将达600万人，人才缺口可能高达400万人，这一缺口不仅存在于核心技术领域，更蔓延至产业应用的各个环节。

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

收藏！大模型后训练的黄金法则：探索效率与稳定性实战经验

探索效率

训练稳定性

基座模型选择

Thinking 模型的后训练