告别 Router Replay：利用 Online IcePop 解决 MoE 模型 RL 训练的不稳定性-程序员充电站

作者：作者：初七123334
https://zhuanlan.zhihu.com/p/1984379979035850499

英文版

https://hijkzzz.notion.site/online-ice-pop

在 LLM 的后训练（Post-training）阶段，MoE（Mixture-of-Experts）模型凭借其稀疏激活的特性，在推理效率和模型容量之间取得了极佳的平衡。然而，在进行 PPO 等强化学习训练时，MoE 架构却带来了一个棘手的稳定性难题。

本文将探讨一种结合了蚂蚁百灵团队 IcePop 算法与 Qwen 团队 MiniRL (Online Policy Gradient) 发现的组合策略——Online IcePop。这套方案不仅能有效稳定 MoE 的训练，还能让我们抛弃复杂的 Router Replay 机制。

为什么 MoE 的 RL 训练如此不稳定？在 PPO（Proximal Policy Optimization）这类 Off-policy（或者说近似 On-policy）算法中，我们通常依赖重要性采样（Importance Sampling, IS）来修正旧策略（Behavior Policy）与当前策略（Target Policy）之间的偏差。IS 权重ρt\rho_tρt定义为

ρt=πnew(at∣st)πold(at∣st) \rho_t = \frac{\pi_{\text{new}}(a_t|s_t)}{\pi_{\text{old}}(a_t|s_t)}ρt=πold(at∣st)πnew(at∣st)

对于 Dense 模型，策略的变化通常是平滑的。但对于 MoE 模型，情况截然不同：

Router Logits 的微小扰动：训练过程中，Router 的输出 Logits 只要发生微小变化，就可能导致选中的 Experts 发生离散的跳变。
概率剧变：一旦 Expert 选择发生变化，πnew\pi_{\text{new}}πnew和4πold4\pi_{\text{old}}4πold在特定路径上的概率比值就会发生剧烈波动。这种波动会导致 Importance Sampling Weights 出现极端值，进而导致梯度更新方差过大，模型训练发散。

为了解决这个问题，业界之前往往不得不采用 Router Replay（在更新时重新计算旧数据的 Router 路径）等复杂且计算昂贵的手段。

针对 IS 权重剧变的问题，蚂蚁百灵团队在论文 IcePop: An Effective Method for MoE Stability 中提出了一种优雅的解法。

https://arxiv.org/pdf/2510.18855

截断重要性采样（Truncated Importance Sampling）用于校正 vLLM （推理引擎）和 FSDP （训练引擎）之间的精度误差。但这对于 MoE 来说还不够。IcePop 的核心思想是在此基础上增加了一个 Mask 操作：

核心机制：当 Importance Sampling Weight 超出预设的阈值范围时，IcePop 不仅仅是将其截断，而是直接将其 Mask 掉（视为无效样本或零贡献）。

这种做法看似激进，实则精准地剔除了那些因为 Expert 突变导致“统计上不可信”的样本，极大地降低了估计器的方差。

仅仅处理推理引擎和训练引擎之间的误差还不够，如果不从源头上减少策略偏差，训练依然可能低效。

Qwen 团队在最新的研究 Online Policy Gradient for MoE 中发现了一个关键结论：发现：对于 MoE 类模型，使用纯 Online Policy Gradient（即去掉 PPO 的 Mini-batch 多次迭代，采用类似 A2C 的单次更新模式）对于提升稳定性至关重要。

当我们将 Buffer 中的数据反复训练（Replay）时，MoE 的 Router 分布往往已经漂移，导致 Off-policy 的 gap 越来越大。采用纯 Online 模式，确保了πold\pi_{\text{old}}πold和πnew\pi_{\text{new}}πnew几乎一致，从源头上减少了 Router 行为的差异。

https://arxiv.org/pdf/2512.01374

基于上述两项工作，我们总结出了一套针对 MoE RL 训练的“黄金组合”：Online IcePop。

具体做法：

移除 PPO 的 Mini-batch 循环：放弃传统的 Epochs 迭代，采用纯 Online 模式，数据采样后立即更新，更新完即丢弃。
应用 IcePop Masking：在计算 Loss 时，应用 IcePop 的逻辑，对所有超出阈值的 IS Weights 进行 Mask 处理。

主要收益：

极佳的稳定性：Online 模式保证了策略偏差最小化，IcePop 兜底处理了极端情况下的方差爆炸。
工程极简（No Router Replay）：由于我们采用了 Online 模式且有 IcePop 保护，我们不再需要耗费显存和算力去进行 Router Replay（即重新过一遍 Router 计算 Logits）。这大大简化了训练代码的复杂度，并提升了吞吐效率。

大模型时代让普通人读懂世界的底层逻辑

大家好，我是herosunly。985院校硕士毕业，现担任算法工程师一职，获得CSDN博客之星第一名，热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委，编写微软OpenAI考试认证指导手册。曾获得多项AI顶…

李华

24、Unix 文件编码、压缩与实用工具使用指南

Unix 文件编码、压缩与实用工具使用指南在 Unix 系统中，文件的编码、压缩以及使用各种实用工具是提高工作效率和管理文件的重要技能。下面将详细介绍如何进行文件的压缩与解压缩，以及一些实用工具的使用方法。 1. 使用 zip 压缩文件和目录当需要处理将在 Windows 平台上…

李华

Fold Craft Launcher终极指南：在手机上畅玩Java版Minecraft的完整教程

Fold Craft Launcher终极指南：在手机上畅玩Java版Minecraft的完整教程【免费下载链接】FoldCraftLauncher Fold Craft Launcher, an Android Minecraft : Java Edition launcher. 项目地址: https://gitcode.com/gh_mirrors/fo/FoldCraftLauncher 想要在移动…

李华

22、互联网服务器管理：日志分析与流量洞察

互联网服务器管理：日志分析与流量洞察在互联网服务器管理中，管理服务器和服务的工作通常与网站内容的设计和管理工作是分开的。下面将详细介绍如何分析Web服务器日志文件，包括Apache访问日志、搜索引擎流量日志以及错误日志。 1. 探索Apache访问日志如果运行的是Apache…

李华

云原生Agent高可用设计实践（99.99%恢复成功率背后的秘密）

第一章：云原生Agent高可用的核心挑战在云原生架构中，Agent作为连接控制平面与数据平面的关键组件，承担着指标采集、配置同步、健康检查等核心职责。其高可用性直接影响系统的稳定性与可观测性。然而，在动态调度、网络分区和资源竞…

李华

为什么你的云边 Agent 总是延迟爆表？一文看懂网络调度暗坑

第一章：为什么你的云边 Agent 总是延迟爆表？一文看懂网络调度暗坑在云边协同架构中，Agent 的延迟问题常常成为系统性能的“隐形杀手”。尽管边缘节点距离终端更近，理论上应具备低延迟优势，但实际部署中却频繁出现响应迟…

李华