news 2026/6/10 19:04:47

ERNIE 5.0:统一自回归多模态与弹性训练

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
ERNIE 5.0:统一自回归多模态与弹性训练

一句话总结

这篇报告提出ERNIE 5.0:从零开始统一训练文本、图像、视频、音频的自回归基础模型,核心创新是统一 Next-Group-of-Tokens 目标+模态无关的超稀疏 MoE 路由+弹性训练,并配套可扩展的 RL 与训练基础设施,最终在多模态理解与生成上取得均衡且强劲的表现。


1. 背景与问题

现有多模态模型通常以“文本为中心”,多模态生成往往靠外挂式解码器或后期融合。这会导致:

  • 理解与生成割裂:理解强,生成弱或反之。
  • 模态能力跷跷板:加强某一模态会牺牲另一模态。
  • 扩展不优雅:需要为每个模态设计专用组件和目标。

作者的核心目标是:让多模态理解与生成都在一个统一自回归范式里完成,并且可在不同算力条件下灵活部署。


2. 整体架构:统一自回归 + 超稀疏 MoE

ERNIE 5.0 在模型层面做了三件关键事:

  1. 统一序列化:文本、图像、视频、音频都映射到共享 token 序列。
  2. 统一目标:所有模态都用 Next-Group-of-Tokens Prediction 训练。
  3. 统一路由:MoE 路由不依赖模态标签,完全由 token 表示决定。

图解:整体架构示意。文本、视觉、音频 token 统一进入同一自回归骨干;MoE 专家池共享,路由不区分模态。


3. 统一自回归目标:Next-Group-of-Tokens

传统文本是 Next-Token Prediction,而图像/视频/音频是“分组 token 预测”:

  • 文本:标准 NTP,辅以 Multi-Token Prediction (MTP)。
  • 视觉:Next-Frame-and-Scale Prediction (NFSP)。
  • 音频:Next-Codec Prediction (NCP)。

这样所有模态都被纳入统一的 autoregressive 训练目标,从根上避免“不同模态训练目标不一致”的问题。


4. 模态无关 MoE:共享专家、自动分化

路由层不看模态,只看 token 的表达。结果是:

  • 专家出现自发的模态专化
  • 不同模态在深层出现更强的语义重叠。



图解:不同层专家激活分布。可以看到非均匀激活,专家在模态上自然分化。



图解:不同模态 top-25% 激活专家的 IoU 重叠。深层跨模态重叠增强,表明语义逐步统一。

图解:各层专家负载均衡度(NE)。

N E = − ∑ i = 1 N p i log ⁡ ( p i ) log ⁡ N NE=\frac{-\sum_{i=1}^{N} p_i \log(p_i)}{\log N}NE=logNi=1Npilog(pi)

NE 越高说明越均匀。


5. 弹性训练:一次预训练得到多种规模

传统“训练后压缩”代价高。作者提出Elastic Training,一次训练得到多尺寸子模型。

弹性维度:

  • Depth:随机跳层。
  • Width:随机减少专家数量。
  • Sparsity:随机降低路由 top-k kk

图解:弹性训练框架,三条轴同时采样,形成 Once-For-All 超网络。

关键结论:

  • 仅激活 53.7% 参数、总参数 35.8% 时,性能仍接近满模。
  • top-k kk降到 25% 时,解码速度提升超过 15%。

图解:视觉理解与生成统一架构,理解走双路径表征,生成走 NFSP。


6. 视觉与音频:理解 + 生成统一建模

6.1 视觉

  • 理解:CNN + ViT 双路径融合,再做 Attention Patch Merger。
  • 生成:NFSP,图像是单帧视频,多尺度递进生成。

6.2 音频

  • 理解:残差向量量化 (RVQ),多层代码 embedding 相加。
  • 生成:NCP,逐层预测 codec token。

图解:音频理解与生成架构。理解走多层残差嵌入加和,生成走 NCP 分层预测。


7. 预训练与基础设施

为支撑万亿级超稀疏 MoE,需要系统级优化:

  • 混合并行:TP + PP + EP + ZeRO + Context Parallel。
  • FP8 混精度:显著降低显存峰值。
  • FlashMask:对异构注意力掩码加速。

结果:训练在稳定性与吞吐上兼顾,支持多模态统一训练。


8. Post-Training:SFT + 统一多模态 RL

RL 训练对 MoE + 多模态极其不稳定,作者提出:

  • Unbiased Replay Buffer (U-RB):避免长尾 rollout 阻塞。
  • MISC:多粒度重要性裁剪,避免熵崩塌。
  • WPSM:对“已学会样本”做掩码,强化难题学习。
  • AHRL:难题注入 hint,让 RL 从“提示”过渡到自探索。

图解:U-RB 机制,保持数据顺序并避免长尾拖慢训练。


图解:MISC 稳定 RL 训练,避免早期熵崩塌。

图解:AHRL 引入“思考骨架”逐步降低提示比率,提升难题学习效率。


9. 实验结果要点(跨模态全面)

  • 文本:在知识、推理、代码、指令跟随等任务上与顶尖模型接近或领先。
  • 视觉:在 VQA、文档理解、推理、视频理解等多类任务保持强竞争力。
  • 音频:ASR、语音对话、音频理解、TTS 均表现稳定。

核心结论:统一训练没有牺牲单模态能力,反而在多模态融合和一致性上更强。


10. 结论与启示

ERNIE 5.0 给出一个非常清晰的技术路径:

  1. 统一自回归范式是多模态理解与生成真正融合的关键。
  2. 模态无关 MoE 路由可以让专家自发形成分工,减少人工设计负担。
  3. 弹性训练是“训练一次、多场景部署”的可行路径。
  4. RL 在超大多模态 MoE 上仍是难点,但系统化工程 + 算法改造可行。

本文参考自 ERNIE 5.0 Technical Report

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 7:57:15

告别环境配置烦恼:深度学习项目训练镜像保姆级使用指南

告别环境配置烦恼:深度学习项目训练镜像保姆级使用指南 你是否经历过这样的深夜: 反复重装CUDA、降级驱动、卸载又重装PyTorch,只为让torch.cuda.is_available()返回True? 在conda install和pip install之间反复横跳,…

作者头像 李华
网站建设 2026/6/10 8:03:02

ws2812b驱动方法图解说明:波形与时序匹配技巧

WS2812B驱动不靠“玄学”:从示波器波形里抠出确定性时序 你有没有试过—— 明明代码编译通过、接线也没错、供电纹波也测过,可一上电,LED要么全绿、要么乱闪、要么第一颗灯死活不亮? 用逻辑分析仪一看,波形毛刺多得像…

作者头像 李华
网站建设 2026/6/10 7:59:27

Gemma-3-270m与Vue前端开发:智能表单生成实战

Gemma-3-270m与Vue前端开发:智能表单生成实战 1. 前端开发中的表单痛点,我们真的需要手动写每一行吗 你有没有过这样的经历:接到一个需求,要为新上线的用户反馈系统快速搭建一套表单。字段不算多——姓名、邮箱、问题类型、详细…

作者头像 李华
网站建设 2026/6/10 8:01:14

Janus-Pro-7B惊艳效果展示:高精度图表识别+自然语言描述生成实录

Janus-Pro-7B惊艳效果展示:高精度图表识别自然语言描述生成实录 1. 为什么这张图表“开口说话”了? 你有没有试过把一张Excel导出的折线图截图发给同事,然后等他花五分钟看懂趋势、再花三分钟组织语言写成汇报要点?或者面对一份…

作者头像 李华
网站建设 2026/6/10 9:22:50

Nano-Banana 软萌拆拆屋:让服装设计变得像玩游戏一样简单

Nano-Banana 软萌拆拆屋:让服装设计变得像玩游戏一样简单 1. 这不是修图软件,是你的专属服饰解构乐园 你有没有试过盯着一件喜欢的衣服发呆,想弄明白它到底由几块布料拼成?拉链藏在哪?蝴蝶结是缝上去还是系上去的&am…

作者头像 李华
网站建设 2026/6/10 9:26:16

模拟电路基础知识总结:运算放大器应用实战案例

运算放大器不是黑盒子:一个硬件工程师的实战手记 去年调试一款便携式气体检测仪时,我花了整整三天时间排查一个看似简单的信号漂移问题。传感器输出是微伏级直流电压,经过两级同相放大后,示波器上却看到输出缓慢爬升,像…

作者头像 李华