news 2026/6/16 16:48:33

训练中的 Bridge 技术解析:Mbridge 与 Megatron-Bridge

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
训练中的 Bridge 技术解析:Mbridge 与 Megatron-Bridge

作者:昇腾实战派
知识地图:https://blog.csdn.net/Lumos_Lovegood/article/details/161455142

背景概述

在大规模深度学习模型训练中,高效利用分布式计算资源是关键挑战之一。MBridge 在 Hugging Face 模型和 Megatron-Core 的优化实现之间搭建了无缝桥梁,实现了高效的分布式训练和推理。它还提供了将强化学习 (RL) 与 Megatron 集成所需的工具和流程。MBridge 是一个原型项目,其理念已被Megatron-Bridge采纳。如需了解更高级的功能,例如训练循环、混合精度(FP8、BF16、FP4 等)、PEFT 等,请参考 Megatron-Bridge。

Mbridge

Mbridge 旨在构建 Hugging Face 模型与 Megatron-Core 优化实现之间的桥梁,支持高效的分布式训练与推理流程,并提供了强化学习(RL)与 Megatron 集成的相关工具。该项目属于原型阶段,其核心设计理念已被官方项目 Megatron-Bridge 采纳。

Mbridge 提供在线权重转换机制,无需依赖离线存储的 Megatron 格式权重,即支持 Hugging Face 至 Megatron 格式的双向转换。该工具还兼容多种并行策略,包括 Tensor Parallelism(TP)、Pipeline Parallelism(PP)、Context Parallelism(CP)等。

相关资源:

  • 代码仓库:https://github.com/ISEEKYAN/mbridge

目前,VeRL 框架已集成 Mbridge,预计在未来版本中逐步迁移至 Megatron-Bridge。具体版本计划如下:

  • v0.6.1 及 v0.7.x:默认使用 Mbridge;
  • v0.8:计划切换至 Megatron-Bridge 为默认选项;
  • v0.9:将移除对 Mbridge 的支持。

Megatron-Bridge

Megatron-Bridge 是 NVIDIA NeMo 团队推出的官方转换层,用于实现 Hugging Face 与 Megatron-Core 之间的双向模型与权重转换。其内置验证机制,确保转换过程中的准确性和检查点完整性。此外,该项目还提供模型导出工具,支持转换为 TensorRT-LLM 等推理优化格式。

主要功能组件

  • 双向转换器:支持 Hugging Face 与 Megatron 格式的互转;
  • 推理导出工具:位于examples/export/,支持多种部署格式;
  • 检查点兼容层:提供多种模型格式的读写支持。

相关资源:

  • 代码仓库:https://github.com/NVIDIA-NeMo/Megatron-Bridge
  • 官方文档:https://docs.nvidia.com/nemo/megatron-bridge/latest/index.html#

当前 VeRL 正在推进对该工具的集成与优化:

Mcore-Bridge(SWIFT 版本)

值得注意的是,另一团队也开发了名为 Mcore-Bridge 的工具,其集成于 ms-swift 框架中,目标同样是降低 Megatron 的使用门槛。通过该工具,用户能够:

  1. 直接加载或保存 safetensors 格式权重,无需额外转换;
  2. 实现 LoRA 权重的双向兼容;
  3. 支持 GRPO/GKD 等算法中的 Megatron 至 vLLM 权重同步;
  4. 扩展多机超大规模模型转换能力。

该 Bridge 支持 Dense、MoE及多模态结构,转换后的模型可部署于 transformers、vLLM、SGLang 等推理框架。

相关文档:

  • https://swift.readthedocs.io/zh-cn/latest/Megatron-SWIFT/Mcore-Bridge.html

总结

Mbridge 与 Megatron-Bridge 都是连接 Hugging Face 生态与 Megatron 高效训练框架的关键工具,前者侧重于原型验证和在线转换,后者作为官方实现提供更完整的集成与验证机制。随着版本迭代,VeRL 将逐步从 Mbridge 迁移至 Megatron-Bridge,以获得更稳定的功能支持和更丰富的优化特性。开发者可根据实际需求选择合适的工具,以实现大规模模型的高效训练与部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/16 16:44:09

如何在macOS上快速创建虚拟PDF打印机:免费开源解决方案完全指南

如何在macOS上快速创建虚拟PDF打印机:免费开源解决方案完全指南 【免费下载链接】RWTS-PDFwriter An OSX print to pdf-file printer driver 项目地址: https://gitcode.com/gh_mirrors/rw/RWTS-PDFwriter 你是否厌倦了每次在macOS上转换文档为PDF时都要手动…

作者头像 李华
网站建设 2026/6/16 16:42:32

从零到一:5分钟部署SGLang高性能大模型服务

从零到一:5分钟部署SGLang高性能大模型服务 【免费下载链接】sglang SGLang is a high-performance serving framework for large language models and multimodal models. 项目地址: https://gitcode.com/GitHub_Trending/sg/sglang 你是否曾经因为大模型部…

作者头像 李华
网站建设 2026/6/16 16:42:03

EasyExcel-实战-大数据量导入导出与样式处理

EasyExcel 实战:大数据量导入导出与样式处理 文章目录EasyExcel 实战:大数据量导入导出与样式处理导出怎么写才稳导入怎么处理更像样样式怎么做这几个坑最常见经验结论导出怎么写才稳 大数据导出别一口气把所有数据查出来再写。比较稳的做法是分页查询、…

作者头像 李华
网站建设 2026/6/16 16:26:25

2026年AI写作辅助网站推荐:9款高效AI工具终极指南

一、AI 全面赋能学术写作 人工智能技术正以前所未有的速度融入学术领域,AI 工具已能极大提升论文写作的效率与质量。从最初的选题构思,到中期的内容起草,再到后期的语言润色和查重,AI 实现了全流程优化。 本文旨在为您推荐 9 款目…

作者头像 李华