作者:昇腾实战派
知识地图:https://blog.csdn.net/Lumos_Lovegood/article/details/161455142
背景概述
在大规模深度学习模型训练中,高效利用分布式计算资源是关键挑战之一。MBridge 在 Hugging Face 模型和 Megatron-Core 的优化实现之间搭建了无缝桥梁,实现了高效的分布式训练和推理。它还提供了将强化学习 (RL) 与 Megatron 集成所需的工具和流程。MBridge 是一个原型项目,其理念已被Megatron-Bridge采纳。如需了解更高级的功能,例如训练循环、混合精度(FP8、BF16、FP4 等)、PEFT 等,请参考 Megatron-Bridge。
Mbridge
Mbridge 旨在构建 Hugging Face 模型与 Megatron-Core 优化实现之间的桥梁,支持高效的分布式训练与推理流程,并提供了强化学习(RL)与 Megatron 集成的相关工具。该项目属于原型阶段,其核心设计理念已被官方项目 Megatron-Bridge 采纳。
Mbridge 提供在线权重转换机制,无需依赖离线存储的 Megatron 格式权重,即支持 Hugging Face 至 Megatron 格式的双向转换。该工具还兼容多种并行策略,包括 Tensor Parallelism(TP)、Pipeline Parallelism(PP)、Context Parallelism(CP)等。
相关资源:
- 代码仓库:https://github.com/ISEEKYAN/mbridge
目前,VeRL 框架已集成 Mbridge,预计在未来版本中逐步迁移至 Megatron-Bridge。具体版本计划如下:
- v0.6.1 及 v0.7.x:默认使用 Mbridge;
- v0.8:计划切换至 Megatron-Bridge 为默认选项;
- v0.9:将移除对 Mbridge 的支持。
Megatron-Bridge
Megatron-Bridge 是 NVIDIA NeMo 团队推出的官方转换层,用于实现 Hugging Face 与 Megatron-Core 之间的双向模型与权重转换。其内置验证机制,确保转换过程中的准确性和检查点完整性。此外,该项目还提供模型导出工具,支持转换为 TensorRT-LLM 等推理优化格式。
主要功能组件:
- 双向转换器:支持 Hugging Face 与 Megatron 格式的互转;
- 推理导出工具:位于
examples/export/,支持多种部署格式; - 检查点兼容层:提供多种模型格式的读写支持。
相关资源:
- 代码仓库:https://github.com/NVIDIA-NeMo/Megatron-Bridge
- 官方文档:https://docs.nvidia.com/nemo/megatron-bridge/latest/index.html#
当前 VeRL 正在推进对该工具的集成与优化:
Mcore-Bridge(SWIFT 版本)
值得注意的是,另一团队也开发了名为 Mcore-Bridge 的工具,其集成于 ms-swift 框架中,目标同样是降低 Megatron 的使用门槛。通过该工具,用户能够:
- 直接加载或保存 safetensors 格式权重,无需额外转换;
- 实现 LoRA 权重的双向兼容;
- 支持 GRPO/GKD 等算法中的 Megatron 至 vLLM 权重同步;
- 扩展多机超大规模模型转换能力。
该 Bridge 支持 Dense、MoE及多模态结构,转换后的模型可部署于 transformers、vLLM、SGLang 等推理框架。
相关文档:
- https://swift.readthedocs.io/zh-cn/latest/Megatron-SWIFT/Mcore-Bridge.html
总结
Mbridge 与 Megatron-Bridge 都是连接 Hugging Face 生态与 Megatron 高效训练框架的关键工具,前者侧重于原型验证和在线转换,后者作为官方实现提供更完整的集成与验证机制。随着版本迭代,VeRL 将逐步从 Mbridge 迁移至 Megatron-Bridge,以获得更稳定的功能支持和更丰富的优化特性。开发者可根据实际需求选择合适的工具,以实现大规模模型的高效训练与部署。