news 2026/5/10 10:12:52

cann/hccl:通信算子重执行对整网性能说明

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
cann/hccl:通信算子重执行对整网性能说明

通信算子重执行对整网性能说明

【免费下载链接】hccl集合通信库(Huawei Collective Communication Library,简称HCCL)是基于昇腾AI处理器的高性能集合通信库,为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl

开启HCCL通信算子重执行功能后,整网端到端性能的变化与模型的切分部署方式密切相关,本节详细讲述重执行功能与网络性能的关系。

定义“关键通信域”

关键通信域为:该通信域性能的变化将会带来整网端到端性能的较大的变化。意味着该通信域非常重要,是整网的性能瓶颈。

一般而言,整网有多个通信域,多个通信域中往往存在1个关键通信域,本节性能分析就围绕该“关键通信域”展开。

如下图所示:

上述profiling中实际发生通信的有4个通信域。分别是Group_777、Group_1289、Group_257以及Group_9。

Group_1289中执行的BatchSendRecv算子,是PipelineParallel引入的,一般而言是异步通信,与计算可以异步发生,而且时间占比不大,不是关键通信域。

Group_777和Group_9,算子执行操作较少,对全局的影响较小,也不是关键通信域。

由此能够判断出,Group_257就是“关键通信域”。如果该通信域性能劣化,则会直接影响整网端到端性能。

整网性能劣化与“关键通信域”的关系

  • 关注点1:关键通信域是否开了重执行。

    一些常见的部署方式,例如张量并行(TP:Tensor Parallelism)叠加数据并行(Data Parallelism:DP),其中TP是“关键通信域”,如果TP的范围在Server内(TP<=16),由于Server内不会开启通信算子重执行,所以不会影响端到端性能。

    而非关键通信域,对整网的性能影响很小。例如以下为实验室测试模型的数据:

    模型切分方式劣化比例说明
    Llama3-8B
    (运行在64die规模集群上)
    TP=16(关键通信域)
    DP=4
    0.03%仅非关键通信域DP开启重执行,对端到端性能影响较小。
    GPT4_dropLess
    (运行在128die规模集群)
    TP=8(关键通信域)
    PP=1
    EP=1
    CP=16
    0.99%仅非关键通信域CP(Context Parallelism,上下文并行)开启重执行,对端到端性能影响较小。
    Qwen3-moe-235B(运行在128die规模集群)TP=8(关键通信域)
    PP=1
    EP=64
    -0.1%仅非关键通信域EP(Expert Parallelism,专家并行)开启重执行,对端到端性能影响较小。
  • 关注点2:关键通信域的通信展开和计算能否重叠。

    如果关键通信域开了重执行,那么该通信域的性能一定会有劣化;但是该劣化是否会引发整网劣化,还需要看该关键通信域的AI CPU展开是否能够与计算重叠(overlap)。

    单个通信域开了重执行后,最大的差异是由异步展开模式变为同步展开模式,如下图,即从上面的方式变为下面的方式。

    通信展开时间能否被计算掩盖,是决定该通信域是否对端到端性能有影响的关键因素,具体需要结合计算算子的情况(模型结构)进行分析。

    如下图所示,计算算子耗时仅50us,由于AI_CPU展开模式带来的前后通信算子之间的空隙有150us,那么“150-50=100us”是重执行引入的开销。这个开销又是在“关键通信域”上,就会引发端到端劣化。

    但是,这个劣化到底是多少,需要看关键通信域的算子在整网中的占比(与模型结构及部署方式强相关),以及这个维度的展开是否能与计算overlap。

    例如,同样是EP64切分,不同的模型就有不同的劣化效果。

    模型切分方式劣化比例说明
    DeepSeekV3(运行在64die规模集群)EP=640.06%关键通信域EP开重执行,但该模型计算时间长,重执行开销能够被计算掩盖,整网端到端性能劣化不严重。
    qwen3-moe-30b
    (运行在64die规模集群)
    EP=643%关键通信域EP开重执行,重执行开销不能被计算掩盖,整网端到端有性能劣化。
    说明:关键通信域EP在跨超节点场景下非亲和,开启重执行整网性能会进一步劣化。

    由此可见,模型端到端影响因素与模型结构强相关,重执行对整网性能的影响需要根据实际情况进行评估。

【免费下载链接】hccl集合通信库(Huawei Collective Communication Library,简称HCCL)是基于昇腾AI处理器的高性能集合通信库,为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/10 10:12:51

CANN图像双线性上采样算子

aclnnUpsampleBilinear2d 【免费下载链接】ops-cv 本项目是CANN提供的图像处理、目标检测相关的算子库&#xff0c;实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-cv &#x1f4c4; 查看源码 产品支持情况 产品是否支持Ascend 950PR/Ascend 950D…

作者头像 李华
网站建设 2026/5/10 10:11:03

Aegis:基于契约先行的多智能体协同开发质量保障体系

1. 项目概述&#xff1a;Aegis&#xff0c;为AI开发时代构筑的质量护盾如果你和我一样&#xff0c;深度使用过Claude Code、Cursor这类AI编程助手&#xff0c;一定体验过那种“生产力爆炸”的快感。一个想法&#xff0c;几句话描述&#xff0c;AI就能在几分钟内生成一个功能模块…

作者头像 李华
网站建设 2026/5/10 10:10:33

抖音批量下载工具终极指南:从零到精通的完整教程

抖音批量下载工具终极指南&#xff1a;从零到精通的完整教程 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support. 抖…

作者头像 李华
网站建设 2026/5/10 10:09:34

从空密码到安全加固:详解MySQL root@localhost初始安全风险与实战修复

1. 为什么MySQL默认安装会有空密码风险&#xff1f; 第一次在Ubuntu系统上安装MySQL时&#xff0c;很多开发者都会惊讶地发现&#xff1a;直接用mysql -uroot就能登录数据库&#xff0c;完全不需要密码。这个看似方便的设计其实隐藏着重大安全隐患。我去年就遇到过因为这个默认…

作者头像 李华
网站建设 2026/5/10 10:06:58

流体力学中的可解释AI:SHAP方法原理、算法与应用全解析

1. 项目概述&#xff1a;为什么流体力学需要“打开”AI的黑箱&#xff1f; 如果你在流体力学或传热领域工作过&#xff0c;无论是做CFD仿真、实验研究还是工程优化&#xff0c;最近几年肯定没少听人提“机器学习”和“深度学习”。这些数据驱动的方法确实厉害&#xff0c;它们能…

作者头像 李华
网站建设 2026/5/10 10:03:17

STM32晶振引脚(OSCIN/OSCOUT)复用为GPIO的实战配置与性能考量

1. 晶振引脚复用为GPIO的典型场景 很多STM32开发者都遇到过这样的尴尬情况&#xff1a;在PCB设计阶段&#xff0c;由于引脚分配疏忽&#xff0c;不小心把I2C、UART等外设线路布局到了OSCIN/OSCOUT晶振引脚上。等到板子打样回来才发现这个错误&#xff0c;重新制板不仅增加成本还…

作者头像 李华