cann/hccl：通信算子重执行对整网性能说明-程序员充电站

通信算子重执行对整网性能说明

【免费下载链接】hccl集合通信库（Huawei Collective Communication Library，简称HCCL）是基于昇腾AI处理器的高性能集合通信库，为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl

开启HCCL通信算子重执行功能后，整网端到端性能的变化与模型的切分部署方式密切相关，本节详细讲述重执行功能与网络性能的关系。

定义“关键通信域”

关键通信域为：该通信域性能的变化将会带来整网端到端性能的较大的变化。意味着该通信域非常重要，是整网的性能瓶颈。

一般而言，整网有多个通信域，多个通信域中往往存在1个关键通信域，本节性能分析就围绕该“关键通信域”展开。

如下图所示：

上述profiling中实际发生通信的有4个通信域。分别是Group_777、Group_1289、Group_257以及Group_9。

Group_1289中执行的BatchSendRecv算子，是PipelineParallel引入的，一般而言是异步通信，与计算可以异步发生，而且时间占比不大，不是关键通信域。

Group_777和Group_9，算子执行操作较少，对全局的影响较小，也不是关键通信域。

由此能够判断出，Group_257就是“关键通信域”。如果该通信域性能劣化，则会直接影响整网端到端性能。

整网性能劣化与“关键通信域”的关系

关注点1：关键通信域是否开了重执行。

一些常见的部署方式，例如张量并行（TP：Tensor Parallelism）叠加数据并行（Data Parallelism：DP），其中TP是“关键通信域”，如果TP的范围在Server内（TP<=16），由于Server内不会开启通信算子重执行，所以不会影响端到端性能。

而非关键通信域，对整网的性能影响很小。例如以下为实验室测试模型的数据：

模型	切分方式	劣化比例	说明
Llama3-8B (运行在64die规模集群上)	TP=16（关键通信域） DP=4	0.03%	仅非关键通信域DP开启重执行，对端到端性能影响较小。
GPT4_dropLess (运行在128die规模集群)	TP=8（关键通信域） PP=1 EP=1 CP=16	0.99%	仅非关键通信域CP（Context Parallelism，上下文并行）开启重执行，对端到端性能影响较小。
Qwen3-moe-235B（运行在128die规模集群）	TP=8（关键通信域） PP=1 EP=64	-0.1%	仅非关键通信域EP（Expert Parallelism，专家并行）开启重执行，对端到端性能影响较小。

关注点2：关键通信域的通信展开和计算能否重叠。

如果关键通信域开了重执行，那么该通信域的性能一定会有劣化；但是该劣化是否会引发整网劣化，还需要看该关键通信域的AI CPU展开是否能够与计算重叠（overlap）。

单个通信域开了重执行后，最大的差异是由异步展开模式变为同步展开模式，如下图，即从上面的方式变为下面的方式。

通信展开时间能否被计算掩盖，是决定该通信域是否对端到端性能有影响的关键因素，具体需要结合计算算子的情况（模型结构）进行分析。

如下图所示，计算算子耗时仅50us，由于AI_CPU展开模式带来的前后通信算子之间的空隙有150us，那么“150-50=100us”是重执行引入的开销。这个开销又是在“关键通信域”上，就会引发端到端劣化。

但是，这个劣化到底是多少，需要看关键通信域的算子在整网中的占比（与模型结构及部署方式强相关），以及这个维度的展开是否能与计算overlap。

例如，同样是EP64切分，不同的模型就有不同的劣化效果。

模型	切分方式	劣化比例	说明
DeepSeekV3（运行在64die规模集群）	EP=64	0.06%	关键通信域EP开重执行，但该模型计算时间长，重执行开销能够被计算掩盖，整网端到端性能劣化不严重。
qwen3-moe-30b (运行在64die规模集群)	EP=64	3%	关键通信域EP开重执行，重执行开销不能被计算掩盖，整网端到端有性能劣化。说明：关键通信域EP在跨超节点场景下非亲和，开启重执行整网性能会进一步劣化。

由此可见，模型端到端影响因素与模型结构强相关，重执行对整网性能的影响需要根据实际情况进行评估。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

CANN图像双线性上采样算子

aclnnUpsampleBilinear2d 【免费下载链接】ops-cv 本项目是CANN提供的图像处理、目标检测相关的算子库，实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-cv 📄 查看源码产品支持情况产品是否支持Ascend 950PR/Ascend 950D…