文档
注册

通信耗时分析及优化

通信算子识别

带有通信算子的Profiling如下图所示,Ascend Hardware展示Device侧算子的执行流水,HCCL展示通信算子的执行流水。图中的“hcom_allReduce__22”表示本次AllReduce算子的执行耗时。

通信耗时分析及优化

通信的耗时主要包含:

多Device之间的通信等待时间。

通信算子本身执行时间较为稳定,一般通信耗时的波动主要由通信等待时间导致。

如下图所示,两个Device上算子的执行不同步,导致Device 0在通信算子处存在较长的“EVENT_WAIT”耗时。多Device算子不同步,一般由Host侧耗时较长或下发不同步导致,考虑优先参考调度性能分析及优化

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词