通信耗时分析及优化
通信算子识别
带有通信算子的Profiling如下图所示,Ascend Hardware展示Device侧算子的执行流水,HCCL展示通信算子的执行流水。图中的“hcom_allReduce__22”表示本次AllReduce算子的执行耗时。
通信耗时分析及优化
通信的耗时主要包含:
多Device之间的通信等待时间。
通信算子本身执行时间较为稳定,一般通信耗时的波动主要由通信等待时间导致。
如下图所示,两个Device上算子的执行不同步,导致Device 0在通信算子处存在较长的“EVENT_WAIT”耗时。多Device算子不同步,一般由Host侧耗时较长或下发不同步导致,考虑优先参考调度性能分析及优化。
父主题: 并行性能分析及优化