此问题当前分析与allgather通信算子相关。在数据与计算并行度较大时,allgather算子可能受调度影响而出现数据异常,影响后续的计算。
torch.npu.synchronize()
export HCCL_INTRA_ROCE_ENABLE=1 export HCCL_INTRA_PCIE_ENABLE=0