文档
注册

工具介绍

适用场景

分布式训练场景下,开发者可以通过此工具测试HCCL(Huawei Collective Communication Library)集合通信的功能正确性以及性能。

工具源码包获取

安装完CANN Toolkit软件包后,HCCL性能测试工具源码存放${INSTALL_DIR}/tools/hccl_test路径下,${INSTALL_DIR}请替换为CANN软件安装后文件存储路径。例如,若安装的Ascend-cann-toolkit软件包,则安装后文件存储路径为:$HOME/Ascend/ascend-toolkit/latest。

使用前需要参考下面的章节进行工具的编译。

约束说明

针对Atlas 训练系列产品,当前版本HCCL性能测试工具最大支持集群组网包含4096张卡的场景。

针对Atlas A2 训练系列产品,当前版本HCCL性能测试工具最大支持集群组网包含32K张卡的场景。

背景知识

  • 集合通信带宽

    集合通信带宽指的是“算法带宽”,即“执行某集合通信操作时的数据量/耗时”。

    例如单机8卡做allreduce操作,则“数据量”除以 “做完allreduce的耗时” 就是allreduce算子执行的算法带宽。

    使用HCCL性能测试工具进行测试时,带宽数据即指的“算法带宽”。

    影响算法带宽的主要因素有:
    • Server间的RDMA带宽(RoCE链路)。
    • Server内卡间SDMA通信带宽(HCCS链路)。
    • PCIe链路带宽。
    • 通信算法自身编排实现。
  • 物理带宽

    集群中的物理带宽包括HCCS链路物理带宽以及RoCE链路物理带宽,物理带宽是影响算法带宽的一个因素。

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词