结果说明
HCCL Test工具执行完成后,回显如下所示:
图1 HCCL Test工具执行结果示例

各字段含义如下:
- data_size:单个NPU上参与集合通信的数据量,单位为Bytes。
- aveg_time:集合通信算子执行耗时,单位为us。
- alg_bandwidth:集合通信算子执行带宽,单位为GB/s。
- check_result:集合通信算子执行结果校验标识,取值为:success、failed、NULL。
- 若执行工具时“-c”参数配置为“0”,即未开启结果校验,check_result状态为NULL。
- 当算子计算结果出现溢出或超出可精确表达的数值范围时,不会开启结果校验,check_result状态为NULL。
HCCL Test工具通过将算子输入初始化为固定值,并检验算子输出是否符合预期来判断通信结果是否正确。由于计算机数值表达范围和表达精度有限,针对归约类算子的乘法与加法操作,如果卡数过多,可能会出现结果溢出或超出可精确表达的数值范围的情况,导致无法准确校验,此种情况check_result状态会显示为NULL。针对归约类算子,乘与加操作在不同的算子类型与数据类型下,结果校验所能支持的最大卡数如下表所示:
操作类型
算子类型
数据类型
INT8
INT16
INT32
INT64
FP32
FP16
BF16
乘(prod)
AllReduce
6
14
30
62
127
15
127
Reduce
ReduceScatter
加(sum)
AllReduce
63
16383
~1e9
~1e18
~1e6
511
63
Reduce
ReduceScatter
11
181
46340
~1e9
2896
31
11
父主题: HCCL性能测试工具