测试命令卡数与实际卡数不一致,返回retcode 11
问题现象
执行HCCL Test测试命令时,返回“return code 11”错误,例如:
“hccl interface return errreturn err ./common/src/hccl_test_common.cc:499, retcode: 11”
原因分析
HCCL Test测试命令中配置的卡数与实际的卡数不一致。如下错误命令所示:
mpirun -n 16 ./bin/all_reduce_test -b 8K -e 1G -f 2 -d int8 -o sum -p 8 -c 0
-n:需要启动的NPU总数。
-p:单个计算节点上参与训练的NPU个数。
示例命令错误的原因为:这是一个单机测试命令,“ -n 16”说明要启动NPU总数为16个, “-p 8 ”单个节点参与训练NPU为8,导致这个节点的卡数不够总共要启动的卡数。
解决步骤
修改测试命令,检查“-n”是否与“-p”的NPU个数(进程数)是否书写正确。
- -n:需要启动的NPU总数
- -p:单个计算节点上参与训练的NPU个数
父主题: HCCL Test常见问题总结