下载
中文
注册

测试命令卡数与实际卡数不一致,返回retcode 11

问题现象

执行HCCL Test测试命令时,返回“return code 11”错误,例如:

“hccl interface return errreturn err ./common/src/hccl_test_common.cc:499, retcode: 11”

原因分析

HCCL Test测试命令中配置的卡数与实际的卡数不一致。如下错误命令所示:

mpirun -n 16 ./bin/all_reduce_test -b 8K -e 1G -f 2 -d int8 -o sum -p 8 -c 0

-n:需要启动的NPU总数。

-p:单个计算节点上参与训练的NPU个数。

示例命令错误的原因为:这是一个单机测试命令,“ -n 16”说明要启动NPU总数为16个, “-p 8 ”单个节点参与训练NPU为8,导致这个节点的卡数不够总共要启动的卡数。

解决步骤

修改测试命令,检查“-n”是否与“-p”的NPU个数(进程数)是否书写正确。

  • -n:需要启动的NPU总数
  • -p:单个计算节点上参与训练的NPU个数