hostfile与测试命令不匹配报错retcode 11
问题现象
多机场景下执行HCCL Test测试工具时,报错:This is an error in init_hcclComm.retcode: 11,如下所示:
原因分析
- hostfile文件中配置的每个节点使用的卡数和测试命令-p不匹配,“-p”代表每个节点使用多少张卡(即每个节点的进程数)。
- hostfile文件中配置的节点数量和mpirun -n数量不匹配,“-n”代表总共使用多少张卡(即节点数量*每个节点的卡数)。
mpirun命令示例:
mpirun -f hostfile -n 16 ./bin/all_reduce_test -b 8K -e 4G -f 2 -d fp32 -o sum -p 8
解决步骤
修改hostfile配置文件或者mpirun测试命令,使二者配置的总卡数以及每个节点使用的卡数保持一致。
父主题: HCCL Test常见问题总结