HCCL初始化网卡失败,HCCP报-17错误码:ra rdev init failed, ret [-17]
HCCL在初始化时会根据rank table中的Device IP初始化Device网卡。如果初始化使用的Device IP和实际网卡的IP不一致,HCCP会初始化网卡失败并返回错误码 -17。
在用户态Host日志(需打开EVENT日志)中, grep关键字Entry-HcomInit,其identify中内容即为rankid。
使用 hccn_tool 可查看Device 网卡信息。
hccn_tool -i 0 -ip -g hccn_tool -i 1 -ip -g hccn_tool -i 2 -ip -g hccn_tool -i 3 -ip -g hccn_tool -i 4 -ip -g hccn_tool -i 5 -ip -g hccn_tool -i 6 -ip -g hccn_tool -i 7 -ip -g 或 for i in {0..7}; do hccn_tool -i $i -ip -g ; done