HCCP ra初始化失败,返回-17

适用场景

现象描述

HCCL初始化网卡失败,HCCP报-17错误码:ra rdev init failed, ret [-17]

可能原因

HCCL在初始化时会根据rank table中的Device IP初始化Device网卡。如果初始化使用的Device IP和实际网卡的IP不一致,HCCP会初始化网卡失败并返回错误码 -17。

处理步骤

  1. 确认该Device的rank id,并在ranktable中找到对应的device_ip配置,rankid获取方式:

    在用户态Host日志(需打开EVENT日志)中, grep关键字Entry-HcomInit,其identify中内容即为rankid。

  2. 确认该server的Device IP是否配置正确,若出现ranktable中device_ip配置和查询结果不一致的情况,请以查询结果为准,并修改对应rank的ranktable的"device_ip"字段。

    使用 hccn_tool 可查看Device 网卡信息。

    hccn_tool -i 0 -ip -g 
    hccn_tool -i 1 -ip -g 
    hccn_tool -i 2 -ip -g 
    hccn_tool -i 3 -ip -g 
    hccn_tool -i 4 -ip -g 
    hccn_tool -i 5 -ip -g 
    hccn_tool -i 6 -ip -g 
    hccn_tool -i 7 -ip -g 
    或
    for i in {0..7}; do hccn_tool -i $i -ip -g ; done