常见于算子加载阶段,有以下2种情况:
1、Server间的建链超时现象,日志报错信息如下:
2、Server内的建链超时现象,日志报错信息如下:
HCCL会在指定集群的每个Device上运行,并在集群间建立socket链接,若任一个rank或者通信链路在建链前/中发生异常,则会导致集群建链失败。常见的原因包括:
收集所有卡的plog日志后,按以下步骤排查:
如需查询tag和计算图中node name的对应关系,需开启INFO日志,在host日志中搜索:
关键字1:GenerateOpTag:graph
关键字2:GenerateTask:graph
关键字1可以看到node的hash值,关键字2可以看到nodHash对应的NodeName,协助计算图排查。
可通过hccn tool命令来确认TLS是否一致,如不一致请参考随软件包发布的《HCCN Tool 接口参考》进行TLS配置。
查询TLS状态命令:
hccn_tool -i 0 -tls -g hccn_tool -i 1 -tls -g hccn_tool -i 2 -tls -g hccn_tool -i 3 -tls -g hccn_tool -i 4 -tls -g hccn_tool -i 5 -tls -g hccn_tool -i 6 -tls -g hccn_tool -i 7 -tls -g
TLS switch值为0表示关闭,1表示开启。如果提示no certificate found,也表示TLS功能关闭。如果各个rank的TLS情况不一致,可根据hccn tool使用指南配置TLS,或者关闭所有rank的TLS功能。
关闭TLS功能命令:
hccn_tool -i 0 -tls -s enable 0 hccn_tool -i 1 -tls -s enable 0 hccn_tool -i 2 -tls -s enable 0 hccn_tool -i 3 -tls -s enable 0 hccn_tool -i 4 -tls -s enable 0 hccn_tool -i 5 -tls -s enable 0 hccn_tool -i 6 -tls -s enable 0 hccn_tool -i 7 -tls -s enable 0