Device网络不通报错retcode 4
问题现象
多机场景下,HCCL Test工具执行时,报错“retcode: 4”,如下图所示:
原因分析
Device网络不通,导致建链失败。
解决步骤
在Host侧执行如下命令,分别ping每张卡,确认是否网络连通。
hccn_tool -i 0 -ping -g address 192.169.150.60
同平面卡需要两两互通,即所有机器的同号卡间要互相ping通(如:两两之间0卡ping0卡,1卡ping1卡,以此类推),同时如果为单机16卡机型,所有机器的0卡和8卡,1卡和9卡,2卡和11卡,以此类推都需要两两互通
命令如下:
hccn_tool -i 0 -ping -g address 192.169.150.60 #当前机器的0卡ping另外一台机器的一张卡的device ip。
若不通,联系相关网络同事排查网络连通性。
说明:有可能改完ip,没有对应改网关gateway,也会导致device之间不通,注意ip netmask gateway要对应配置。
父主题: HCCL Test常见问题总结