EJ0002打屏报错
问题现象
拉起训练进程时,报EJ0002 Environment Error,此报错通常由于环境异常,导致rdev初始化失败,拉起训练进程失败。
查看HCCP初始化ra_rdev阶段报错,对应HDC接口报错信息为:ra hdc message process failed ret(-67)
[ERROR] HCCP(46430,alltoallv_test):2023-09-21-03:43:49.546.469 [ra hdc.c:1270]tid:46430,ra_hdc_rdev_init(1270) : [init][ra_hdc_rdev]ra hdc message process failed ret(-67) phy_id(3) [ERROR] HCCP(46430,alltoallv_test):2023-09-21-03:43:49.546.488 [ra_host.c:621]tid:46430,ra_rdev_init(621) : [init][ra_rdev]ra rdev init failed. ret(-67)
原因分析
网卡down导致初始化时,HCCP调用HDC接口返回-67,对应错误码定义(#define ENOLINK 67 /* Link has been severed */)
解决方法
- 执行如下命令,检查网口状态。
for i in {0..7}; do hccn_tool -i $i -link -g ; done
- 用户自行排查物理链路是否连通,检查软件配置是否正确。
- 重新配置ip和netmask(有可能未配置ip)
hccn_tool -a -cfg recovery
基于/etc/hccn.conf中配置恢复环境配置
- 查询光模块是否在位(evb环境无光模块)
for i in {0..7}; do hccn_tool -i $i -optical -g; done
- 查询交换机信息(交换机信息会有缺失)
for i in {0..7}; do hccn_tool -i $i -lldp -g; done
- 咨询环境人员光纤类型,是否交换机打开了对应的FEC策略、CDR版本是否过老,需要升级、是否光模块问题,将有问题的光模块+光纤和无问题的交换验证
- 重新配置ip和netmask(有可能未配置ip)
父主题: HCCP常见问题总结