NPU网口Link故障
2024/02/21
349
问题信息
问题来源 | 产品大类 | 产品子类 | 关键字 |
---|---|---|---|
官方 | 安装部署 | 硬件(Atlas 800T A2 训练服务器) | NPU网口 Link |
问题描述
训练服务器NPU网口Link故障,CCAE告警描述如下。
解决方案
- 参见《Atlas 800T A2 训练服务器 升级指导书》将服务器升级至最新版本。
- 进入BMC界面,在“系统信息 > 网络适配器 > FLEX IO B1/B2/B3/B4”页面查看对应管模块的运行信息,如图1所示。
- 判断是否满足参数典型值。
偏置电流典型值:7.00-8.00mA;通道接收/发送功率典型值:0.8-2.0mW。
- 是:执行下一步。
- 否:快速恢复业务并再次检查以上参数是否满足以上参数典型值,仍不满足则需要联系华为工程师进行故障分析。
- 在OS下输入msnpureport -f命令收集device日志。
- 在日志路径“slog”下执行抓取命令grep -rn "pcs_err_cnt"。
- 判断抓取的硬件链路误码是否超过标准值50,如图2所示。
- 是:为物理链路存在异常,执行下一步。
- 否:请联系华为研发工程师进行定位。
- 联系现场服务人员协助收集BMC意见收集日志,device OS日志和messages日志。
- 检查清污光模块或更换光模块。清污光模块请参见(多媒体)光模块和光纤日常维护注意事项。
- 将光模块与光纤插好,DC重启设备,若设备Link正常,则向华为研发工程师反馈情况,否则,请联系华为研发工程师进行定位。
本页内容