下载
中文
注册
NPU网口Link故障

NPU网口Link故障

2024/02/21

349

暂无评分
我要评分

问题信息

问题来源产品大类产品子类关键字
官方安装部署硬件(Atlas 800T A2 训练服务器)NPU网口 Link

问题描述

训练服务器NPU网口Link故障,CCAE告警描述如下。

解决方案

  1. 参见《Atlas 800T A2 训练服务器 升级指导书》将服务器升级至最新版本。
  2. 进入BMC界面,在“系统信息 > 网络适配器 > FLEX IO B1/B2/B3/B4”页面查看对应管模块的运行信息,如图1所示。

    图1 光模块运行信息

  3. 判断是否满足参数典型值。

    偏置电流典型值:7.00-8.00mA;通道接收/发送功率典型值:0.8-2.0mW。

    • 是:执行下一步。
    • 否:快速恢复业务并再次检查以上参数是否满足以上参数典型值,仍不满足则需要联系华为工程师进行故障分析。

  4. 在OS下输入msnpureport -f命令收集device日志。
  5. 在日志路径“slog”下执行抓取命令grep -rn "pcs_err_cnt"
  6. 判断抓取的硬件链路误码是否超过标准值50,如图2所示。

    图2 误码超标示例
    • 是:为物理链路存在异常,执行下一步。
    • 否:请联系华为研发工程师进行定位。

  7. 联系现场服务人员协助收集BMC意见收集日志,device OS日志和messages日志。
  8. 检查清污光模块或更换光模块。清污光模块请参见(多媒体)光模块和光纤日常维护注意事项
  9. 将光模块与光纤插好,DC重启设备,若设备Link正常,则向华为研发工程师反馈情况,否则,请联系华为研发工程师进行定位。

本页内容