下载
中文
注册

如何通过Device日志获取故障ID并排查RAS硬件故障

图1 排查流程
  1. 在Host侧服务器上,通过msnpureport工具导出Device侧日志,包括slog日志、syslog日志、黑匣子等。
    在某个有读、写、执行权限的目录(如“/var/log/npu/report”,下文以此路径为例)下执行msnpureport工具,msnpureport工具命令示例如下,其中/usr/local/Ascend是驱动包的默认安装路径,请根据实际情况替换。
    /usr/local/Ascend/driver/tools/msnpureport -f

    导出的Device日志默认存放在/var/log/npu/report目录下。

  2. 1中收集的slog日志中,在report/*/slog/dev-os-id/[run|debug]/device-os/device-os_*.log目录下找到发生问题附近时间对应Device的系统日志,检查日志中是否存在“event_id”关键字,若不存在,则跳转到3继续排查;若存在,则单击Link查找对应产品的《健康管理故障定义》并查阅其中的解决方法。

    如果slog日志中的时间与发生问题的时间相距较远,则旧日志可能已经被覆盖或清理,这种场景也会导致搜不到问题相关的“event_id”。

    此时,还可以使用npu-smi命令查询指定芯片健康状态,若存在RAS故障,则最多可以查询到最近8次故障的event id,可作为定位问题时参考:

    npu-smi命令示例如下(id表示设备ID,chip_id表示芯片ID,可以先使用npu-smi info命令获取设备ID和芯片ID):

    npu-smi info -t health -i id -c chip_id

    查询结果示例如下:

  3. 1中收集的黑匣子日志中,在report/*/hisi_logs目录下找到发生问题附近时间、对应Device的黑匣子日志,检查日志中是否存在“Hardware Error”关键字,若不存在,则表示暂未识别到硬件故障;若存在,表示未知硬件问题,需联系技术支持进一步定位处理。您可以获取日志后单击Link联系技术支持。