下载
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助
昇腾小AI

故障处理流程

本文主要以开发者在执行推理、训练过程中可能遇到的各类异常故障现象为入口,提供自助式问题定位、问题处理方法,方便开发者快速定位并解决故障,内容包括:屏幕打印的错误码信息及处理方法一键式日志收集以及各类问题定位工具使用

故障处理总体流程主要包括以下过程:收集故障信息、分析故障原因、故障排除。具体实施过程如图1所示。

图1 故障处理流程
  • 收集故障信息

    故障信息是故障处理的重要依据,故障处理人员应尽可能多的收集故障信息,包括但不限于日志、环境信息等。

    关于日志信息,一般采用至上而下的日志分析方法,根据业务流程逐步缩小到底层故障现象。

    1. 查看plog日志,确认host的报错信息,plog日志路径为:/root/ascend/log/[run|debug]/plog/plog-pid_yyyymmddtttttttt.log。

      系统默认为ERROR级别的日志,如果需要更详细的日志,可以使用 export ASCEND_GLOBAL_LOG_LEVEL=0 或者export ASCEND_GLOBAL_LOG_LEVEL=1开启DEBUG或者INFO级别的日志。

      注意:通过上面命令行方式,环境变量仅生效于执行界面,并且在需要重新执行任务才生效。

    2. 查看device日志,确认device的报错信息。

      使用/usr/local/Ascend/driver/tools/msnpureport命令将device侧收集日志到host侧,然后进行查看。

  • 分析故障原因

    分析故障原因是指从众多可能原因中找出故障原因的过程。通过一定的方法或手段分析、比较各种可能的故障成因,不断排除可能因素,最终确定故障发生的具体原因。

  • 故障排除

    故障排除是指根据不同的故障原因清除故障的过程。

  • 记录故障处理过程

    故障排除后应记录故障处理要点,给出针对此类故障的防范和改进措施,避免同类故障再次发生。

    您也可以将故障处理案例分享到华为开发者社区论坛,分享您的经验、提供给其他开发者参考,形成良性循环,丰富社区内容,大家共同受益。

    本文提供的故障处理步骤中涉及的第三方工具(如eseye u、Netron),均为举例,非必须工具,请根据您自己实际情况参考使用或替换成其他类似工具。

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词