故障处理流程
本文主要以开发者在执行推理、训练过程中可能遇到的各类异常故障现象为入口,提供自助式问题定位、问题处理方法,方便开发者快速定位并解决故障,内容包括:屏幕打印的错误码信息及处理方法、一键式日志收集以及各类问题定位工具使用。
故障处理总体流程主要包括以下过程:收集故障信息、分析故障原因、故障排除。具体实施过程如图1所示。
- 收集故障信息
故障信息是故障处理的重要依据,故障处理人员应尽可能多的收集故障信息,包括但不限于日志、环境信息等。
关于日志信息,一般采用至上而下的日志分析方法,根据业务流程逐步缩小到底层故障现象。
- 查看plog日志,确认host的报错信息,plog日志路径为:/root/ascend/log/debug/plog/plog-pid_yyyymmddtttttttt.log。
系统默认为ERROR级别的日志,如果需要更详细的日志,可以使用 export ASCEND_GLOBAL_LOG_LEVEL=0 或者export ASCEND_GLOBAL_LOG_LEVEL=1开启DEBUG或者INFO级别的日志。
注意:通过上面命令行方式,环境变量仅生效于执行界面,并且在需要重新执行任务才生效。
- 查看device日志,确认device的报错信息。
使用/usr/local/Ascend/driver/tools/msnpureport命令将device侧收集日志到host侧,然后进行查看。
- 查看plog日志,确认host的报错信息,plog日志路径为:/root/ascend/log/debug/plog/plog-pid_yyyymmddtttttttt.log。