故障诊断
- 创建诊断结果输出目录。
mkdir 诊断结果输出目录
- 执行命令开始进行诊断。
ascend-fd diag -i 诊断输入目录 -o 诊断结果输出目录
训练任务异常退出问题,回显示例如下:The diag job starts. Please wait. Job id: [****], run log file is [****]. +------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ | Ascend Fault-Diag Report | +--------------+------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ | 版本信息 | 6.0.RC2 | | +--------------+------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ | 根因节点分析 | 类型 | 描述 | +--------------+------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ | | 说明 | 故障节点链中对端节点无法确认具体的Worker ID和Device ID,请通过IP检查对应Device设备 | +--------------+------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ | | 根因节点 | ['worker-0 device-2'] | | | 首错节点 | worker-1 device-2: 2023-09-01-06:35:52.960343 | | | 现象描述 | 部分节点发生RoCE重传超次(ERROR CQE),此类节点为疑似根因节点,请排查。 | | | 根因节点链 | ['worker-0 device-2 -> 192.168.102.220'] | +--------------+------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ | 故障事件分析 | 类型 | 描述 | +--------------+------------+---------------------------------------------------------------------------------------------------------------------------------------------------------------+ | | 说明 | 关键传播链只展示每个根因设备最长的一条链路 | +--------------+------------+---------------------------------------------------------------------------------------------------------------------------------------------------------------+ | | 状态码 | xxx | | | 故障分类 | 类别:Network 组件:Network 模块:Network | | | 根因设备 | ['worker-0 device-2'] | | | 故障名称 | Link Down: NPU端闪断错误 | | | 故障描述 | 此服务器上某NPU网口发生Link Down闪断错误,且闪断时间超过30s。 | | | 建议方案 | 1. 请联系物理网络运维同事,收集交换机日志信息,并排查有无硬件问题(光模块是否在位、交换机链路是否闪断等); | | | 关键日志 | /usr/local/Ascend/driver/tools/hccn_tool -i 2 -link_stat -g | | | | [devid 2]current time : Fri Sep 1 06:37:26 2023 | | | | [devid 2]link up count : 2 | | | | [devid 2]link change records : | | | | [devid 2] Fri Sep 1 06:34:43 2023 LINK DOWN | | | | [devid 2] Thu Aug 31 07:30:46 2023 LINK UP | | | | [devid 2] Thu Aug 31 07:30:44 2023 LINK DOWN | | | | [devid 2] Thu Aug 31 07:30:43 2023 LINK UP | | | 关键传播链 | ['worker-0'] | | | | 故障码1(Link Down: NPU端闪断错误)-> 故障码2(RDMA通信重传超次)-> 故障码3(notify wait超时) | +--------------+------------+---------------------------------------------------------------------------------------------------------------------------------------------------------------+ The diag job is complete.
训练过程中性能劣化问题回显:
+--------------------------------------------------------------------------------------------------------------------------------------------------+ | Ascend Fault-Diag Report | +--------------+----------+------------------------------------------------------------------------------------------------------------------------+ | 版本信息 | 6.0.RC2 | | +--------------+----------+------------------------------------------------------------------------------------------------------------------------+ | 根因节点分析 | 类型 | 描述 | +--------------+----------+------------------------------------------------------------------------------------------------------------------------+ | | 说明 | 未诊断出根因节点,故障事件分析将尝试检测全部设备 | +--------------+----------+------------------------------------------------------------------------------------------------------------------------+ | | 根因节点 | ['Unknown Device'] | | | 现象描述 | 所有有效节点的Plog都没有错误日志信息, 且所有节点Plog都没有心跳信息。无法定位根因节点。同时请确认是否为正常的训练任务? | +--------------+----------+------------------------------------------------------------------------------------------------------------------------+ | 故障事件分析 | 类型 | 描述 | +--------------+----------+------------------------------------------------------------------------------------------------------------------------+ | | 状态码 | NORMAL_OR_UNSUPPORTED | | | 结果描述 | 故障事件分析模块无结果,可能为正常训练作业,无故障发生。如果训练任务异常中断,存在问题无法解决,请联系华为工程师处理。 | | +--------------+----------+------------------------------------------------------------------------------------------------------------------------+ | 设备资源分析 | 类型 | 描述 | +--------------+----------+------------------------------------------------------------------------------------------------------------------------+ | | 说明 | 本分析模块下部分分析子项执行失败,诊断结果可能会受到影响从而不准确。请查看模块日志内的详细信息 | +--------------+----------+------------------------------------------------------------------------------------------------------------------------+ | | 状态码 | xxx | | | 故障设备 | worker-0 | | | 故障进程 | [2381084, 2381097] | | | 故障区间 | [('2023-08-11 02:18:00', '2023-08-11 02:21:00'), '故障概率 : 0.663'] | | | 故障名称 | CPU抢占(部分进程抢占) | | | 故障描述 | 设备资源产生异常,部分训练进程发生CPU资源抢占。 | +--------------+----------+------------------------------------------------------------------------------------------------------------------------+ | 网络拥塞分析 | 类型 | 描述 | +--------------+----------+------------------------------------------------------------------------------------------------------------------------+ | | 状态码 | xxx | | | -------- | | | | 故障设备 | worker-0 | | | 故障节点 | ['device-0', 'device-1', 'device-2', 'device-3', 'device-4', 'device-5', 'device-6', 'device-7'] | | | -------- | | | | 故障设备 | worker-1 | | | 故障节点 | ['device-0', 'device-1', 'device-2', 'device-3', 'device-4', 'device-5', 'device-6', 'device-7'] | | | -------- | | | | 故障名称 | 链路拥塞异常 | | | 故障描述 | 部分通信链路发生冲突拥塞。 | | | 建议方案 | 建议检查交换机路由策略。 | +--------------+----------+------------------------------------------------------------------------------------------------------------------------+
回显的关键参数说明如下:
表1 关键参数说明 一级参数
二级参数
说明
根因节点分析
-
用于分析故障根因节点。
-
根因节点
根因设备所在的节点。
-
Plog日志
当根因节点为Unknown Device且存在首错节点时,展示首错节点从首个error日志行开始的前10行Plog日志。
-
首错节点
首错节点的原始Plog日志请查看worker-1上对应Pid的Plog日志:plog-26251_xxx.log。
故障事件分析
-
用于分析故障根因节点所在设备的根因错误。
-
状态码
- 当诊断出故障时,显示具体的故障码。
- 当未诊断出故障时,显示NORMAL OR UNSUPPORTED。
-
故障名称
具体的故障名称。
-
故障分类
故障的类别、及所在的组件和模块。
-
根因设备
发生故障的设备。
-
故障描述
针对该故障的详细描述或说明。
-
建议方案
针对该故障的处理建议。
-
关键日志
该故障对应的故障日志。
-
关键传播链
展示该故障对应每个根因设备最长的一条链路。
设备资源分析
-
用于分析设备的资源状态。
-
状态码
- 当诊断出故障时,显示具体的故障码。
- 当未诊断出故障时,显示NODE_DIAGNOSIS_NORMAL。
-
故障设备
发生故障所在的节点名称。
-
故障名称
具体的故障名称。
-
建议方案
针对该故障的处理建议。
网络拥塞分析
-
用于分析节点间的网络状态。
-
状态码
- 当诊断出故障时,显示具体的故障码。
- 当未诊断出故障时,显示NET_DIAGNOSIS_NORMAL。
-
故障设备
发生故障所在的节点名称。
-
故障名称
具体的故障名称。
-
建议方案
针对该故障的处理建议。
注:
- 回显出现根因节点分析和故障事件分析,表示当前故障已经导致训练任务异常退出。
- 回显未诊断出根因节点且故障事件分析无结果,才会执行设备资源分析和网络拥塞分析,表示当前故障属于性能劣化问题,不会导致训练任务异常退出。
完成诊断后,用户可根据诊断结果中的建议方案进行优化。
诊断结果输出目录 ├── fault_diag_result ├── diag_report.json # 诊断结果
父主题: 使用指导