故障诊断
- 创建诊断结果输出目录。
mkdir 诊断结果输出目录
- 执行命令开始进行诊断。
ascend-fd diag -i 诊断输入目录 -o 诊断结果输出目录
训练任务异常退出问题回显示例如下:
The diag job starts. Please wait. +----------------------------------------------------------------------------------------------------------------------------+ | Ascend Fault-Diag Report | +--------------+------------+------------------------------------------------------------------------------------------------+ | 版本信息 | {version} | | +--------------+------------+------------------------------------------------------------------------------------------------+ | 根因节点分析 | 类型 | 描述 | +--------------+------------+------------------------------------------------------------------------------------------------+ | | 说明 | 根因节点分析检测出了多个的疑似故障根因节点,将优先排查这几个节点 | +--------------+------------+------------------------------------------------------------------------------------------------+ | | 根因节点 | ['worker-0 device-0', 'worker-1 device-0'] | | | 现象描述 | 部分节点发生RoCE重传超次(ERROR CQE),此类节点为疑似根因节点,请排查。 | | | 根因节点链 | ['worker-1 device-0 -> worker-1 device-0', 'worker-0 device-0 -> worker-0 device-0'] | | | 首错节点 | worker-0 device-0: 2023-08-02-03:22:44.809744 | | | 尾错节点 | worker-1 device-6: 2023-08-02-11:22:39.752586 | +--------------+------------+------------------------------------------------------------------------------------------------+ | 根因设备分析 | 类型 | 描述 | +--------------+------------+------------------------------------------------------------------------------------------------+ | | 故障码 | 20017 | | | 根因设备 | ['worker-0', 'worker-1'] | | | 故障分类 | 类别:Network 组件:Network 模块:Network | | | 故障名称 | 网络错包增加 | | | 故障描述 | TX网络错包增加; | | | 建议方案 | 1. 出现TX网络错包增加现象, 相关影响指标为roce_tx_err_pkt_num, 请联系物理网络运维同事; | +--------------+------------+------------------------------------------------------------------------------------------------+ | | 故障码 | 20016 | | | 根因设备 | ['worker-0', 'worker-1'] | | | 故障分类 | 类别:Network 组件:Network 模块:Network | | | 故障名称 | 网络错包增加 | | | 故障描述 | RX网络错包增加; | | | 建议方案 | 1. 出现RX网络错包增加现象, 相关影响指标为roce_rx_err_pkt_num, 请联系物理网络运维同事; | +--------------+------------+------------------------------------------------------------------------------------------------+ | | 故障码 | 20015 | | | 根因设备 | ['worker-1'] | | | 故障分类 | 类别:Network 组件:Network 模块:Network | | | 故障名称 | Link Down: NPU端闪断错误 | | | 故障描述 | Link Down: NPU端闪断错误; | | | 建议方案 | 1. 请联系物理网络运维同事, 收集交换机日志信息; | | | | 2. 排查交换机链路闪断问题; | +--------------+------------+------------------------------------------------------------------------------------------------+ The diag job is complete.
训练过程中性能劣化问题回显:
The diag job starts. Please wait. +---------------------------------------------------------------------------------------------------------------------------------------------+ | Ascend Fault-Diag Report | +--------------+------------+-----------------------------------------------------------------------------------------------------------------+ | 版本信息 | {version} | | +--------------+------------+-----------------------------------------------------------------------------------------------------------------+ | 根因节点分析 | 类型 | 描述 | +--------------+------------+-----------------------------------------------------------------------------------------------------------------+ | | 说明 | 未诊断出根因节点,根因设备分析将尝试检测全部设备 | +--------------+------------+-----------------------------------------------------------------------------------------------------------------+ | | 根因节点 | ['Unknown Device'] | | | 现象描述 | 所有节点Plog都没有错误日志信息, 且所有节点Plog都没有心跳信息。无法定位根因节点。同时请确认是否为正常的训练任务?| +--------------+------------+-----------------------------------------------------------------------------------------------------------------+ | 根因设备分析 | 类型 | 描述 | +--------------+------------+-----------------------------------------------------------------------------------------------------------------+ | | 状态码 | 20000 | | | 结果描述 | 故障根因设备诊断无异常,可能情况为: a.无相关故障发生; b.存在未知故障; | +--------------+------------+-----------------------------------------------------------------------------------------------------------------+ | 设备资源分析 | 类型 | 描述 | +--------------+------------+-----------------------------------------------------------------------------------------------------------------+ | | 说明 | 本分析模块下部分分析子项执行失败,诊断结果可能会受到影响从而不准确。请查看模块日志内的详细信息 | +--------------+------------+-----------------------------------------------------------------------------------------------------------------+ | | 故障码 | 30000 | | | 故障名称 | 设备资源诊断无异常 | | | 故障描述 | 未发生NPU过载降频和资源抢占; | | | 建议方案 | 无; | +--------------+------------+-----------------------------------------------------------------------------------------------------------------+ | 网络拥塞分析 | 类型 | 描述 | +--------------+------------+-----------------------------------------------------------------------------------------------------------------+ | | 故障码 | 31001 | | | 故障设备 | worker-0 | | | 故障节点 | ['device-0', 'device-1'] | | | 故障名称 | 链路拥塞异常 | | | 故障描述 | 部分通信链路发生冲突拥塞; | | | 建议方案 | 1. 建议检查交换机路由策略; | +--------------+------------+-----------------------------------------------------------------------------------------------------------------+ The diag job is complete.
完成诊断后,用户可根据诊断结果中的建议方案进行优化。
诊断结果输出目录 ├── fault_diag_result ├── diag_report.json └── ascend_faultdiag_run.log # 组件诊断日志
父主题: 使用指导