文档
注册

故障诊断

  1. 创建诊断结果输出目录。
    mkdir 诊断结果输出目录
  2. 执行命令开始进行诊断。
    ascend-fd diag -i 诊断输入目录  -o 诊断结果输出目录 

    训练任务异常退出问题回显示例如下:

    The diag job starts. Please wait.
    +----------------------------------------------------------------------------------------------------------------------------+
    |                                                  Ascend Fault-Diag Report                                                  |
    +--------------+------------+------------------------------------------------------------------------------------------------+
    |   版本信息   |  {version}   |                                                                                                |
    +--------------+------------+------------------------------------------------------------------------------------------------+
    | 根因节点分析 |    类型    | 描述                                                                                           |
    +--------------+------------+------------------------------------------------------------------------------------------------+
    |              |    说明    | 根因节点分析检测出了多个的疑似故障根因节点,将优先排查这几个节点                               |
    +--------------+------------+------------------------------------------------------------------------------------------------+
    |              |  根因节点  | ['worker-0 device-0', 'worker-1 device-0']                                                     |
    |              |  现象描述  | 部分节点发生RoCE重传超次(ERROR CQE),此类节点为疑似根因节点,请排查。                          |
    |              | 根因节点链 | ['worker-1 device-0 -> worker-1 device-0', 'worker-0 device-0 -> worker-0 device-0']           |
    |              |  首错节点  | worker-0 device-0: 2023-08-02-03:22:44.809744                                                  |
    |              |  尾错节点  | worker-1 device-6: 2023-08-02-11:22:39.752586                                                  |
    +--------------+------------+------------------------------------------------------------------------------------------------+
    | 根因设备分析 |    类型    | 描述                                                                                           |
    +--------------+------------+------------------------------------------------------------------------------------------------+
    |              |   故障码   | 20017                                                                                          |
    |              |  根因设备  | ['worker-0', 'worker-1']                                                                       |
    |              |  故障分类  | 类别:Network 组件:Network 模块:Network                                                         |
    |              |  故障名称  | 网络错包增加                                                                                   |
    |              |  故障描述  | TX网络错包增加;                                                                                |
    |              |  建议方案  | 1. 出现TX网络错包增加现象, 相关影响指标为roce_tx_err_pkt_num, 请联系物理网络运维同事;          |
    +--------------+------------+------------------------------------------------------------------------------------------------+
    |              |   故障码   | 20016                                                                                          |
    |              |  根因设备  | ['worker-0', 'worker-1']                                                                       |
    |              |  故障分类  | 类别:Network 组件:Network 模块:Network                                                         |
    |              |  故障名称  | 网络错包增加                                                                                   |
    |              |  故障描述  | RX网络错包增加;                                                                                |
    |              |  建议方案  | 1. 出现RX网络错包增加现象, 相关影响指标为roce_rx_err_pkt_num, 请联系物理网络运维同事;          |
    +--------------+------------+------------------------------------------------------------------------------------------------+
    |              |   故障码   | 20015                                                                                          |
    |              |  根因设备  | ['worker-1']                                                                                   |
    |              |  故障分类  | 类别:Network 组件:Network 模块:Network                                                         |
    |              |  故障名称  | Link Down: NPU端闪断错误                                                                       |
    |              |  故障描述  | Link Down: NPU端闪断错误;                                                                      |
    |              |  建议方案  | 1. 请联系物理网络运维同事, 收集交换机日志信息;                                                 |
    |              |            | 2. 排查交换机链路闪断问题;                                                                     |
    +--------------+------------+------------------------------------------------------------------------------------------------+
    The diag job is complete.

    训练过程中性能劣化问题回显:

    The diag job starts. Please wait.
    +---------------------------------------------------------------------------------------------------------------------------------------------+
    |                                                          Ascend Fault-Diag Report                                                           |
    +--------------+------------+-----------------------------------------------------------------------------------------------------------------+
    |   版本信息   |   {version}  |                                                                                                                 |
    +--------------+------------+-----------------------------------------------------------------------------------------------------------------+
    | 根因节点分析 |    类型    | 描述                                                                                                            |
    +--------------+------------+-----------------------------------------------------------------------------------------------------------------+
    |              |    说明    | 未诊断出根因节点,根因设备分析将尝试检测全部设备                                                                |
    +--------------+------------+-----------------------------------------------------------------------------------------------------------------+
    |              |  根因节点  | ['Unknown Device']                                                                                              |
    |              |  现象描述  | 所有节点Plog都没有错误日志信息, 且所有节点Plog都没有心跳信息。无法定位根因节点。同时请确认是否为正常的训练任务?|
    +--------------+------------+-----------------------------------------------------------------------------------------------------------------+
    | 根因设备分析 |    类型    | 描述                                                                                                            |
    +--------------+------------+-----------------------------------------------------------------------------------------------------------------+
    |              |   状态码   | 20000                                                                                                           |
    |              |  结果描述  | 故障根因设备诊断无异常,可能情况为: a.无相关故障发生; b.存在未知故障;                                            |
    +--------------+------------+-----------------------------------------------------------------------------------------------------------------+
    | 设备资源分析 |    类型    | 描述                                                                                                            |
    +--------------+------------+-----------------------------------------------------------------------------------------------------------------+
    |              |    说明    | 本分析模块下部分分析子项执行失败,诊断结果可能会受到影响从而不准确。请查看模块日志内的详细信息                  |
    +--------------+------------+-----------------------------------------------------------------------------------------------------------------+
    |              |   故障码   | 30000                                                                                                           |
    |              |  故障名称  | 设备资源诊断无异常                                                                                              |
    |              |  故障描述  | 未发生NPU过载降频和资源抢占;                                                                                    |
    |              |  建议方案  | 无;                                                                                                             |
    +--------------+------------+-----------------------------------------------------------------------------------------------------------------+
    | 网络拥塞分析 |    类型    | 描述                                                                                                            |
    +--------------+------------+-----------------------------------------------------------------------------------------------------------------+
    |              |   故障码   | 31001                                                                                                           |
    |              |  故障设备  | worker-0                                                                                                        |
    |              |  故障节点  | ['device-0', 'device-1']                                                                                        |
    |              |  故障名称  | 链路拥塞异常                                                                                                    |
    |              |  故障描述  | 部分通信链路发生冲突拥塞;                                                                                       |
    |              |  建议方案  | 1. 建议检查交换机路由策略;                                                                                      |
    +--------------+------------+-----------------------------------------------------------------------------------------------------------------+
    The diag job is complete.

    完成诊断后,用户可根据诊断结果中的建议方案进行优化。

    诊断结果输出目录
    ├── fault_diag_result    
        ├── diag_report.json
        └── ascend_faultdiag_run.log # 组件诊断日志
搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词