文档
注册

故障模式参考

断点续训当前已支持节点故障、芯片故障、参数面网络故障和业务面故障。节点故障当前支持导致节点心跳丢失的故障;芯片故障当前支持Atlas A2 中心推理和训练硬件 健康管理故障定义Atlas A2 中心推理和训练硬件 黑匣子错误码信息列表中的故障类型;参数面网络故障当前支持NPU-Leaf断链及长时间Link down导致的故障;业务面故障支持导致训练进程异常退出的故障。其中每一类故障中的典型故障如表1所示。

表1 典型故障说明

故障类型

故障模块

典型故障

业务影响

故障处理类型

节点故障

NPU板或主板电源

掉电

节点心跳丢失,业务中断

任务重调度

内存

UCE错误(多比特)

节点心跳丢失,业务中断

任务重调度

芯片故障

HBM多bit ECC错误

NPU正常(在线隔离)

业务中断

任务重执行

HBM多bit ECC隔离地址记录达到64个

NPU不健康

业务中断

任务重调度

PCIE异常

NPU不健康

业务中断

复位芯片

跨板心跳异常(NPU芯片致命错误)

NPU挂死

业务中断

复位芯片

PCIE断链(lspci看不到设备)

NPU掉卡

业务中断

任务重执行

tsdaemon心跳检测异常

NPU正常(软件自愈)

业务中断

任务重执行

小核心跳异常

NPU不健康

业务中断

复位芯片

内存耗尽

NPU挂死

业务中断

复位芯片

参数面网络故障

NPU-Leaf断链不恢复

NPU网口故障、交换机端口故障、光模块故障、线缆故障

业务中断

任务重调度

NPU-Leaf长时间Linkdown导致重传超时,后续恢复linkup

光模块故障、线缆故障

业务中断

任务重调度

业务面故障

软件故障

算子执行失败

业务中断

任务重调度

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词