故障模式参考
断点续训当前已支持节点故障、芯片故障、参数面网络故障和业务面故障。节点故障当前支持导致节点心跳丢失的故障;芯片故障当前支持《Atlas A2 中心推理和训练硬件 健康管理故障定义》和《Atlas A2 中心推理和训练硬件 黑匣子错误码信息列表》中的故障类型;参数面网络故障当前支持NPU-Leaf断链及长时间Link down导致的故障;业务面故障支持导致训练进程异常退出的故障。其中每一类故障中的典型故障如表1所示。
故障类型 |
故障模块 |
典型故障 |
业务影响 |
故障处理类型 |
---|---|---|---|---|
节点故障 |
NPU板或主板电源 |
掉电 |
节点心跳丢失,业务中断 |
任务重调度 |
内存 |
UCE错误(多比特) |
节点心跳丢失,业务中断 |
任务重调度 |
|
芯片故障 |
HBM多bit ECC错误 |
NPU正常(在线隔离) |
业务中断 |
任务重执行 |
HBM多bit ECC隔离地址记录达到64个 |
NPU不健康 |
业务中断 |
任务重调度 |
|
PCIE异常 |
NPU不健康 |
业务中断 |
复位芯片 |
|
跨板心跳异常(NPU芯片致命错误) |
NPU挂死 |
业务中断 |
复位芯片 |
|
PCIE断链(lspci看不到设备) |
NPU掉卡 |
业务中断 |
复位芯片 |
|
tsdaemon心跳检测异常 |
NPU正常(软件自愈) |
业务中断 |
任务重执行 |
|
小核心跳异常 |
NPU不健康 |
业务中断 |
复位芯片 |
|
内存耗尽 |
NPU挂死 |
业务中断 |
复位芯片 |
|
参数面网络故障 |
NPU-Leaf断链不恢复 |
NPU网口故障、交换机端口故障、光模块故障、线缆故障 |
业务中断 |
任务重调度 |
NPU-Leaf长时间Linkdown导致重传超时,后续恢复linkup |
光模块故障、线缆故障 |
业务中断 |
任务重调度 |
|
业务面故障 |
软件故障 |
算子执行失败 |
业务中断 |
任务重调度 |
父主题: 附录