NPU 片上内存 ECC故障
2024/02/21
987
问题信息
问题来源 | 产品大类 | 产品子类 | 关键字 |
---|---|---|---|
官方 | 安装部署 | 硬件(Atlas 800T A2 训练服务器) | 片上内存 ECC |
问题描述
NPU 片上内存 ECC错误。存在多种表现形式,当前一般表现为以下现象。
- NPUx CRITICAL ALARM,通常在BMC WEB告警界面出现,如图1所示。
- NPUx芯片出现degrade告警,但告警码指向单device出现多BIT 片上内存 ECC错误,典型告警码包含以下两种:
- 0x80E18401:单个Device的片上内存多bit ECC隔离地址记录超过16个,如图2所示。
- 0x80E01801:片上内存故障地址在线隔离失败。
- 业务现象:NPU 片上内存多比特ECC发生后体现在业务执行过程中出现AICore执行算子失败。
- 日志现象:BMC日志“dump_info/AppDump/CpuMem/npu_ecc_info.json”对应时间点有MultiBitEcc记录,如下图所示。
当NPU多比特ECC隔离页满64页后,BMC会产生“NPU chip health critical”紧急告警。
解决方案
- 多bit 片上内存 ECC出现相关报错。
- 单bit 片上内存 ECC出现相关报错。
本页内容