下载
中文
注册
NPU未运行成功故障

NPU未运行成功故障

2024/02/21

156

暂无评分
我要评分

问题信息

问题来源产品大类产品子类关键字
官方安装部署硬件(Atlas 800T A2 训练服务器)NPU未运行

问题描述

使用npu-smi info命令查询NPU数量,结果少于8张。如图1所示。

图1 NPU数量

解决方案

  1. 查询服务器建链是否正常,如图2所示。d802设备可查询到8个,且建链均为16GT/S X16,如查不到则检查NPU模组的J2 J3连接器是否插好。

    图2 查询设备
    图3 查询建链
    图4 J2 J3连接器

  2. 服务器建链均无问题,则查看NPU固件版本是否匹配,如图5所示。若回显信息存在不同版本的NPU,则通过BMC带外升级NPU固件hpm格式包(Ascend-hdk-xxxb-npu-firmware_xxx.hpm),升级后保持版本一致,速率应当是16GT/S 带宽为X16。

    图5 查看NPU固件版本

  3. 若建链都无问题且固件驱动版本都匹配,则可以考虑更换NPU模块,更换的方法请参见更换NPU模组

本页内容