Atlas 300I/V Pro卡执行npu-smi info命令异常
2024/02/22
1k
问题信息
问题来源 | 产品大类 | 产品子类 | 关键字 |
---|---|---|---|
官方 | 安装部署 | 驱动固件 | Atlas 300I/V Pro、npu-smi info |
问题现象描述
在安装Atlas 300I/V Pro板卡的服务器上,执行npu-smi info命令,提示如下错误。
原因分析
- 若是裸机上执行报错,可能原因如下:
- 驱动固件未正确安装。
- 服务器内核在安装驱动后进行了升级。
- 板卡硬件异常。
- 安装驱动时未指定--install-for-all,执行命令时用的普通用户。
- 若裸机执行npu-smi info正常,容器内执行报错,可能原因如下:
- 未正确安装toolbox。
- 启动docker时,未指定-e -ASCEND_VISIBLE_DEVICES参数进行芯片映射。
- 同一颗芯片,被映射进不同的docker容器。
解决措施
- 裸机npu-smi info异常
- 执行lspci | grep d500查询芯片硬件信息,正常显示如下信息。
若lspci查询异常,可能硬件存在异常,建议一键搜集ibmc日志,与硬件工程师一起分析异常。
- 执行lsmod | grep drv命令查询驱动包安装信息。
若有回显,证明驱动安装正常;若无回显,说明驱动包安装异常。
- 执行msnpureport命令一键搜集驱动日志,搜集后进行分析。
- 裸机执行dmesg命令搜集相关日志,搜集后进行分析。
- 执行lspci | grep d500查询芯片硬件信息,正常显示如下信息。
- 裸机npu-smi info正常,容器内异常
- 排查toolbox安装是否正常,toolbox安装后是否重启docker。
- 排查docker启动命令是否进行芯片映射。
- 裸机执行dmesg,查看是否有如下报错,若存在,则说明芯片被映射到多个docker容器内。
本页内容