下载
中文
注册
16卡机器,node显示只有15个设备,kubelet注册信息少一个设备

16卡机器,node显示只有15个设备,kubelet注册信息少一个设备

2024/02/21

93

暂无评分
我要评分

问题信息

问题来源产品大类产品子类关键字
官方安装部署硬件(Atlas 800T A2 训练服务器)少一个设备

问题描述

1. 执行npu-smi info命令查看是正常的。

2. dp日志显示为“healthy”。

3. node上显示只有15个设备。

4. kubelet注册信息里少了13的设备。

原因分析

“/var/log/mindx-dl/devicePlugin/devicePlugin.log”查看日志,无报错。

kubectl describe node查看上报的芯片数量,显示上报16张,可用15张,不可用1张。

kubectl get cm -A,找到mindx-dl-deviceinfo开头的cm,kubectl describe cm -n kube-system mindx-dl-deviceinfo-具体名字,查看configMap里的故障信息。

解决方案

通过configMap里的信息,联系mindx dl的华为工程师,根据故障码确定解决方案。

本页内容