16卡机器,node显示只有15个设备,kubelet注册信息少一个设备
2024/02/21
93
问题信息
问题来源 | 产品大类 | 产品子类 | 关键字 |
---|---|---|---|
官方 | 安装部署 | 硬件(Atlas 800T A2 训练服务器) | 少一个设备 |
问题描述
1. 执行npu-smi info命令查看是正常的。
2. dp日志显示为“healthy”。
3. node上显示只有15个设备。
4. kubelet注册信息里少了13的设备。
原因分析
“/var/log/mindx-dl/devicePlugin/devicePlugin.log”查看日志,无报错。
kubectl describe node查看上报的芯片数量,显示上报16张,可用15张,不可用1张。
kubectl get cm -A,找到mindx-dl-deviceinfo开头的cm,kubectl describe cm -n kube-system mindx-dl-deviceinfo-具体名字,查看configMap里的故障信息。
解决方案
通过configMap里的信息,联系mindx dl的华为工程师,根据故障码确定解决方案。
本页内容