Pod处于ContainerCreating状态
2023/06/13
107
问题信息
问题来源 | 产品大类 | 产品子类 | 关键字 |
---|---|---|---|
官方 | 安装部署 | MindX DL | Pod、日志目录、ContainerCreating |
问题现象描述
部署集群调度组件后,通过命令kubectl get pods --all-namespaces -o wide查看各组件状态,发现Pod处于ContainerCreating状态。以HCCL-Controller为例说明。
root@ubuntu:/home# kubectl get pods --all-namespaces -o wide NAMESPACE NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES default hccl-controller-6bc9bccc4c-n6c7w 0/1 ContainerCreating 0 10m <none> ubuntu <none> <none> ...
执行如下命令查看Pod详情。
kubectl describe pod -n namespace podname
如:
kubectl describe pod -n default hccl-controller-6bc9bccc4c-n6c7w
显示如下内容:
... QoS Class: Guaranteed Node-Selectors: masterselector=dls-master-node Tolerations: node.kubernetes.io/not-ready:NoExecute for 300s node.kubernetes.io/unreachable:NoExecute for 300s Events: Type Reason Age From Message ---- ------ ---- ---- ------- Normal Scheduled 16s default-scheduler Successfully assigned default/hccl-controller-6bc9bccc4c-n6c7w to ubuntu Warning FailedMount 8s (x5 over 15s) kubelet, ubuntu MountVolume.SetUp failed for volume "device-hcclcontroller" : hostPath type check failed: /var/log/mindx-dl/hccl-controller is not a directory
原因分析
对应组件的日志目录不存在。
解决措施
- 创建对应的日志目录,并设置目录对应的权限和属主。具体操作请参见《MindX DL 集群调度用户指南》中“安装集群调度组件 > 常用操作 > 创建日志目录”章节。
- 手动卸载组件后重新部署。
本页内容