下载
中文
注册
Pod处于ContainerCreating状态

Pod处于ContainerCreating状态

2023/06/13

107

暂无评分
我要评分

问题信息

问题来源产品大类产品子类关键字
官方安装部署MindX DLPod、日志目录、ContainerCreating

问题现象描述

部署集群调度组件后,通过命令kubectl get pods --all-namespaces -o wide查看各组件状态,发现Pod处于ContainerCreating状态。以HCCL-Controller为例说明。

root@ubuntu:/home# kubectl get pods --all-namespaces -o wide
NAMESPACE        NAME                                       READY   STATUS              RESTARTS   AGE     IP              NODE           NOMINATED NODE   READINESS GATES
default          hccl-controller-6bc9bccc4c-n6c7w           0/1     ContainerCreating   0          10m     <none>          ubuntu     <none>           <none>
...

执行如下命令查看Pod详情。

kubectl describe pod -n namespace podname

如:

kubectl describe pod -n default hccl-controller-6bc9bccc4c-n6c7w

显示如下内容:

...
QoS Class:       Guaranteed
Node-Selectors:  masterselector=dls-master-node
Tolerations:     node.kubernetes.io/not-ready:NoExecute for 300s
                 node.kubernetes.io/unreachable:NoExecute for 300s
Events:
  Type     Reason       Age               From                 Message
  ----     ------       ----              ----                 -------
  Normal   Scheduled    16s               default-scheduler    Successfully assigned default/hccl-controller-6bc9bccc4c-n6c7w to ubuntu
  Warning  FailedMount  8s (x5 over 15s)  kubelet, ubuntu      MountVolume.SetUp failed for volume "device-hcclcontroller" : hostPath type check failed: /var/log/mindx-dl/hccl-controller is not a directory

原因分析

对应组件的日志目录不存在。

解决措施

  1. 创建对应的日志目录,并设置目录对应的权限和属主。具体操作请参见《MindX DL 集群调度用户指南》中“安装集群调度组件 > 常用操作 > 创建日志目录”章节。
  2. 手动卸载组件后重新部署。

本页内容