文档
注册

训练任务处于Pending状态,原因:nodes are unavailable

问题现象描述

下发vcjob任务后,训练任务一直未运行。

  1. 执行kubectl get pod --all-namespaces命令,查看该训练任务所属的Pod处于Pending状态,如下图所示。

  2. 执行kubectl describe pod sasa-resnet1-acc-default-test-0 -n vcjob命令,查看Pod的详情。在event字段中报:all nodes are unavailable: 1 node annotations(7) not same node idle(8)。

原因分析

该节点的未使用NPU数目与Annotations中展示的未使用NPU数目不一致。Volcano认为系统处于不稳定阶段,不能进行本次NPU资源的分配。

执行kubectl describe nodes命令,查看节点的Allocated resources和Annotations的huawei.com/Ascend910:字段。

造成该问题的原因除了任务量特别多时(K8s运行缓慢),主要原因为Ascend Device Plugin启动方式存在问题。

解决措施

重新安装Ascend Device Plugin,请参见安装部署章节进行操作。

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词