训练任务处于Pending状态,原因:nodes are unavailable
问题现象描述
下发vcjob任务后,训练任务一直未运行。
- 执行kubectl get pod --all-namespaces命令,查看该训练任务所属的Pod处于Pending状态,如下图所示。
- 执行kubectl describe pod sasa-resnet1-acc-default-test-0 -n vcjob命令,查看Pod的详情。在event字段中报:all nodes are unavailable: 1 node annotations(7) not same node idle(8)。
原因分析
该节点的未使用NPU数目与Annotations中展示的未使用NPU数目不一致。Volcano认为系统处于不稳定阶段,不能进行本次NPU资源的分配。
执行kubectl describe nodes命令,查看节点的Allocated resources和Annotations的huawei.com/Ascend910:字段。
造成该问题的原因除了任务量特别多时(K8s运行缓慢),主要原因为Ascend Device Plugin启动方式存在问题。
父主题: 使用时出现的故障