hccl.json文件没有生成
2023/06/13
187
问题信息
问题来源 | 产品大类 | 关键字 |
---|---|---|
官方 | 集群调度 | 训练任务、initializing、hccl.json、命名空间、annotation |
问题现象描述
当启动一个训练任务后,训练任务容器内部hccl.json文件一致处于initializing状态(默认路径:/user/serverid/devindex/config/hccl.json)。
执行kubectl exec -it XXX bash 进入容器,若Pod不在default命名空间,则需要加-n XXX指明命名空间,如:kubectl exec -it XXX -n XXX bash。
原因分析
- 原因一:Ascend Operator没有正常启动。
- 原因二:Ascend Device Plugin启动参数配置了“-volcanoType=false”,可通过如下命令进行确认。
ps -ef | grep "device-plugin"
- 原因三:若Ascend Device Plugin组件日志出现如下内容,表示Ascend Device Plugin没有正确获取到device ip导致无法写Pod的Annotations。
Get device ip failed
解决措施
针对原因一:参考《MindCluser 集群调度安装指南》的“安装部署 > 手动安装 > Ascend Operator”章节,重新安装Ascend Operator。
针对原因二:参考《MindCluser 集群调度安装指南》的“安装部署 > 手动安装 > Ascend Device Plugin”章节,修改Ascend Device Plugin的启动参数“-volcanoType=true”之后再重新apply对应的yaml文件。
针对原因三:正确配置device ip,请参见《MindCluster Ascend Deployer用户指南》中的“使用HCCN Tool工具配置”章节。
本页内容