集群调度场景
场景介绍
该场景适用于用户已经有一个部署好的Kubernetes集群,需要纳管新的NPU服务器,并且可以使用NPU设备管理、NPU优化调度、断点续训和推理卡故障重调度等特性。使用该场景时,需要在已有的Kubernetes集群的管理节点(Master)部署NPU管理组件,在新接入的NPU服务器上部署计算节点(Worker)的NPU管理组件。
安装组件列表
组件 |
功能说明 |
---|---|
Ascend Docker Runtime |
支持容器使用昇腾NPU。 |
Ascend Device Plugin |
支持NPU设备管理功能。 |
Volcano |
支持NPU优化调度、断点续训、推理卡故障重调度。 |
HCCL-Controller(可选) |
需要为NPU训练任务生成ranktable file文件(也叫hccl.json文件)功能时请安装。 |
NodeD(可选) |
需要使用断点续训(节点故障)功能时请安装。 |
NPU-Exporter(可选) |
需要使用NPU设备管理中的状态监测功能时请安装。 |
组件部署方式说明
- 组件安装位置请参考组件安装位置。
- Ascend Device Plugin和NPU-Exporter都提供了容器部署和二进制部署两种方式,部署差异可参考容器和二进制部署差异。
- HCCL-Controller,NodeD使用容器部署,在连接K8s时可以选择使用ServiceAccount或KubeConfig文件进行认证,两种方式差异可参考使用ServiceAccount和KubeConfig差异。
- NPU-Exporter启动时可选择提供HTTP或HTTPS服务,两种服务差异说明可参考使用HTTP和HTTPS差异。
- Volcano使用容器化部署。
- Ascend Docker Runtime使用run包进行安装,获取方式参考软件包说明。
安装步骤
- 参考软件包说明,获取安装组件的软件包。
- 安装Ascend Docker Runtime,具体操作请参见安装Ascend Docker Runtime。
- 根据组件部署方式,选择对应操作。
- 如果组件选择使用容器部署,请参考制作镜像制作组件的镜像。
- 如果Ascend Device Plugin和NPU-Exporter选择使用二进制部署,不需要制作组件的镜像可跳过本步骤。
- 参考创建用户,在组件部署的节点上创建用户。
- 参考创建日志目录,在组件部署的节点上创建对应的日志目录。
- (可选)参考导入证书和KubeConfig,导入NPU-Exporter启动HTTPS服务需要的证书,如果启动HTTP服务,可以不导入证书,跳过本步骤。
- (可选)参考导入证书和KubeConfig,导入HCCL-Controller、NodeD、Resilience-Controller、Ascend Device Plugin连接K8s使用的KubeConfig文件,如果使用ServiceAccount可以不导入KubeConfig文件,跳过本步骤。
- 参考创建命名空间,在K8s中创建命名空间。
- 参考创建节点标签,给节点打标签。
- 参考常用操作章节,启动各组件。
父主题: 典型安装场景