文档
注册
评分
提单
论坛
小AI

集群调度场景

场景介绍

该场景适用于用户已经有一个部署好的Kubernetes集群,需要纳管新的NPU服务器,并且可以使用NPU设备管理NPU优化调度断点续训推理卡故障重调度等特性。使用该场景时,需要在已有的Kubernetes集群的管理节点(Master)部署NPU管理组件,在新接入的NPU服务器上部署计算节点(Worker)的NPU管理组件。

安装组件列表

表1 集群调度场景安装组件列表

组件

功能说明

Ascend Docker Runtime

支持容器使用昇腾NPU。

Ascend Device Plugin

支持NPU设备管理功能。

Volcano

支持NPU优化调度、断点续训、推理卡故障重调度。

HCCL-Controller(可选)

需要为NPU训练任务生成ranktable file文件(也叫hccl.json文件)功能时请安装。

NodeD(可选)

需要使用断点续训(节点故障)功能时请安装。

NPU-Exporter(可选)

需要使用NPU设备管理中的状态监测功能时请安装。

组件部署方式说明

安装步骤

  1. 参考软件包说明,获取安装组件的软件包。
  2. 安装Ascend Docker Runtime,具体操作请参见安装Ascend Docker Runtime
  3. 根据组件部署方式,选择对应操作。
    • 如果组件选择使用容器部署,请参考制作镜像制作组件的镜像。
    • 如果Ascend Device Plugin和NPU-Exporter选择使用二进制部署,不需要制作组件的镜像可跳过本步骤。
  4. 参考创建用户,在组件部署的节点上创建用户。
  5. 参考创建日志目录,在组件部署的节点上创建对应的日志目录。
  6. (可选)参考导入证书和KubeConfig,导入NPU-Exporter启动HTTPS服务需要的证书,如果启动HTTP服务,可以不导入证书,跳过本步骤。
  7. (可选)参考导入证书和KubeConfig,导入HCCL-Controller、NodeD、Resilience-Controller、Ascend Device Plugin连接K8s使用的KubeConfig文件,如果使用ServiceAccount可以不导入KubeConfig文件,跳过本步骤。
  8. 参考创建命名空间,在K8s中创建命名空间。
  9. 参考创建节点标签,给节点打标签。
  10. 参考常用操作章节,启动各组件。
搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词