文档
注册

启动HCCL-Controller

HCCL-Controller配合Volcano、Ascend Device Plugin(启动参数volcanoType设置为true)一起使用,按照训练任务章节下各训练框架“创建yaml文件”章节中获取的训练任务yaml模板下发NPU训练任务时,会默认生成格式为“模板一”的昇腾AI处理器资源配置文件(即Rank table文件)。模板格式详见CANN TensorFlow 1.15网络模型迁移和训练指南中“手工迁移和训练 > 分布式并行训练 >执行分布式训练”章节的“准备配置文件”的模版一。

操作步骤

  1. 以root用户登录K8s管理节点,并执行以下命令,查看HCCL-Controller镜像和版本号是否正确。
    docker images | grep hccl-controller
    示例如下:
    root@ubuntu:# docker images | grep hccl-controller
    hccl-controller                      v5.0.RC1              f78993dcf54f        About an hour ago         143MB
  2. 将HCCL-Controller软件包解压目录(以“/home/ascend-hccl-controller”为例)下的yaml文件拷贝到K8s管理节点上任意目录(以“/home/ascend-hccl-controller”为例)。如果HCCL-Controller软件包在K8s管理节点上解压,可以不用进行拷贝操作。
    cd /home/ascend-hccl-controller
    scp root@{软件包解压节点IP地址}:/home/ascend-hccl-controller/hccl-controller-v{version}.yaml ./
  3. 如不修改组件启动参数,可跳过本步骤。否则,请根据实际情况修改对应启动yaml文件中HCCL-Controller的启动参数。启动参数请参见表1,可执行./hccl-controller -h查看参数说明。
  4. 执行以下命令,启动HCCL-Controller。
    kubectl apply -f hccl-controller-v{version}.yaml

    启动示例如下,出现Running表示组件启动成功:

    root@ubuntu:/home/ascend-hccl-controller# kubectl apply -f hccl-controller-v5.0.RC1.yaml 
    serviceaccount/hccl-controller created
    clusterrole.rbac.authorization.k8s.io/pods-hccl-controller-role created
    clusterrolebinding.rbac.authorization.k8s.io/hccl-controller-rolebinding created
    deployment.apps/hccl-controller created
    root@ubuntu:/home/ascend-hccl-controller# kubectl get pod -n mindx-dl
    NAME                               READY   STATUS    RESTARTS   AGE
    ...
    hccl-controller-5d484dcc68-wfvrr   1/1    Running   0          11s
    ...

参数说明

表1 HCCL-Controller启动参数

参数

类型

默认值

说明

-jobParallelism

int

1

job任务的并发数,范围为[1,32]。

-podParallelism

int

1

Pod任务的并发数,范围为[1,32]。

-version

bool

false

HCCL-Controller二进制版本号。

-json

string

v2

HCCL-Controller生成的ranktable文件模板。

  • v1:表示模板二。
  • v2:表示模板一。

-logLevel

int

0

日志级别:

  • -1:debug。
  • 0:info。
  • 1:warning。
  • 2:error。
  • 3:critical。

-maxAge

int

7

日志备份时间限制,范围为[7,700],单位为天。

-logFile

string

/var/log/mindx-dl/hccl-controller/hccl-controller.log

日志文件。

说明:

单个日志文件超过20 MB时会触发自动转储功能,文件大小上限不支持修改。

-maxBackups

int

30

转储后日志文件保留个数上限,范围为(0,30],单位为个。

-h或者-help

不涉及

显示帮助信息。

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词