文档
注册

kubernetes标识增加说明

表1 MindX DL对node label使用说明

node label名称

作用

取值

使用组件

accelerator

标识节点的处理芯片

huawei-Ascend910;huawei-Ascend310;huawei-Ascend310P

Ascend Device Plugin

host-arch

标识节点的cpu架构

huawei-x86;huawei-arm

Volcano

masterselector

标识MindX DL的管理节点

dls-master-node

Volcano;hccl-controller;resilience-controller

nodeDEnable

节点noded启动的开关

on

Volcano

workerselector

标识MindX DL的计算节点

dls-worker-node

Ascend Device Plugin;noded;npu-exporter

accelerator-type

标识Atlas 训练服务器类型

card;module

Ascend Device Plugin;Volcano

servertype

Atlas 200I Soc A1 核心板标识

soc

Volcano

huawei.com/Ascend910-Recover

910芯片故障恢复标识

故障芯片ID

Ascend Device Plugin

huawei.com/Ascend910-NetworkUnhealthyRecover

910芯片网络故障恢复标识

故障芯片ID

Ascend Device Plugin

表2 MindX DL对node annotation使用说明

node annotation名称

作用

取值

使用组件

noded/heartbeat

noded的心跳,标识节点是否健康

string

Volcano;noded;resilience-controller

noded/heartbeat-interval

noded的心跳间隔

string

Volcano;noded;resilience-controller

表3 MindX DL对pod label使用说明

名称

作用

取值

使用组件

ring-controller.atlas

标识atlas的pod

ascend-910

Ascend Device Plugin;hccl-controller

fault-scheduling

任务故障重调度开关

grace;force;off

Volcano;resilience-controller

elastic-scheduling

任务弹性调度开关

on;enable

resilience-controller

表4 MindX DL对pod annotation使用说明

名称

作用

取值

使用组件

ascend.kubectl.kubernetes.io/ascend-910-configuration

hccl-controller生成hccl.json的数据来源

字符串map

Ascend Device Plugin;hccl-controller

hccl/rankIndex

断点续训中保持原rankId的依据。

[0,1000]

Volcano;hccl-controller

huawei.com/Ascend910

Ascend Device Plugin为pod分配芯片的依据

字符串

Volcano;Ascend Device Plugin

huawei.com/AscendReal

Ascend Device Plugin为pod实际分配芯片的记录

字符串

Volcano;Ascend Device Plugin

huawei.com/kltDev

kubelet为pod分配芯片的记录

字符串

Ascend Device Plugin

predicate-time

Ascend Device Plugin为pod分配芯片的顺序依据

字符串

Volcano;Ascend Device Plugin

表5 MindX DL对configmap使用说明

名称

命名空间

作用

使用组件

vcjob-fault-npu-cm

volcano-system

固化故障重调度内容

Volcano

volcano-scheduler-configmap

volcano-system

volcano-scheduler的配置文件(原生)

Volcano

mindx-dl-deviceinfo-节点名称

kube-system

Ascend Device Plugin上报的node的芯片信息

Volcano;Ascend Device Plugin;resilience-controller

fault-config-任务名称

任务空间

断点续训需要的故障rankID信息

Volcano;elastic-agent

rings-config-任务名称

任务空间

hccl.json内容

Ascend Device Plugin;hccl-controller

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词