kubernetes标识增加说明
node label名称 |
作用 |
取值 |
使用组件 |
---|---|---|---|
accelerator |
标识节点的处理芯片 |
huawei-Ascend910;huawei-Ascend310;huawei-Ascend310P |
Ascend Device Plugin |
host-arch |
标识节点的cpu架构 |
huawei-x86;huawei-arm |
Volcano |
masterselector |
标识MindX DL的管理节点 |
dls-master-node |
Volcano;hccl-controller;resilience-controller |
nodeDEnable |
节点noded启动的开关 |
on |
Volcano |
workerselector |
标识MindX DL的计算节点 |
dls-worker-node |
Ascend Device Plugin;noded;npu-exporter |
accelerator-type |
标识Atlas 训练服务器类型 |
card;module |
Ascend Device Plugin;Volcano |
servertype |
Atlas 200I Soc A1 核心板标识 |
soc |
Volcano |
huawei.com/Ascend910-Recover |
910芯片故障恢复标识 |
故障芯片ID |
Ascend Device Plugin |
huawei.com/Ascend910-NetworkUnhealthyRecover |
910芯片网络故障恢复标识 |
故障芯片ID |
Ascend Device Plugin |
node annotation名称 |
作用 |
取值 |
使用组件 |
---|---|---|---|
noded/heartbeat |
noded的心跳,标识节点是否健康 |
string |
Volcano;noded;resilience-controller |
noded/heartbeat-interval |
noded的心跳间隔 |
string |
Volcano;noded;resilience-controller |
名称 |
作用 |
取值 |
使用组件 |
---|---|---|---|
ring-controller.atlas |
标识atlas的pod |
ascend-910 |
Ascend Device Plugin;hccl-controller |
fault-scheduling |
任务故障重调度开关 |
grace;force;off |
Volcano;resilience-controller |
elastic-scheduling |
任务弹性调度开关 |
on;enable |
resilience-controller |
名称 |
作用 |
取值 |
使用组件 |
---|---|---|---|
ascend.kubectl.kubernetes.io/ascend-910-configuration |
hccl-controller生成hccl.json的数据来源 |
字符串map |
Ascend Device Plugin;hccl-controller |
hccl/rankIndex |
断点续训中保持原rankId的依据。 |
[0,1000] |
Volcano;hccl-controller |
huawei.com/Ascend910 |
Ascend Device Plugin为pod分配芯片的依据 |
字符串 |
Volcano;Ascend Device Plugin |
huawei.com/AscendReal |
Ascend Device Plugin为pod实际分配芯片的记录 |
字符串 |
Volcano;Ascend Device Plugin |
huawei.com/kltDev |
kubelet为pod分配芯片的记录 |
字符串 |
Ascend Device Plugin |
predicate-time |
Ascend Device Plugin为pod分配芯片的顺序依据 |
字符串 |
Volcano;Ascend Device Plugin |
名称 |
命名空间 |
作用 |
使用组件 |
---|---|---|---|
vcjob-fault-npu-cm |
volcano-system |
固化故障重调度内容 |
Volcano |
volcano-scheduler-configmap |
volcano-system |
volcano-scheduler的配置文件(原生) |
Volcano |
mindx-dl-deviceinfo-节点名称 |
kube-system |
Ascend Device Plugin上报的node的芯片信息 |
Volcano;Ascend Device Plugin;resilience-controller |
fault-config-任务名称 |
任务空间 |
断点续训需要的故障rankID信息 |
Volcano;elastic-agent |
rings-config-任务名称 |
任务空间 |
hccl.json内容 |
Ascend Device Plugin;hccl-controller |