组件安装位置
本章节主要介绍组件的安装位置,可以为管理节点、计算节点和训练容器内。详细的组件安装位置如表1所示。
节点 |
组件 |
功能描述 |
---|---|---|
管理节点 |
HCCL-Controller |
基于K8s informer机制开发的插件,用于自动生成NPU训练任务通信集合配置文件(ranktable file,也叫hccl.json文件)。 |
Volcano |
基于开源Volcano集群调度,增强Atlas 训练系列产品、Atlas 200/300/500 推理产品、Atlas 推理系列产品亲和性调度功能。 |
|
Resilience-Controller |
韧性控制器,提供最小训练系统的韧性控制,在训练任务使用的硬件故障时,可以剔除该硬件,继续训练。 |
|
Ascend Operator |
支持MindSpore、PyTorch、TensorFlow三个AI框架在Kubernetes上进行分布式训练的插件,提供训练所需环境变量。 |
|
计算节点 |
Ascend Device Plugin |
通过提供通用设备插件机制和标准的设备API接口,供Kubernetes使用设备。 |
NPU-Exporter |
基于Prometheus监测生态,实现了昇腾系列AI处理器的监测以及容器级分配状态的监测。 |
|
NodeD |
提供节点监测功能,如节点心跳上报。 |
|
Ascend Docker Runtime |
容器引擎插件(又称为Ascend Docker,又叫昇腾容器运行时),为所有的AI作业提供Ascend NPU(昇腾AI处理器)容器化支持,使用户AI作业能够以Docker容器的方式平滑地运行在昇腾设备上。 |
|
训练容器内 |
Elastic-Agent |
在数据并行、混合并行场景下提供断点续训临终遗言(临终ckpt文件)和策略恢复功能,当用户需要使用断点续训临终遗言功能时,需要在训练容器中安装该组件。 |