文档
注册

组件安装位置

本章节主要介绍组件的安装位置,可以为管理节点、计算节点和训练容器内。详细的组件安装位置如表1所示。

表1 组件安装位置

节点

组件

功能描述

管理节点

HCCL-Controller

基于K8s informer机制开发的插件,用于自动生成NPU训练任务通信集合配置文件(ranktable file,也叫hccl.json文件)。

Volcano

基于开源Volcano集群调度,增强Atlas 训练系列产品Atlas 200/300/500 推理产品Atlas 推理系列产品(Ascend 310P AI处理器)亲和性调度功能。

Resilience-Controller

韧性控制器,提供最小训练系统的韧性控制,在训练任务使用的硬件故障时,可以剔除该硬件,继续训练。

Ascend Operator

支持MindSpore、PyTorch、TensorFlow三个AI框架在Kubernetes上进行分布式训练的插件,提供训练所需环境变量。

计算节点

Ascend Device Plugin

通过提供通用设备插件机制和标准的设备API接口,供Kubernetes使用设备。

NPU-Exporter

基于Prometheus监测生态,实现了昇腾系列AI处理器的监测以及容器级分配状态的监测。

NodeD

提供节点监测功能,如节点心跳上报。

Ascend Docker Runtime

容器引擎插件(又称为Ascend Docker,又叫昇腾容器运行时),为所有的AI作业提供Ascend NPU(昇腾AI处理器)容器化支持,使用户AI作业能够以Docker容器的方式平滑地运行在昇腾设备上。

训练容器内

Elastic-Agent

在数据并行、混合并行场景下提供断点续训临终遗言(临终ckpt文件)和策略恢复功能,当用户需要使用断点续训临终遗言功能时,需要在训练容器中安装该组件。

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词