组件安装位置
组件安装位置
深度学习平台一般分为管理节点、计算节点、存储节点,各类节点主要功能如下:
- 管理节点(即Master节点):管理集群,负责分发训练、推理任务到各个计算节点执行,完成深度学习平台的数据管理、任务管理、模型管理和日志管理等功能。下文中将“K8s管理节点”简写为“管理节点”。
- 计算节点(即Worker节点):实际执行训练、推理任务。
- 存储节点:存储数据集、训练输出的模型等数据。
MindX DL各组件安装位置如表1所示。
安装位置 |
组件 |
---|---|
管理节点 |
HCCL-Controller |
Volcano |
|
Resilience-Controller |
|
计算节点 |
Ascend Device Plugin |
NPU-Exporter |
|
NodeD |
|
训练容器内 |
Elastic-Agent |
若管理节点同时也是计算节点,并且配置昇腾系列AI处理器,则管理节点也需要安装计算节点的组件。
父主题: 安装前准备