产品简介

随着人工智能产业的快速发展，业界越来越多的企业发布了深度学习平台，提供数据集管理、模型训练、模型管理、模型部署等功能满足模型开发训练推理的全流程业务，能够加速企业和开发者交付人工智能业务所需的模型。

MindX DL（昇腾深度学习组件）是支持基于昇腾AI处理器（下文出现的NPU表示昇腾AI处理器）的数据中心训练和推理硬件的深度学习组件参考设计，提供昇腾AI处理器调度、集群性能测试等基础功能，为上层模型训练、模型评估、模型部署、模型推理等应用提供底层软件支持。深度学习平台开发厂商可以减少底层资源调度相关软件开发工作量，快速使能合作伙伴基于MindX DL开发深度学习平台。

组件堆栈图

MindX DL组件用于支持第三方深度学习平台完成训练推理流程，如图1所示；组件的功能说明请参见表3。

图1 组件堆栈

安装部署

提供昇腾软件和其依赖软件的在线下载、安装和签名校验。

性能测试

提供Atlas硬件产品兼容性检查、性能测试、故障诊断等功能。

集群调度

基础调度：提供NPU资源调度和管理、生成分布式训练集合通信配置等功能。
断点续训：感知故障，根据训练任务需要，重新分配资源，恢复训练任务。

故障诊断

提供训练任务的日志清洗和故障诊断功能，定位失败根因。

CheckPoint保存与加载优化

提高大模型训练场景的可用度。

组件说明表

表1 安装部署组件说明
组件	功能介绍
Ascend Deployer	提供昇腾软件和其依赖软件的自动下载及一键式安装，支持参数面网络配置等功能。

表2 ToolBox组件说明
组件	功能介绍
Ascend DMI	提供Atlas硬件产品的兼容性检查、带宽测试、算力测试、功耗测试、诊断压测等功能。
Ascend Cert	提供软件包数字签名校验和更新CRL证书吊销列表等功能，保证软件包的安全性和CRL文件的有效性。

表3 集群调度组件说明
组件	功能介绍
Ascend Docker Runtime	为训推任务提供容器化支持，自动挂载所需文件和设备依赖。
Ascend Device Plugin	基于Kubernetes设备插件机制，提供昇腾AI处理器的设备发现、分配和健康状态上报功能，使能Kubernetes管理昇腾AI处理器资源。
NPU Exporter	实时监测昇腾AI处理器的资源指标，获取如昇腾AI处理器的利用率、温度、电压等信息。
Volcano	基于开源Volcano调度插件机制，增加昇腾AI处理器的亲和性调度、故障重调度等特性，最大化发挥昇腾AI处理器计算性能。
ClusterD	提供集群级别的可用资源信息。收集集群任务信息、资源信息和故障信息及影响范围，从任务、芯片和故障维度统计分析。
Ascend Operator	提供训练任务生命周期管理，为不同AI框架的分布式训练任务提供相应的环境变量。
HCCL Controller	生成分布式训练任务依赖的集合通讯配置。
NodeD	提供节点状态上报功能，上报如节点心跳、CPU和内存等故障信息。
Resilience Controller	提供弹性缩容训练服务。在训练任务使用的硬件发生故障时，剔除该硬件并继续训练。
Elastic Agent	提供训练任务故障时刻保存临终CheckPoint能力。

表4 故障诊断组件说明
组件	功能介绍
Ascend FaultDiag	提供日志清洗和故障诊断功能，提取训练过程相关日志的关键信息，并根据集群所有节点清洗后的关键信息，分析故障根因节点以及故障事件。

表5 MindIO组件说明
组件	功能介绍
MindIO ACP	在大模型训练中，使用训练服务器内存作为缓存，对CheckPoint的保存及加载进行加速。
MindIO TTP	针对大模型训练故障，减少训练迭代损失。在训练过程中发生故障后，即刻保存一次CheckPoint数据，以减少故障造成的训练迭代损失。