产品简介
随着人工智能产业的快速发展,业界越来越多的企业发布了深度学习平台,提供数据集管理、模型训练、模型管理、模型部署等功能满足模型开发训练推理的全流程业务,能够加速企业和开发者交付人工智能业务所需的模型。
MindX DL(昇腾深度学习组件)是支持基于昇腾AI处理器(下文出现的NPU表示昇腾AI处理器)的数据中心训练和推理硬件的深度学习组件参考设计,提供昇腾AI处理器调度、集群性能测试等基础功能,为上层模型训练、模型评估、模型部署、模型推理等应用提供底层软件支持。深度学习平台开发厂商可以减少底层资源调度相关软件开发工作量,快速使能合作伙伴基于MindX DL开发深度学习平台。
安装部署
提供昇腾软件和其依赖软件的在线下载、安装和签名校验。
性能测试
提供Atlas硬件产品兼容性检查、性能测试、故障诊断等功能。
集群调度
- 基础调度:提供NPU资源调度和管理、生成分布式训练集合通信配置等功能。
- 断点续训:感知故障,根据训练任务需要,重新分配资源,恢复训练任务。
故障诊断
提供训练任务的日志清洗和故障诊断功能,定位失败根因。
CheckPoint保存与加载优化
提高大模型训练场景的可用度。
组件说明表
组件 |
功能介绍 |
---|---|
Ascend Deployer |
提供昇腾软件和其依赖软件的自动下载及一键式安装,支持参数面网络配置等功能。 |
组件 |
功能介绍 |
---|---|
Ascend DMI |
提供Atlas硬件产品的兼容性检查、带宽测试、算力测试、功耗测试、诊断压测等功能。 |
Ascend Cert |
提供软件包数字签名校验和更新CRL证书吊销列表等功能,保证软件包的安全性和CRL文件的有效性。 |
组件 |
功能介绍 |
---|---|
Ascend Docker Runtime |
为训推任务提供容器化支持,自动挂载所需文件和设备依赖。 |
Ascend Device Plugin |
基于Kubernetes设备插件机制,提供昇腾AI处理器的设备发现、分配和健康状态上报功能,使能Kubernetes管理昇腾AI处理器资源。 |
NPU Exporter |
实时监测昇腾AI处理器的资源指标,获取如昇腾AI处理器的利用率、温度、电压等信息。 |
Volcano |
基于开源Volcano调度插件机制,增加昇腾AI处理器的亲和性调度、故障重调度等特性,最大化发挥昇腾AI处理器计算性能。 |
ClusterD |
提供集群级别的可用资源信息。收集集群任务信息、资源信息和故障信息及影响范围,从任务、芯片和故障维度统计分析。 |
Ascend Operator |
提供训练任务生命周期管理,为不同AI框架的分布式训练任务提供相应的环境变量。 |
HCCL Controller |
生成分布式训练任务依赖的集合通讯配置。 |
NodeD |
提供节点状态上报功能,上报如节点心跳、CPU和内存等故障信息。 |
Resilience Controller |
提供弹性缩容训练服务。在训练任务使用的硬件发生故障时,剔除该硬件并继续训练。 |
Elastic Agent |
提供训练任务故障时刻保存临终CheckPoint能力。 |
组件 |
功能介绍 |
---|---|
Ascend FaultDiag |
提供日志清洗和故障诊断功能,提取训练过程相关日志的关键信息,并根据集群所有节点清洗后的关键信息,分析故障根因节点以及故障事件。 |
组件 |
功能介绍 |
---|---|
MindIO ACP |
在大模型训练中,使用训练服务器内存作为缓存,对CheckPoint的保存及加载进行加速。 |
MindIO TTP |
针对大模型训练故障,减少训练迭代损失。在训练过程中发生故障后,即刻保存一次CheckPoint数据,以减少故障造成的训练迭代损失。 |