文档
注册

产品简介

随着人工智能产业的快速发展,业界越来越多的企业发布了深度学习平台,提供数据集管理、模型训练、模型管理、模型部署推理等功能满足模型开发训练推理的全流程业务,能够加速企业和开发者交付人工智能业务所需的模型。

MindX DL(昇腾深度学习组件)是支持基于昇腾AI处理器(下文出现的NPU表示昇腾AI处理器)的数据中心训练和推理硬件的深度学习组件参考设计,提供昇腾AI处理器资源管理和查看、昇腾AI处理器优化调度、分布式训练集合通信配置生成等基础功能,为上层模型训练、模型评估、模型部署、模型推理等应用提供底层软件支持,深度学习平台开发厂商可以减少底层资源调度相关软件开发工作量,快速使能合作伙伴基于MindX DL开发深度学习平台。

图1所示,MindX DL组件用于支持第三方深度学习平台完成训练推理流程,各组件功能介绍如表1所示。

图1 产品定位
表1 各组件功能介绍

组件

功能介绍

Ascend Device Plugin

基于Kubernetes设备插件机制,增加昇腾AI处理器的设备发现、设备分配、设备健康状态上报功能,使Kubernetes可以管理昇腾AI处理器资源。

HCCL-Controller

华为研发的一款用于昇腾AI处理器训练任务的组件,利用Kubernetes(简称K8s)的informer机制,持续记录训练任务及其Pod的各种事件,并读取Pod的昇腾AI处理器信息,生成对应的configmap。该configmap包含了训练任务所依赖的集合通讯配置,方便训练任务更好的协同和调度底层的昇腾AI处理器,无需用户手动配置。

Volcano

基于开源Volcano调度的插件机制,增加昇腾AI处理器的亲和性调度,故障重调度等特性,最大化发挥昇腾AI处理器计算性能。

NPU-Exporter

该组件为Prometheus生态组件,提供了昇腾AI处理器资源各种指标的实时看管,可实时获取昇腾AI处理器利用率、温度、电压、内存,以及昇腾AI处理器在容器中的分配状况等信息。

NodeD

提供节点状态上报功能,如节点心跳上报。

Elastic-Agent

在数据并行、混合并行场景下提供断点续训临终遗言(临终ckpt)和策略恢复功能,当用户需要使用断点续训临终遗言功能时,需要在训练容器中安装该组件。

Resilience-Controller

韧性控制器,提供最小训练系统的韧性控制,在训练任务使用的硬件故障时,可以剔除该硬件,继续训练。

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词