文档
注册

MindX DL

MindX DL(昇腾深度学习组件)是支持Atlas训练卡、推理卡的深度学习组件,提供昇腾 AI 处理器集群调度、性能测试和模型保护等基础功能,快速使能合作伙伴进行深度学习平台开发。

成长地图

由浅入深,带您玩转MindX DL

产品简介

了解MindX DL的产品定位与特点,有助于您快速构建自己的深度学习平台。

产品介绍

性能测试

ascend-dmi工具主要为Atlas产品的标卡、板卡及模组类产品提供带宽测试、算力测试、故障诊断等功能。

方案介绍

使用指导

故障诊断

昇腾训练场景下指导用户使用设备日志采集、日志清洗与转储和故障诊断功能高效定位训练任务失败与训练性能劣化的问题。

使用指导

CheckPoint保存

  • MindIO ACP:MindIO加速大模型CheckPoint功能,主要针对大模型训练中的CheckPoint的保存及加载进行加速。
  • MindIO TTP:MindIO临终遗言功能,主要针对大模型训练过程中故障恢复加速,减少故障造成的训练迭代损失。

MindIO ACP

MindIO TTP

安装部署

  • ascend-deployer工具提供OS依赖和docker的自动下载以及一键式安装的功能,并支持驱动、固件、CANN、MindX DL等软件包下载、安装和升级。
  • ascend-cert工具主要为软件包提供数据签名校验、CRL证书吊销列表的比较更新功能。

ascend-deployer

ascend-Cert

集群调度

MindX DL集群调度基于业界流行的集群调度系统Kubernetes,提供昇腾AI处理器资源管理和查看;实现了昇腾AI处理器优化调度、生成分布式训练集合通信配置等基础功能。

简介

安装

使用

参考信息

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词