文档
注册

基本概念

什么是MindX DL?

MindX DL的核心设计理念是以提供参考架构的方式,供业界平台伙伴快速开发商用版本的深度学习系统。MindX DL基于华为昇腾训练或推理硬件,提供用于提升推理或训练任务性能的配套解决方案。在集群场景下支持训练或推理任务的集群调度、模型保护和产品性能测试等功能。
  • 集群调度:支持NPU设备管理、训练或推理任务调度和断点续训等功能,具体的使用指导请参见MindX DL 集群调度用户指南
  • 模型保护:支持模型加密、透明解密、模型访问控制和密钥管理等功能,具体的使用指导请参见MindX DL AI模型保护用户指南
  • 产品性能测试:支持Atlas产品的标卡、板卡及模组类产品的带宽测试、算力测试、功耗测试等功能,具体的使用指导请参见MindX ToolBox用户指南

什么是断点续训特性?

在训练任务运行过程中,若设备出现故障会导致训练任务中断。如果想要继续运行训练任务,需要重新开始运行,影响训练效率或造成其他损失等。

断点续训支持当训练任务因为外部因素中断时,由调度器将中断的训练任务调度到其他节点上继续运行。该特性基于重调度和重训练功能,实现了任务的不间断和不重头训练,提升用户在运行训练任务时的使用感和体验感。用户可以参考MindX DL 集群调度用户指南中的“断点续训使用示例”章节,实现断点续训特性的全流程使用。

什么是弹性训练特性?

弹性训练特性基于断点续训特性的功能,在任务预设的规模和当前集群中可用的节点数重新设置任务副本数(资源受限场景下),实现重调度和重训练功能。用户可以参考MindX DL 集群调度用户指南中的“弹性训练使用示例”章节,实现弹性训练特性的全流程使用。

什么是亲和性规则?

亲和性规则是指基于芯片间(昇腾AI处理器)的互联拓扑结构和处理逻辑,实现芯片最佳利用的规则。

  • 亲和性调度策略:调度器集成的用来选取特定节点的一组调度逻辑。
  • 亲和性策略:基于亲和性调度策略和调度原则,实现的资源最优分配的方案。

怎样获取完整的亲和性调度算法?

MindX DL的Volcano组件就是实现了亲和性规则的调度组件,并且该组件已经开源。用户可以在ascend-for-volcano开源代码仓中获取完整的亲和性调度算法。

亲和性调度策略支持所有的昇腾AI处理器吗?

当前只支持在昇腾 910 AI处理器的设备上实现调度器的亲和性调度算法;后续会支持更多类型的昇腾AI处理器,请关注华为官网获取更多最新信息。

什么是ToolBox?

实用工具包ToolBox中包括ascend-dmi工具、日志收集工具和ascend-cert工具。
  • ascend-dmi工具主要为Atlas产品的标卡、板卡及模组类产品提供带宽测试、算力测试、功耗测试等功能。
  • 日志收集工具主要在故障分析定位时收集运行环境信息、昇腾NPU健康信息、昇腾软件日志、Device的系统级日志和MindX日志。
  • ascend-cert工具主要为软件包提供数据签名校验、CRL证书吊销列表的比较更新功能,保证软件包的安全性和CRL文件的有效性。

ascend-dmi工具有哪些功能?

ascend-dmi工具主要为Atlas产品的标卡、板卡及模组类产品提供带宽测试、算力测试、功耗测试、设备实时状态查询、故障诊断、软硬件版本兼容性测试、驱动固件版本兼容性测试和设备拓扑检测功能。通过调用底层DCMI(设备控制管理接口)以及AscendCL(Ascend Computing Language,昇腾计算语言)相关接口完成相关检测功能,对于系统级别的信息查询通过调用系统提供的通用库来实现,用户使用工具时通过配置参数来实现不同的测试功能。请参见《MindX ToolBox用户指南》获取工具使用指导。

日志收集工具有哪些功能?

日志收集工具提供了ascend-log-collect.sh脚本,用于在故障分析定位时收集运行环境信息、昇腾NPU健康信息、昇腾NPU日志、昇腾软件日志、Device的系统级日志和MindX日志。请参见《MindX ToolBox用户指南》获取工具使用指导。

ascend-cert有哪些功能?

ascend-cert工具主要为软件包提供数据签名校验、CRL证书吊销列表的比较更新功能,保证软件包的安全性和CRL文件的有效性。请参见《MindX ToolBox用户指南》获取工具使用指导。

什么是p2p测试?

ascend-dmi工具中带宽测试的一种方式,指测试指定源头Device到目标Device的传输速率和时延,支持在训练场景下使用。

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词