应用场景
- 使用集群调度组件,快速构建基于昇腾AI处理器的训练和推理任务。
- 基于集群调度组件,构建满足模型训练、模型评估、模型部署、模型推理等功能的深度学习平台。
- 使用Ascend Docker Runtime组件,为所有的训练或推理作业提供昇腾AI处理器(NPU)容器化支持,使用户AI作业能够以Docker容器的方式平滑运行在昇腾设备之上。
- 使用MindX ToolBox组件,完成芯片的算力、带宽、功耗等测试,以及昇腾日志的收集和软件包的签名校验。
- 使用故障诊断组可对训练设备收集的日志进行清洗和转储,使AI集群运维平台通过故障诊断功能分析故障根因。
- 支持使用Ascend-FaultDiag的清洗功能对收集的日志及指标数据信息进行过滤、提取有效信息,最后将所有设备的原始日志及指标信息和清洗结果转储到AI集群运维平台,再使用诊断功能分析故障根因。
- 昇腾虚拟化可以通过资源虚拟化的方式,将物理机或虚拟机配置的昇腾AI处理器(NPU)切分成若干份虚拟NPU(vNPU)并挂载到容器中使用。
- 第三方平台集成断点续训特性下,支持用户使用自己的组件替换相应的集群调度组件。
- 支持用户自己的调度器进行相应的开发适配后,在昇腾AI处理器上实现亲和性调度。
- 支持加速大模型训练中CheckPoint的保存及加载。