文档
注册

使用前必读

本章在于演示如何部署并执行一个基于某模型的NPU训练任务。生产环境与示例存在差异,本章节内示例仅做参考,用户需要根据实际生产环境做修改。

静态vNPU调度特性可以搭配算力虚拟化特性一起使用,关于静态虚拟化的相关说明和操作请参见静态虚拟化

场景说明

  • 通过命令行使用:整卡调度或静态vNPU调度特性需要使用到调度器,用户可以选择使用Volcano调度器和其他调度器。选择其他调度器时,需要使用Ascend Operator组件来通过环境变量设置资源信息;使用Volcano调度器时可以使用以下两种组件中的一种。
    • HCCL-Controller:通过配置文件设置资源信息。
    • Ascend Operator:通过环境变量设置资源信息。
  • 集成后使用:将集群调度组件集成到已有的第三方AI平台或者基于集群调度组件开发的AI平台。

前提条件

  • 确保环境中有配置相应的存储方案,比如使用NFS(Network File System),用户可以参见安装NFS进行操作。
  • 在使用整卡调度或静态vNPU调度特性前,需要确保相关组件已经安装,若没有安装,可以参考MindX DL 集群调度安装指南中的“安装部署”章节进行操作。
    • 使用Volcano调度器,除了需要安装Volcano,还需安装以下组件。
      • Ascend Device Plugin
      • Ascend Docker Runtime
      • Ascend Operator或者HCCL-Controller
    • 使用其他调度器,还需要安装以下组件。
      • Ascend Device Plugin
      • Ascend Docker Runtime
      • Ascend Operator

使用流程

整卡调度和静态vNPU调度有3种使用场景,分别是通过命令行使用(Volcano)、通过命令行使用(其他调度器)和集成后使用。

通过命令行使用Volcano和其他调度器的使用流程一致,主要区别在于使用其他调度器进行脚本适配时,不可使用HCCL-Controller组件;使用其他调度器准备任务yaml需要参考通过命令行使用(其他调度器)章节创建任务yaml。使用其他调度器的其余操作和使用Volcano一致,可以参考通过命令行使用(Volcano)进行操作。

图1 使用流程
  1. 在准备训练镜像时,使用Volcano调度器时可以选择HCCL-Controller或者Ascend Operator;使用其他调度器时只能选择使用Ascend Operator
  2. 在准备任务yaml时,下发的任务yaml又需要根据具体的NPU型号,选择不同的yaml进行修改适配。选择yaml时可以参考使用须知里的介绍,根据实际情况选择合适的yaml。
搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词