文档
注册

使用须知

华为确保集群调度组件的软件安全,但是使用指导中涉及的代码样例、模型使用示例、容器镜像等在码云或者昇腾社区公开发布的,仅用于用户参考。如果用户用于商业用途时,需用户自行确保资源的使用安全风险(如漏洞问题)。

  • MindX DL的集群调度组件主要用在数据中心,提供训练、推理的任务调度和NPU设备发现等基础功能,不包含上层的用户界面以及用户业务逻辑,需要被集成者进行二次开发后再使用。
  • 推荐满足以下场景时,使用集群调度组件
    • 数据中心进行训练和推理。
    • 设备中包含华为NPU的设备。
    • 基于容器化技术部署。
    • Kubernetes作为任务调度的基础平台。
  • MindX DL支持训练任务的Workload Resources类型:
    • (推荐)Volcano Job:适用于批处理任务,任务有完成状态。
    • Ascend Job:适用于环境变量设置资源信息的训练任务。
    • Deployment:适用于后台常驻任务,任务没有完成状态。在需要持续训练任务、持续占用资源,调试训练任务,或者提供推理服务接口的时候选用。

      不支持Deployment的更新操作,如果需要更新,请先删除再创建。

模型训练任务说明

根据服务器类型,对训练任务的约束如下:

  • Atlas 800 训练服务器(NPU满配)
    • 单机场景训练任务的NPU申请数目为1、2、4、8。当申请NPU数目为2、4时,根据亲和性约束分配的芯片只能在同一台服务器同一个环内(0~3号芯片为一个环,4~7号芯片为一个环)。例如申请了2个NPU进行训练,则分配2个的NPU要么都在同一台服务器的0~3号上或者都在4~7号上。不能出现一个在0~3号上,另一个在4~7号上。
    • 分布式场景训练任务每个节点的NPU申请数目为1、2、4、8。其中单个节点的约束同单机场景训练任务约束。
    • 对不使用NPU的Pod,则不做NPU数量的要求。
    • 当使用集群调度组件中的Volcano调度任务时以上约束Volcano已满足。
  • Atlas 800 训练服务器(NPU半配)
    • 单机场景训练任务的NPU申请数目为1、2、4。
    • 分布式场景训练任务每个节点的NPU申请数目为1、2、4。
    • 对不使用NPU的Pod,则不做NPU数量的要求。
    • 当使用集群调度组件中的Volcano调度任务时以上约束Volcano已满足。
  • 服务器(插Atlas 300T 训练卡Atlas 300T A2 训练卡

    训练任务Pod申请的NPU数目只能为1、2。若有多个使用NPU的Pod,则Atlas 300T 训练卡的每个Pod的NPU数量为2;Atlas 300T A2 训练卡的每个Pod的NPU数量为1、2。对不使用NPU的Pod,则不做NPU数量的要求。当使用集群调度组件中的Volcano调度任务时此约束已满足。

  • Atlas 200T A2 Box16 异构子框
    • 单机场景训练任务的NPU申请数目为1、2、3、4、5、6、7、8、10、12、14、16。当申请NPU数目小于8时,根据亲和性约束分配的芯片只能在同一台服务器同一个环内(0~7号芯片为一个环,8~16号芯片为一个环);训练任务NPU申请数目为10、12、14时,需要将所需的AI处理器平均分配到两个环,相对的物理地址也一致。例如申请了2个NPU进行训练,则分配2个的NPU要么都在同一台服务器的0~7号上或者都在8~16号上。不能出现一个在0~7号上,另一个在8~16号上。
    • 分布式场景训练任务每个节点的NPU申请数目为1、2、3、4、5、6、7、8、10、12、14、16。其中单个节点的约束同单机场景训练任务约束;训练任务NPU申请数目为10、12、14时,需要将所需的AI处理器平均分配到两个环,相对的物理地址可以不一致。
    • 对不使用NPU的Pod,则不做NPU数量的要求。
    • 当使用集群调度组件中的Volcano调度任务时以上约束Volcano已满足。
  • Atlas 800T A2 训练服务器Atlas 900 A2 PoD 集群基础单元
    • 单机场景训练任务的NPU申请数目为1、2、3、4、5、6、7、8。
    • 分布式场景训练任务每个节点的NPU申请数目为1、2、3、4、5、6、7、8、16。
    • 对不使用NPU的Pod,则不做NPU数量的要求。
    • 当使用集群调度组件中的Volcano调度任务时以上约束Volcano已满足。
搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词