使用须知

华为确保集群调度组件的软件安全，但是使用指导中涉及的代码样例、模型使用示例、容器镜像等在码云或者昇腾社区公开发布的，仅用于用户参考。如果用户用于商业用途时，需用户自行确保资源的使用安全风险（如漏洞问题）。

MindX DL的集群调度组件主要用在数据中心，提供训练、推理的任务调度和NPU设备发现等基础功能，不包含上层的用户界面以及用户业务逻辑，需要被集成者进行二次开发后再使用。
推荐满足以下场景时，使用集群调度组件。
- 数据中心进行训练和推理。
- 设备中包含华为NPU的设备。
- 基于容器化技术部署。
- Kubernetes作为任务调度的基础平台。
MindX DL支持训练任务的Workload Resources类型：
- （推荐）Volcano Job：适用于批处理任务，任务有完成状态。
- Ascend Job：适用于环境变量设置资源信息的训练任务。
- Deployment：适用于后台常驻任务，任务没有完成状态。在需要持续训练任务、持续占用资源，调试训练任务，或者提供推理服务接口的时候选用。
  
  不支持Deployment的更新操作，如果需要更新，请先删除再创建。

模型训练任务说明

根据服务器类型，对训练任务的约束如下：

Atlas 800 训练服务器（NPU满配）
- 单机场景训练任务的NPU申请数目为1、2、4、8。当申请NPU数目为2、4时，根据亲和性约束分配的芯片只能在同一台服务器同一个环内（0~3号芯片为一个环，4~7号芯片为一个环）。例如申请了2个NPU进行训练，则分配2个的NPU要么都在同一台服务器的0~3号上或者都在4~7号上。不能出现一个在0~3号上，另一个在4~7号上。
- 分布式场景训练任务每个节点的NPU申请数目为1、2、4、8。其中单个节点的约束同单机场景训练任务约束。
- 对不使用NPU的Pod，则不做NPU数量的要求。
- 当使用集群调度组件中的Volcano调度任务时以上约束Volcano已满足。
Atlas 800 训练服务器（NPU半配）
- 单机场景训练任务的NPU申请数目为1、2、4。
- 分布式场景训练任务每个节点的NPU申请数目为1、2、4。
- 对不使用NPU的Pod，则不做NPU数量的要求。
- 当使用集群调度组件中的Volcano调度任务时以上约束Volcano已满足。
服务器（插Atlas 300T 训练卡、Atlas 300T A2 训练卡）
训练任务Pod申请的NPU数目只能为1、2。若有多个使用NPU的Pod，则Atlas 300T 训练卡的每个Pod的NPU数量为2；Atlas 300T A2 训练卡的每个Pod的NPU数量为1、2。对不使用NPU的Pod，则不做NPU数量的要求。当使用集群调度组件中的Volcano调度任务时此约束已满足。
Atlas 200T A2 Box16 异构子框
- 单机场景训练任务的NPU申请数目为1、2、3、4、5、6、7、8、10、12、14、16。当申请NPU数目小于8时，根据亲和性约束分配的芯片只能在同一台服务器同一个环内（0~7号芯片为一个环，8~16号芯片为一个环）；训练任务NPU申请数目为10、12、14时，需要将所需的AI处理器平均分配到两个环，相对的物理地址也一致。例如申请了2个NPU进行训练，则分配2个的NPU要么都在同一台服务器的0~7号上或者都在8~16号上。不能出现一个在0~7号上，另一个在8~16号上。
- 分布式场景训练任务每个节点的NPU申请数目为1、2、3、4、5、6、7、8、10、12、14、16。其中单个节点的约束同单机场景训练任务约束；训练任务NPU申请数目为10、12、14时，需要将所需的AI处理器平均分配到两个环，相对的物理地址可以不一致。
- 对不使用NPU的Pod，则不做NPU数量的要求。
- 当使用集群调度组件中的Volcano调度任务时以上约束Volcano已满足。
Atlas 800T A2 训练服务器和Atlas 900 A2 PoD 集群基础单元
- 单机场景训练任务的NPU申请数目为1、2、3、4、5、6、7、8。
- 分布式场景训练任务每个节点的NPU申请数目为1、2、3、4、5、6、7、8、16。
- 对不使用NPU的Pod，则不做NPU数量的要求。
- 当使用集群调度组件中的Volcano调度任务时以上约束Volcano已满足。