资源申请约束
Atlas 训练系列产品的资源申请约束
根据业务模型,对训练任务作如下要求:
- 训练任务申请的昇腾AI处理器数量不能大于节点昇腾AI处理器总数。
- 当训练任务申请的昇腾AI处理器数量不大于4个时,需要将所需的昇腾AI处理器调度到同一个HCCS内。
- 当训练任务申请的昇腾AI处理器数量为8个时,需要将节点的昇腾AI处理器全部分配给该任务。
- 当训练任务申请的昇腾AI处理器为虚拟设备vNPU时,申请数量只能为1。
- 遵循Volcano开源部分的其他约束。
场景说明
根据亲和性策略和业务模型梳理出的场景如表1所示。
表1 Atlas 训练系列产品亲和性策略场景任务申请昇腾AI处理器数
|
A
|
B
|
C
|
D
|
1
|
1~[0,1,2,3,4]
|
3~[0,2,3,4]
|
2~[0,2,4]
|
4~[0,4]
|
2
|
2~[0,1,2,3,4]
|
4~[0,1,3,4]
|
3~[0,1]
|
-
|
4
|
4~[0,1,2,3,4]
|
-
|
-
|
-
|
8
|
8
|
-
|
-
|
-
|
- A~D列4个分组,表示选择处理器,节点上满足昇腾AI处理器选取的四种HCCS场景。在选择昇腾AI处理器时,这四种场景的优先级逐次递减,即当A场景不满足时调度要求时,才会选择B,C,D。
- 当组内满足HCCS时节点的情况。‘~’左边为满足要求的HCCS的昇腾AI处理器剩余情况,右边为另一个HCCS的昇腾AI处理器剩余情况。如对于申请1个昇腾AI处理器的A组情况;另一个HCCS可能为0、1、2、3、4等五种昇腾AI处理器剩余情况。
- 8个及其以上昇腾AI处理器,均放在A组,需要全部占用。