亲和性调度策略

Atlas 训练系列产品昇腾AI处理器的特征和资源利用的规则如表1所示。

表1 Atlas 训练系列产品的AI处理器亲和性策略

优先级

策略名称

详细内容

1

HCCS亲和性调度原则

选择同一HCCS内的昇腾AI处理器,提升通信性能。

  • 如果申请昇腾AI处理器个数为1,则选择同一HCCS,且当前可用的昇腾AI处理器数量为1个的节点为最佳,3个次佳、其次是2个、4个。
  • 如果申请昇腾AI处理器个数为2,则选择同一HCCS,且可用的昇腾AI处理器数量为2个的节点为最佳,4个次佳,其次是3个。
  • 如果申请昇腾AI处理器个数为4,则选择同一HCCS,且可用的昇腾AI处理器数量为4个的节点。
  • 如果申请昇腾AI处理器个数为8,则会选择申请节点的8个昇腾AI处理器

2

优先占满调度原则

优先分配已经分配过昇腾AI处理器的节点,减少碎片。
  • 如果申请昇腾AI处理器个数为1,优先申请capacity(节点上资源容量)为8,且HCCS可用昇腾AI处理器数量为1的节点为最佳,3个次佳、其次是2个、4个。
  • 如果申请昇腾AI处理器个数为2,优先申请capacity为8,且HCCS可用昇腾AI处理器数量为2个的节点为最佳,4个次佳,其次是3个。
  • 如果申请昇腾AI处理器个数为4,优先申请capacity为8,且可用昇腾AI处理器数量为4个的节点。
  • 如果申请昇腾AI处理器个数为8的正整数倍数,选择申请capacity为8,且已使用0个昇腾AI处理器的节点。
说明:
下发分布式任务时,任务存在未按照优先占满调度原则占满某个节点。说明如下:
  • 现象说明:如在两台Atlas 800 训练服务器(型号 9000)集群中,同时下发3卡、4卡、1卡任务,存在3卡和4卡任务调度到同一个节点,1卡任务调度到另一个节点的问题。
  • 原因分析:因为Volcano调度完一个任务后,Ascend Device Plugin上报调度后的昇腾AI处理器的拓扑结构到mindx-dl-deviceinfo-${node_name}存在时延,导致Volcano校验该节点昇腾AI处理器数量失败,将任务调度到其他节点上。

3

剩余偶数优先原则

优先选择满足上述1~2条调度原则的HCCS,其次选择剩余昇腾AI处理器数量为偶数的HCCS。