推理服务器(插Atlas 300I Duo 推理卡

推理服务器(插Atlas 300I Duo 推理卡)存在亲和性调度,如一台Atlas 800 推理服务器(型号 3000)最多支持插4张Atlas 300I Duo 推理卡,每张Atlas 300I Duo 推理卡存在2个昇腾AI处理器。使用推理服务器(插Atlas 300I Duo 推理卡)的用户可以在下发任务yaml时,首先通过“duo”参数指定使用Atlas 300I Duo 推理卡,再通过“npu-310-strategy”参数指定调度模式,最后通过“distributed”参数指定调度策略。各参数的详细说明见表1

表1 参数说明

参数名

默认值

取值说明

duo

false

  • true:使用Atlas 300I Duo 推理卡
  • false:不使用Atlas 300I Duo 推理卡

npu-310-strategy

chip

  • card:按推理卡调度,request请求的昇腾AI处理器个数不超过2,使用同一张Atlas 300I Duo 推理卡上的昇腾AI处理器
  • chip:按昇腾AI处理器调度,请求的昇腾AI处理器个数不超过单个节点的最大值。

distributed

false

  • true:分布式推理调度策略。使用chip模式时,必须将任务调度到整张Atlas 300I Duo 推理卡。若任务需要的昇腾AI处理器数量为单数时,使用单个昇腾AI处理器的部分,将优先调度到剩余昇腾AI处理器数量为1的Atlas 300I Duo 推理卡
  • false:非分布式推理调度策略。使用chip模式时,请求的昇腾AI处理器个数不超过单个节点的最大值。
    说明:

    无论是否为分布式推理,card模式的调度策略不变。