Atlas 训练系列产品分布式亲和性策略
分布式训练任务每个节点申请的昇腾AI处理器个数支持为1、2、4、8,并且每个任务需要调度到不同节点。
Atlas 200T A2 Box16 异构子框分布式亲和性策略
- Atlas 200T A2 Box16 异构子框分布式任务每个节点申请的昇腾AI处理器个数支持为1~8、10、12、14和16个。
- 当训练任务申请的昇腾AI处理器数量不大于8个时,需要选择HCCS互联内的昇腾AI处理器。
- 当训练任务申请的昇腾AI处理器数量为10、12、14时,仅需要将所需的昇腾AI处理器平均分配到两个环,相对的物理地址可以不一致。
推理服务器(插Atlas 300I 推理卡)分布式亲和性策略
- 推理任务申请的昇腾AI处理器数量不能大于节点的昇腾AI处理器总数。
- 当推理任务申请的昇腾AI处理器数量小于或等于4个时,需要将推理任务调度到同一张Atlas 300I 推理卡内。
推理服务器(插Atlas 300I Duo 推理卡)分布式亲和性策略
- 推理任务申请的昇腾AI处理器数量不能大于节点的昇腾AI处理器总数。
- 当推理任务申请的昇腾AI处理器数量小于或等于2个时,需要将推理任务调度到同一张Atlas 300I Duo 推理卡内。