--cluster_config

功能说明

指定目标部署环境逻辑拓扑关系的配置文件,用于生成hcom grouprankid信息。

只要原始大模型含有通信算子,无论是否分布式部署都需要配置该参数,否则通信算子执行时可能会报错。

关联参数

若模型中包含通信算子,或开启了算法切分(--enable_graph_parallel=1),该参数必填。

参数取值

参数值:逻辑拓扑文件的路径和文件名。

参数值格式:路径和文件名:支持大小写字母(a-z,A-Z)、数字(0-9)、下划线(_)、短横线(-)、句点(.)、中文汉字。

参数值约束:配置文件中的内容必须为json格式。

推荐配置及收益

无。

示例

将配置文件(文件名为举例为:numa_config.json)上传到ATC工具所在服务器,例如上传到$HOME/conf,使用示例如下:

atc --model=xxx.air --framework=1 --soc_version=Ascend310P3 --output=$HOME/out --cluster_config=$HOME/conf/numa_config.json 

逻辑拓扑文件示例如下:

参数解释如下:

表1 参数解释

参数

类型

是否必填

描述

cluster

-

集群配置。

cluster_nodes

-

Array of Cluster_node

集群资源信息描述。

node_id

-

Integer

集群内节点编号,一般0作为主节点。

node_type

-

String

节点类型,如ATLAS800。

ipaddr

-

String

节点控制面通信的IP,如训练服务器为HOST IP、SOC服务器为头节点IP。

port

-

Integer

节点控制面通信的端口。

is_local

-

BOOL

多个Node组成集群时,此文件此节点是否是本机。

item_list

-

Array of item_info

云资源管理编排的执行该JOB的加速卡。

-

item_id

Integer

Node内加速卡id。

item_def

-

Node内同种类型的加速卡的公共属性。

device_list

-

Array of device_info

整芯片内包含几个物理device。Atlas 训练系列产品不需要填写该配置项。

device_id

-

Integer

整芯片内物理device id。

item_type

-

-

String

节点内加速卡类型。

node_def

-

集群内同种类型Node的公共属性。

item

item_type

-

String

节点内加速卡类型。

支持的型号

Atlas 推理系列产品(Ascend 310P处理器)

Atlas 训练系列产品

Atlas A2训练系列产品

依赖约束

无。