准备ranktable资源配置文件
开发者可以通过ranktable文件配置参与集合通信的NPU资源信息,ranktable文件为json格式,开发者可以在此文件中配置全量NPU资源信息,后续进程启动时可使用其中指定的几个NPU资源。
配置文件说明(Atlas A2 训练系列产品)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 |
{ "status":"completed", // ranktable可用标识,completed为可用 "version":"1.0", // ranktable模板版本信息,当前必须为"1.0" "server_count":"1", //参与训练的AI Server数目,此例中,只有一个AI Server "server_list": [ { "device":[ // AI Server中的Device列表 { "device_id":"0", // 处理器HDC通道号 "device_ip":"192.168.1.8", // 处理器真实网卡IP "rank_id":"0" // rank的标识,rankID从0开始 }, { "device_id":"1", "device_ip":"192.168.1.9", "rank_id":"1" } ], "server_id":"node_0" //AI Server标识,String类型,请确保全局唯一 } ] } |
配置项 |
配置说明 |
可选/必选 |
---|---|---|
status |
ranktable可用标识。
|
必选 |
version |
ranktable模板版本信息。配置为1.0。 |
必选 |
server_count |
本次参与训练的AI Server个数。 |
必选 |
server_list |
本次参与训练的AI Server列表。 |
必选 |
server_id |
AI Server标识,字符串类型,长度小于64,请确保全局唯一。 配置示例:node_0 |
必选 |
device_id |
昇腾AI处理器的ID,即Device在AI Server上的序列号。对应HDC通道号,请配置为整数。 取值范围:[0,实际Device数量-1] |
必选 |
device_ip |
昇腾AI处理器集成网卡IP,全局唯一,要求为常规IPv4或IPv6格式。
需要注意:
可以在当前AI Server执行指令cat /etc/hccn.conf获取网卡IP,例如: address_0=xx.xx.xx.xx netmask_0=xx.xx.xx.xx netdetect_0=xx.xx.xx.xx address_1=xx.xx.xx.xx netmask_1=xx.xx.xx.xx netdetect_1=xx.xx.xx.xx ... 查询到的address_xx即为网卡IP,address后的序号为昇腾AI处理器或BS9SX1A AI处理器SoC物理ID,即device_id,后面的ip地址即为需要用户填入的该device对应的网卡IP。 |
可选 |
rank_id |
Rank唯一标识,请配置为整数,从0开始配置,且全局唯一,取值范围:[0, 总Device数量-1]。 为方便管理,建议rank_id按照Device物理连接顺序进行排序,即将物理连接上较近的device编排在一起。 例如,若device_ip按照物理连接从小到大设置,则rank_id也建议按照从小到大的顺序设置。 |
必选 |
配置文件说明(Atlas 训练系列产品)
- 模板一(推荐使用)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
{ "status":"completed", // ranktable可用标识,completed为可用 "version":"1.0", // ranktable模板版本信息,当前必须为"1.0" "server_count":"1", //参与训练的AI Server数目,此例中,只有一个AI Server "server_list": [ { "device":[ // AI Server中的Device列表 { "device_id":"0", // 处理器HDC通道号 "device_ip":"192.168.1.8", // 处理器真实网卡IP "rank_id":"0" // rank的标识,rankID从0开始 }, { "device_id":"1", "device_ip":"192.168.1.9", "rank_id":"1" } ], "server_id":"node_0" //AI Server标识,String类型,请确保全局唯一 } ] }
表2 ranktable文件说明 配置项
配置说明
可选/必选
status
ranktable可用标识。
- completed:表示ranktable可用,可执行训练。
- initializing:表示ranktable不可用,不可执行训练。
必选
version
ranktable模板版本信息,当前仅支持配置为1.0。
必选
server_count
本次参与训练的AI Server个数。
必选
server_list
本次参与训练的AI Server列表。
必选
server_id
AI Server标识,字符串类型,长度小于64,请确保全局唯一。
配置示例:node_0
必选
device_id
昇腾AI处理器的ID,即Device在AI Server上的序列号,对应HDC通道号,请配置为整数。
取值范围:[0,实际Device数量-1]
须知:“device_id”配置项的优先级高于环境变量“ASCEND_DEVICE_ID”。
必选
device_ip
昇腾AI处理器集成网卡IP,全局唯一,要求为常规IPv4或IPv6格式。
可以在当前AI Server执行指令“cat /etc/hccn.conf”获取网卡IP,例如:
address_0=xx.xx.xx.xx netmask_0=xx.xx.xx.xx netdetect_0=xx.xx.xx.xx address_1=xx.xx.xx.xx netmask_1=xx.xx.xx.xx netdetect_1=xx.xx.xx.xx ...
查询到的address_xx即为网卡IP,address后的序号为昇腾AI处理器物理ID,即device_id,后面的ip地址即为需要用户填入的该device对应的网卡IP。
必选
rank_id
Rank唯一标识,请配置为整数,从0开始配置,且全局唯一,取值范围:[0, 总Device数量-1]
为方便管理,建议rank_id按照Device物理连接顺序进行排序,即将物理连接上较近的device编排在一起。
例如,若device_ip按照物理连接从小到大设置,则rank_id也建议按照从小到大的顺序设置。
必选
- 模板二(兼容部分已有场景)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
{ "status":"completed", // ranktable可用标识,completed为可用 "group_count":"1", // group数量,建议为1 "group_list": // group列表 [ { "group_name":"hccl_world_group",//group名称,建议hccl_world_group "instance_count":"2", // instance实例个数,容器场景下可理解为容器个数 "device_count":"2", // group中的所有device数目 "instance_list":[ // instance实例信息列表 { "pod_name":"tf-bae41", //instance实例名称,一般为容器名称 "server_id":"node_0", //AI Server标识,String类型,请确保全局唯一 "devices":[ //instance实例的device列表 { "device_id":"0", // 昇腾AI处理器HDC通道号 "device_ip":"192.168.1.8" // 昇腾AI处理器真实网卡IP } ] }, { "pod_name":"tf-tbdf1", "server_id":"node_1", "devices":[ { "device_id":"1", "device_ip":"192.168.1.9" } ] } ] } ] }
表3 ranktable文件说明 配置项
配置说明
可选/必选
status
ranktable可用标识。
- completed:表示ranktable可用,可执行训练。
- initializing:表示ranktable不可用,不可执行训练。
必选
group_count
用户申请的group数量,建议配置为1。
必选
group_list
Group列表。
必选
group_name
Group名称,当group_count为1时,建议配置为hccl_world_group或者空。因为当前版本无论定义为任何值,都会创建名称为hccl_world_group的group。
如果通过该配置文件创建了多个group,则系统会自动将多个group合并为一个名称为“hccl_world_group”的group资源。
可选
instance_count
和instance_list中pod_name个数保持一致,例如:容器场景下为容器实际数量。
必选
device_count
group中设备数量。
必选
instance_list
instance实例信息列表。
必选
pod_name
用户自定义配置,保持instance_list内全局唯一。
必选
server_id
AI Server标识,字符串类型,长度小于64,请确保全局唯一。
配置示例:node_0
必选
devices
devices信息列表。
必选
device_id
昇腾AI处理器物理ID,即Device在Server上的序列号,对应HDC通道号,请配置为整数。
取值范围:[0,实际Device数量-1]
须知:“device_id”配置项的优先级高于环境变量“ASCEND_DEVICE_ID”。
必选
device_ip
昇腾AI处理器集成网卡IP,全局唯一,要求为常规IPv4或IPv6格式。
可以在当前Server执行指令cat /etc/hccn.conf获取网卡IP。
必选