多卡分布式训练场景分为单机多卡训练和多机多卡训练。如果用户准备进行单机多卡训练,请跳过本章节。如果用户要进行多机多卡训练,则需要进行以下准备操作。以下操作除模型修改外,只需配置执行一次。
集合通信仅支持1/2/4/8P粒度的分配。
通过交换机或光口直连的方式完成计算设备组网搭建。
hccn_tool -i 0 -ip -s address 192.***.***.001 netmask 255.255.255.0 hccn_tool -i 1 -ip -s address 192.***.***.001 netmask 255.255.255.0 hccn_tool -i 2 -ip -s address 192.***.***.001 netmask 255.255.255.0 hccn_tool -i 3 -ip -s address 192.***.***.001 netmask 255.255.255.0 hccn_tool -i 4 -ip -s address 192.***.***.001 netmask 255.255.255.0 hccn_tool -i 5 -ip -s address 192.***.***.001 netmask 255.255.255.0 hccn_tool -i 6 -ip -s address 192.***.***.001 netmask 255.255.255.0 hccn_tool -i 7 -ip -s address 192.***.***.001 netmask 255.255.255.0
hccn_tool -i 0 -ip -s address 192.***.***.002 netmask 255.255.255.0 hccn_tool -i 1 -ip -s address 192.***.***.002 netmask 255.255.255.0 hccn_tool -i 2 -ip -s address 192.***.***.002 netmask 255.255.255.0 hccn_tool -i 3 -ip -s address 192.***.***.002 netmask 255.255.255.0 hccn_tool -i 4 -ip -s address 192.***.***.002 netmask 255.255.255.0 hccn_tool -i 5 -ip -s address 192.***.***.002 netmask 255.255.255.0 hccn_tool -i 6 -ip -s address 192.***.***.002 netmask 255.255.255.0 hccn_tool -i 7 -ip -s address 192.***.***.002 netmask 255.255.255.0
配置device IP需遵守以下规则:
hccn_tool -i 0 -netdetect -s address xx.xx.xx.xx hccn_tool -i 0 -net_health -g #-s address:xx.xx.xx.xx是另外一台机器的device i的IP #-i:device序号
hccn_tool -i 0 -ip -g
ipaddr:192.***.***.001 netmask:255.255.255.0
如果返回success则表示已经连通。
ufw disable
systemctl stop firewalld
执行以下命令,返回值不为空则正常。
for i in {0..7}; do hccn_tool -i $i -lldp -g; done