EI0006 socket times out建链超时报错
2024/02/20
896
问题信息
问题来源 | 产品大类 | 产品子类 | 关键字 |
---|---|---|---|
官方 | 模型训练 | HCCL | 建链超时 |
问题现象描述
问题现象:
常见多机多卡分布式训练过程EI0006报错,建链超时。
原因分析
- 多机之间的device的连通性检查不通过;
- 多机的服务器防火墙阻止了连接;
- device的tls设置存在不一致。
排查方法
对多个可能的原因进行逐一排查和测试。
- 配置netdetect进行连通性测试,检测是否全为success。
在0号机器上输入下列指令,其中address后面的ip参数应修改为1号机器对应的i卡ip。
hccn_tool -i 0 -netdetect -s address 10.10.113.11
hccn_tool -i 1 -netdetect -s address 10.10.113.12
hccn_tool -i 2 -netdetect -s address 10.10.113.13
hccn_tool -i 3 -netdetect -s address 10.10.113.14
hccn_tool -i 4 -netdetect -s address 10.10.113.15
hccn_tool -i 5 -netdetect -s address 10.10.113.16
hccn_tool -i 6 -netdetect -s address 10.10.113.17
hccn_tool -i 7 -netdetect -s address 10.10.113.18
配置完成后,输入下面指令进行测试。
for i in {0..7}; do hccn_tool -i $i -net_health -g ; done
若返回全为suceess即无问题,若失败则需要进一步排查,比如现有ip配置是否可用。
- 可通过简单的关闭防火墙进行测试是否解决问题,执行如下命令。
- 检查tls一致性。需检查每台机器的所有device tls 设置是否一致。
for i in {0..7}; do hccn_tool -i $i -tls -g ; done | grep switch
解决措施
- 可尝试配置可用的ip。
hccn_tool -i 0 -ip -s address 10.10.113.11 netmask 255.255.255.128
hccn_tool -i 1 -ip -s address 10.10.113.12 netmask 255.255.255.128
hccn_tool -i 2 -ip -s address 10.10.113.13 netmask 255.255.255.128
hccn_tool -i 3 -ip -s address 10.10.113.14 netmask 255.255.255.128
hccn_tool -i 4 -ip -s address 10.10.113.15 netmask 255.255.255.128
hccn_tool -i 5 -ip -s address 10.10.113.16 netmask 255.255.255.128
hccn_tool -i 6 -ip -s address 10.10.113.17 netmask 255.255.255.128
hccn_tool -i 7 -ip -s address 10.10.113.18 netmask 255.255.255.128
......
需要注意这个ip地址不能和任何已有ip地址冲突,配好后的ip 可执行cat /etc/hccn.conf命令查看。
如果配置好所有服务器的device ip无法解决,可以进一步排查各机器的device是否在同一网域。
- 临时关闭防火墙。
- 可以将tls全设置为关闭。
for i in {0..7}; do hccn_tool -i $i -tls -s enable 0 ; done | grep switch
本页内容