下载
中文
注册
EI0006 socket times out建链超时报错

EI0006 socket times out建链超时报错

2024/02/20

896

暂无评分
我要评分

问题信息

问题来源产品大类产品子类关键字
官方模型训练HCCL建链超时

问题现象描述

问题现象:

常见多机多卡分布式训练过程EI0006报错,建链超时。

原因分析

  1. 多机之间的device的连通性检查不通过;
  2. 多机的服务器防火墙阻止了连接;
  3. device的tls设置存在不一致。

排查方法

对多个可能的原因进行逐一排查和测试。

  1. 配置netdetect进行连通性测试,检测是否全为success。

    配置方法:

    在0号机器上输入下列指令,其中address后面的ip参数应修改为1号机器对应的i卡ip。

    hccn_tool -i 0 -netdetect -s address 10.10.113.11

    hccn_tool -i 1 -netdetect -s address 10.10.113.12

    hccn_tool -i 2 -netdetect -s address 10.10.113.13

    hccn_tool -i 3 -netdetect -s address 10.10.113.14

    hccn_tool -i 4 -netdetect -s address 10.10.113.15

    hccn_tool -i 5 -netdetect -s address 10.10.113.16

    hccn_tool -i 6 -netdetect -s address 10.10.113.17

    hccn_tool -i 7 -netdetect -s address 10.10.113.18

    配置完成后,输入下面指令进行测试。

    for i in {0..7}; do hccn_tool -i $i -net_health -g ; done

    若返回全为suceess即无问题,若失败则需要进一步排查,比如现有ip配置是否可用。

  2. 可通过简单的关闭防火墙进行测试是否解决问题,执行如下命令。

    systemctl stop firewalld

  3. 检查tls一致性。需检查每台机器的所有device tls 设置是否一致。

    for i in {0..7}; do hccn_tool -i $i -tls -g ; done | grep switch

解决措施

  1. 可尝试配置可用的ip。

    配置机器 device ip的方法:

    hccn_tool -i 0 -ip -s address 10.10.113.11 netmask 255.255.255.128

    hccn_tool -i 1 -ip -s address 10.10.113.12 netmask 255.255.255.128

    hccn_tool -i 2 -ip -s address 10.10.113.13 netmask 255.255.255.128

    hccn_tool -i 3 -ip -s address 10.10.113.14 netmask 255.255.255.128

    hccn_tool -i 4 -ip -s address 10.10.113.15 netmask 255.255.255.128

    hccn_tool -i 5 -ip -s address 10.10.113.16 netmask 255.255.255.128

    hccn_tool -i 6 -ip -s address 10.10.113.17 netmask 255.255.255.128

    hccn_tool -i 7 -ip -s address 10.10.113.18 netmask 255.255.255.128

    ......

    需要注意这个ip地址不能和任何已有ip地址冲突,配好后的ip 可执行cat /etc/hccn.conf命令查看。

    如果配置好所有服务器的device ip无法解决,可以进一步排查各机器的device是否在同一网域。

  2. 临时关闭防火墙。

    systemctl stop firewalld

  3. 可以将tls全设置为关闭。

    for i in {0..7}; do hccn_tool -i $i -tls -s enable 0 ; done | grep switch

本页内容