Traceback (most recent call last): …… Exception: -- Process 1 terminated with the following error: Traceback (most recent call last): …… RuntimeError: connect() timed out.
模型进行分布式训练时,系统防火墙可能会阻截HCCL的集合通信端口的通信。需要根据报错信息,排查通信端口的开放情况,并进行相应设置。
查询出被系统防火墙阻截的集合通信端口,并开放相应端口。