在进行模型分布式训练时遇到报错“RuntimeError:connect() timed out.”
2023/06/06
148
问题信息
Traceback (most recent call last): …… Exception: -- Process 1 terminated with the following error: Traceback (most recent call last): …… RuntimeError: connect() timed out.
模型进行分布式训练时,系统防火墙可能会阻截HCCL的集合通信端口的通信。需要根据报错信息,排查通信端口的开放情况,并进行相应设置。
查询出被系统防火墙阻截的集合通信端口,并开放相应端口。
本页内容