在进行模型分布式训练时遇到报错“RuntimeError:connect() timed out.”

报错信息

问题分析

模型进行分布式训练时,系统防火墙可能会阻截HCCL的集合通信端口的通信。需要根据报错信息,排查通信端口的开放情况,并进行相应设置。

处理方法

查询出被系统防火墙阻截的集合通信端口,并开放相应端口。