下载
中文
注册

在进行模型分布式训练时遇到报错“host not found.”

问题描述

  • 报错截图

  • 报错文本
    ……
    Process process 6:
    Traceback (most recent call last):
    ……
    ValueError: host not found: Name or service not known
    Process process 7:
    ……

问题分析

对模型进行分布式训练时,会调用集合通信模块HCCL,需要根据实际情况设置IP和端口信息。根据报错信息,确定是IP地址设置错误。

处理方法

在运行脚本中设置正确的IP地址,对于单机情况,设置为本机的IP地址即可;对于多机情况,每个服务器上脚本中的IP需要设置为master节点的IP。