下载
中文
注册

环境变量配置错误(EI0001)

问题现象

执行日志报错:EI0001 "Environment variable [*** ] is invalid",其中“***”是报错的环境变量名称,报错信息示例如下图所示。

原因分析

环境变量配置有问题,通常是参数超过可配置范围或在识别范围以外,报错信息关键字及含义如表1所示。

表1 EI0001报错信息关键字汇总

报错信息关键字

含义

RankIpFamily rank[ ] device ip family[ ] is not same with others[ ].

IPv4和IPv6混用。

HCCL_CONNECT_TIMEOUT it should be a number greater than or equal to 120s and less than or equal to 7200s

HCCL_CONNECT_TIMEOUT的取值不在允许范围内。

HCCL_INTRA_PCIE_ENABLE or HCCL_INTRA_ROCE_ENABLE HCCL_INTRA_PCIE_ENABLE and HCCL_INTRA_ROCE_ENABLE cannot be both configured to 1

HCCL_INTRA_PCIE_ENABLE和HCCL_INTRA_ROCE_ENABLE两配置互斥,不能同时配置为1。

HCCL_WHITELIST_DISABLE It must be 0 or 1.

HCCL_WHITELIST_DISABLE的取值不在允许范围内。

HCCL_WHITELIST_FILE Please check env config

HCCL_WHITELIST_FILE配置有问题,通常为HCCL通信白名单配置文件内容异常,或者文件不存在。

HCCL_IF_IP it should be ip[ ]

HCCL_IF_IP配置的IP格式不正确。

HCCL_SOCKET_IFNAME Please check env config

HCCL_SOCKET_IFNAME配置格式不正确,请确认“,”位置。

HCCL_SOCKET_FAMILY it should be AF_INET or AF_INET6

HCCL_SOCKET_FAMILY配置参数不正确,需要是AF_INET或者AF_INET6。

HCCL_IF_BASE_PORT Value range[0,65520]

HCCL_IF_BASE_PORT的取值不在允许范围内。

HCCL_ALGO expect: levelX:algo1;levelY:algo2

HCCL_ALGO配置错误,通常为格式不符合要求、长度异常或内容不符合预期(重复配置、字段不正确)。

HCCL_RDMA_TC Value range[0, 255], Must be a multiple of 4

HCCL_RDMA_TC配置错误,通常为数值超范围、非数字、长度过长等。

HCCL_RDMA_SL Value range[0, 7]

HCCL_RDMA_SL的取值不在允许范围内。

HCCL_RDMA_TIMEOUT Value range[5, 24]

HCCL_RDMA_TIMEOUT的取值不在允许范围内。

HCCL_RDMA_RETRY_CNT Value range[1, 7]

HCCL_RDMA_RETRY_CNT的取值不在允许范围内。

HCCL_BUFFSIZE Value should be equal to or greater than 1(MB).

HCCL_BUFFSIZE的取值不在允许范围内。

HCCL_DETERMINISTIC Value should be true or false.

HCCL_DETERMINISTIC的取值不在允许范围内。

HCCL_ENTRY_LOG_ENABLE It must be 0 or 1.

HCCL_ENTRY_LOG_ENABLE的取值不在允许范围内。

HCCL_INTER_HCCS_DISABLE Value should be true or false.

HCCL_INTER_HCCS_DISABLE的取值不在允许范围内。

HCCL_OP_EXPANSION_MODE it should be "AI_CPU"

HCCL_OP_EXPANSION_MODE配置只能填AI_CPU

HCCL_EXEC_TIMEOUT it should be a number greater than or equal to 0s and less than or equal to

HCCL_EXEC_TIMEOUT配置不在取值范围内

CM_CHIEF_IP it should be an available ip.

CM_CHIEF_IP配置的IP不可用。

CM_CHIEF_PORT it should be a unsigned number less than the max port num

CM_CHIEF_PORT的取值不在允许范围内。

CM_CHIEF_DEVICE it should be a unsigned number less than the max device num

CM_CHIEF_DEVICE的取值不在允许范围内。

CM_WORKER_IP it should be an available ip.

CM_WORKER_IP配置的IP不可用。

HCCL_WHITELIST_FILE HCCL_WHITELIST_DISABLE is [0] but HCCL_WHITELIST_FILE is not set

HCCL_WHITELIST_DISABLE配置为0,HCCL_WHITELIST_FILE却没有设置。

HCCL_WHITELIST_FILE hccl whitelist load config file[ ] failed.

HCCL_WHITELIST_FILE参数指定的文件打开失败,请确认路径是否正确。

解决方法

确认报错提示的“环境变量”配置是否正确,并参见表1的报错信息进行修改。