环境变量配置错误(EI0001)
问题现象
执行日志报错:EI0001 "Environment variable [*** ] is invalid",其中“***”是报错的环境变量名称,报错信息示例如下图所示。
原因分析
环境变量配置有问题,通常是参数超过可配置范围或在识别范围以外,报错信息关键字及含义如表1所示。
报错信息关键字 |
含义 |
---|---|
RankIpFamily rank[ ] device ip family[ ] is not same with others[ ]. |
IPv4和IPv6混用。 |
HCCL_CONNECT_TIMEOUT it should be a number greater than or equal to 120s and less than or equal to 7200s |
HCCL_CONNECT_TIMEOUT的取值不在允许范围内。 |
HCCL_INTRA_PCIE_ENABLE or HCCL_INTRA_ROCE_ENABLE HCCL_INTRA_PCIE_ENABLE and HCCL_INTRA_ROCE_ENABLE cannot be both configured to 1 |
HCCL_INTRA_PCIE_ENABLE和HCCL_INTRA_ROCE_ENABLE两配置互斥,不能同时配置为1。 |
HCCL_WHITELIST_DISABLE It must be 0 or 1. |
HCCL_WHITELIST_DISABLE的取值不在允许范围内。 |
HCCL_WHITELIST_FILE Please check env config |
HCCL_WHITELIST_FILE配置有问题,通常为HCCL通信白名单配置文件内容异常,或者文件不存在。 |
HCCL_IF_IP it should be ip[ ] |
HCCL_IF_IP配置的IP格式不正确。 |
HCCL_SOCKET_IFNAME Please check env config |
HCCL_SOCKET_IFNAME配置格式不正确,请确认“,”位置。 |
HCCL_SOCKET_FAMILY it should be AF_INET or AF_INET6 |
HCCL_SOCKET_FAMILY配置参数不正确,需要是AF_INET或者AF_INET6。 |
HCCL_IF_BASE_PORT Value range[0,65520] |
HCCL_IF_BASE_PORT的取值不在允许范围内。 |
HCCL_ALGO expect: levelX:algo1;levelY:algo2 |
HCCL_ALGO配置错误,通常为格式不符合要求、长度异常或内容不符合预期(重复配置、字段不正确)。 |
HCCL_RDMA_TC Value range[0, 255], Must be a multiple of 4 |
HCCL_RDMA_TC配置错误,通常为数值超范围、非数字、长度过长等。 |
HCCL_RDMA_SL Value range[0, 7] |
HCCL_RDMA_SL的取值不在允许范围内。 |
HCCL_RDMA_TIMEOUT Value range[5, 24] |
HCCL_RDMA_TIMEOUT的取值不在允许范围内。 |
HCCL_RDMA_RETRY_CNT Value range[1, 7] |
HCCL_RDMA_RETRY_CNT的取值不在允许范围内。 |
HCCL_BUFFSIZE Value should be equal to or greater than 1(MB). |
HCCL_BUFFSIZE的取值不在允许范围内。 |
HCCL_DETERMINISTIC Value should be true or false. |
HCCL_DETERMINISTIC的取值不在允许范围内。 |
HCCL_ENTRY_LOG_ENABLE It must be 0 or 1. |
HCCL_ENTRY_LOG_ENABLE的取值不在允许范围内。 |
HCCL_INTER_HCCS_DISABLE Value should be true or false. |
HCCL_INTER_HCCS_DISABLE的取值不在允许范围内。 |
HCCL_OP_EXPANSION_MODE it should be "AI_CPU" |
HCCL_OP_EXPANSION_MODE配置只能填AI_CPU |
HCCL_EXEC_TIMEOUT it should be a number greater than or equal to 0s and less than or equal to |
HCCL_EXEC_TIMEOUT配置不在取值范围内 |
CM_CHIEF_IP it should be an available ip. |
CM_CHIEF_IP配置的IP不可用。 |
CM_CHIEF_PORT it should be a unsigned number less than the max port num |
CM_CHIEF_PORT的取值不在允许范围内。 |
CM_CHIEF_DEVICE it should be a unsigned number less than the max device num |
CM_CHIEF_DEVICE的取值不在允许范围内。 |
CM_WORKER_IP it should be an available ip. |
CM_WORKER_IP配置的IP不可用。 |
HCCL_WHITELIST_FILE HCCL_WHITELIST_DISABLE is [0] but HCCL_WHITELIST_FILE is not set |
HCCL_WHITELIST_DISABLE配置为0,HCCL_WHITELIST_FILE却没有设置。 |
HCCL_WHITELIST_FILE hccl whitelist load config file[ ] failed. |
HCCL_WHITELIST_FILE参数指定的文件打开失败,请确认路径是否正确。 |
解决方法
确认报错提示的“环境变量”配置是否正确,并参见表1的报错信息进行修改。