下载
中文
注册

HCCL_CONNECT_TIMEOUT

功能描述

分布式训练或推理场景下,用于限制不同设备之间socket建链过程的超时等待时间。

该环境变量需要配置为整数,取值范围[120,7200],默认值120s。

不同设备进程在集合通信初始化之前由于其他因素会导致执行不同步。该环境变量控制设备间的建链超时时间,在该配置时间内各设备进程等待其他设备建链同步。

配置示例

export HCCL_CONNECT_TIMEOUT=200

是否必选

使用约束

支持的型号

Atlas 训练系列产品

Atlas 300I Duo 推理卡

Atlas A2 训练系列产品