HCCL_CONNECT_TIMEOUT
功能描述
分布式训练或推理场景下,用于限制不同设备之间socket建链过程的超时等待时间。
该环境变量需要配置为整数,取值范围[120,7200],默认值为120,单位s。
不同设备进程在集合通信初始化之前由于其他因素会导致执行不同步。该环境变量控制设备间的建链超时时间,在该配置时间内各设备进程等待其他设备建链同步。
配置示例
export HCCL_CONNECT_TIMEOUT=200
使用约束
无
支持的型号
Atlas 训练系列产品
Atlas 300I Duo 推理卡
Atlas A2 训练系列产品
父主题: 集合通信