下载
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助
昇腾小AI

HCCL_EXEC_TIMEOUT

功能描述

不同设备进程在分布式训练或推理过程中存在卡间执行任务不一致的场景(如仅特定进程会保存checkpoint数据),通过该环境变量可控制设备间执行时同步等待的时间,在该配置时间内各设备进程等待其他设备执行通信同步。

  • 针对Atlas 训练系列产品,单位为s,取值范围为:(0, 17340],默认值为1836。

    需要注意:针对Atlas 训练系列产品,系统实际设置的超时时间 = 环境变量的取值先整除“68”,然后再乘以“68”,单位s。如果环境变量的取值小于68,则默认按照68s进行处理。

    例如,假设HCCL_EXEC_TIMEOUT=600,则系统实际设置的超时时间为:600整除68乘以68 = 8*68 = 544s。

  • 针对Atlas 300I Duo 推理卡,单位为s,取值范围为:(0, 17340],默认值为1836。

    需要注意:针对Atlas 300I Duo 推理卡,系统实际设置的超时时间 = 环境变量的取值先整除“68”,然后再乘以“68”,单位s。如果环境变量的取值小于68,则默认按照68s进行处理。

    例如,假设HCCL_EXEC_TIMEOUT=600,则系统实际设置的超时时间为:600整除68乘以68 = 8*68 = 544s。

  • 针对Atlas A2 训练系列产品,单位为s,取值范围为:[0, 2147483647],默认值为1836,当配置为0时代表永不超时。

一般情况下,用户保持默认值即可。当默认值无法满足设备间执行通信同步的需求时,可通过此环境变量适当增大设备间的同步等待时间。

配置示例

export HCCL_EXEC_TIMEOUT=1800

使用约束

支持的型号

Atlas 训练系列产品

Atlas 300I Duo 推理卡

Atlas A2 训练系列产品

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词