HCCL_EVENT_TIMEOUT
功能描述
当使用HCCL作为通信后端时,通过此环境变量可设置等待Event完成的超时时间。
一个进程内,调用acl.init接口初始化pyACL后,调用acl.rt.set_op_wait_timeout接口设置超时时间,本进程内后续调用acl.rt.stream_wait_event接口下发的任务支持在所设置的超时时间内等待,若等待的时间超过所设置的超时时间,则pyACL会返回报错。
单位为s, 取值范围为[0, 2147483647],默认值为1868。
配置示例
export HCCL_EVENT_TIMEOUT=1800
使用约束
此环境变量仅适用于基于PyTorch框架构建的神经网络,且使用HCCL作为通信后端的场景。
支持的型号
Atlas 训练系列产品 Atlas A2 训练系列产品 Atlas A3 训练系列产品
父主题: 集合通信