下载
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助
昇腾小AI

HCCL_EVENT_TIMEOUT

功能描述

PyTorch训练或在线推理场景下,当使用HCCL作为通信后端时,可通过此环境变量设置等待Event完成的超时时间。

一个进程内,调用acl.init接口初始化pyACL后,调用acl.rt.set_op_wait_timeout接口设置超时时间,本进程内后续调用acl.rt.stream_wait_event接口下发的任务支持在所设置的超时时间内等待,若等待的时间超过所设置的超时时间,则pyACL会返回报错。

单位为s, 取值范围为[0, 2147483647],默认值为0。

  • acl.init接口详情具体请参见“应用开发接口 > AcendCL API(Python)> 系统配置 > 函数:init”。
  • acl.rt.set_op_wait_timeout接口详情具体请参见“应用开发接口 > AcendCL API(Python)> Runtime(rt)> Event管理 > 函数:set_op_wait_timeout”。
  • acl.rt.stream_wait_event接口详情具体请参见“应用开发接口 > AcendCL API(Python)> Runtime(rt)> Event管理 > 函数:stream_wait_event”。

配置示例

export HCCL_EVENT_TIMEOUT=1800

使用约束

此环境变量仅适用于PyTorch网络,且使用HCCL作为通信后端的场景。

支持的型号

Atlas 训练系列产品

Atlas A2 训练系列产品

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词