下载
中文
注册

HCCL_ASYNC_ERROR_HANDLING

功能描述

当使用HCCL作为通信后端时,通过此环境变量可控制是否开启异步错误处理。

  • 0:不开启异步错误处理。
  • 1:开启异步错误处理。

当PyTorch版本为1.11.0时,默认值为0;当PyTorch版本大于等于2.1.0时,默认值为1。

当前版本,开启异步处理时,若出现ERROR CQE错误,进程会终止;其他错误信息,仅打屏提示,不会终止进程。

配置示例

export HCCL_ASYNC_ERROR_HANDLING=1

使用约束

  • 此环境变量仅适用于基于PyTorch框架构建的神经网络,且使用HCCL作为通信后端的场景。
  • 通过此环境变量开启异步错误处理时,为了更好地明确HCCL超时原因,建议init_process_group传参的timeout时间大于HCCL_CONNECT_TIMEOUT和HCCL_EXEC_TIMEOUT环境变量配置的时间,HCCL_CONNECT_TIMEOUT具体参考《CANN 环境变量参考》中的“HCCL_CONNECT_TIMEOUT”章节,HCCL_EXEC_TIMEOUT具体请参考《CANN 环境变量参考》中的“HCCL_EXEC_TIMEOUT”章节

支持的型号

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品