HCCL_ASYNC_ERROR_HANDLING
功能描述
当使用HCCL作为通信后端时,通过此环境变量可控制是否开启异步错误处理。
- 0:不开启异步错误处理。
- 1:开启异步错误处理。
当PyTorch版本为1.11.0时,默认值为0;当PyTorch版本大于等于2.1.0时,默认值为1。

当前版本,开启异步处理时,若出现ERROR CQE错误,进程会终止;其他错误信息,仅打屏提示,不会终止进程。
配置示例
export HCCL_ASYNC_ERROR_HANDLING=1
使用约束
支持的型号
Atlas 训练系列产品 Atlas A2 训练系列产品 Atlas A3 训练系列产品
父主题: 集合通信