HCCL_DIAGNOSE_ENABLE
功能描述
此环境变量用于配置集合通信是否缓存部分任务的详细信息,以便任务执行失败时,打印详细日志,用于问题定位。
支持如下取值:
- 1:代表开启集合通信缓存。
- 0:代表不开启集合通信缓存。
默认值为“0”。
需要注意,此环境变量开启后会对性能产生一定的影响。
配置示例
export HCCL_DIAGNOSE_ENABLE=1
使用约束
最多保存最新的2000个算子信息。
支持的型号
Atlas A2 训练系列产品
父主题: 集合通信