OOM_SNAPSHOT_ENABLE
功能描述
此环境变量用于控制在网络发生“NPU out of memory. Tried to allocate...”的内存不足报错时,是否保存内存数据,以供分析内存不足原因。
- 配置为1时,在网络内存不足时,开启此功能,保存内存数据。
- 配置为0时,关闭此功能,不保存内存数据。
此环境变量默认为0。
仅在网络出现“NPU out of memory. Tried to allocate...”的内存不足报错时,开启此功能,才能保存内存数据。其余内存不足报错,配置此环境变量不生效。
配置示例
export OOM_SNAPSHOT_ENABLE=1
使用约束
此环境变量仅适用于PyTorch网络,且使用PyTorch内存机制管理内存的场景。
支持的型号
Atlas 训练系列产品
Atlas A2 训练系列产品