OOM_SNAPSHOT_ENABLE
功能描述
此环境变量用于控制在网络发生oom时,是否保存内存数据,以供分析oom原因。
- 配置为1时,在网络oom时,开启此功能,保存内存数据。
- 配置为0时,关闭此功能,不保存内存数据。
此环境变量默认为0。
网络必须出现“NPU out of memory. Tried to allocate...”报错信息时,才能开启此功能,保存内存数据。
配置示例
export OOM_SNAPSHOT_ENABLE=1
使用约束
此环境变量仅适用于PyTorch网络,且使用PyTorch内存机制管理内存的场景。
支持的型号
Atlas 训练系列产品
Atlas A2 训练系列产品