OOM_SNAPSHOT_ENABLE
功能描述
通过此环境变量可配置在网络发生“NPU out of memory. Tried to allocate...”的内存不足报错时,是否保存内存数据,以供分析内存不足原因。
- 配置为“2”,当发生内存不足报错时,仅保存当前内存使用信息,包含申请和释放的内存信息。
- 配置为“1”,当发生内存不足报错时,会保存当前和历史内存使用信息,包含申请和释放的内存信息。
- 配置为“0”,关闭此功能,不保存内存数据。
此环境变量默认为0。

仅在网络出现“NPU out of memory. Tried to allocate...”的内存不足报错时,开启此功能,才能保存内存数据。其余内存不足报错,配置此环境变量不生效。
配置示例
export OOM_SNAPSHOT_ENABLE=1
使用约束
此环境变量仅适用于基于PyTorch框架构建的神经网络,且使用PyTorch内存机制管理内存的场景。
支持的型号
Atlas 训练系列产品 Atlas A2 训练系列产品 Atlas A3 训练系列产品 Atlas 800I A2 推理产品
父主题: 内存管理