下载
中文
注册

OOM_SNAPSHOT_ENABLE

功能描述

通过此环境变量可配置在网络发生“NPU out of memory. Tried to allocate...”的内存不足报错时,是否保存内存数据,以供分析内存不足原因。

  • 配置为“2”,当发生内存不足报错时,仅保存当前内存使用信息,包含申请和释放的内存信息。
  • 配置为“1”,当发生内存不足报错时,会保存当前和历史内存使用信息,包含申请和释放的内存信息。
  • 配置为“0”,关闭此功能,不保存内存数据。

此环境变量默认为0。

仅在网络出现“NPU out of memory. Tried to allocate...”的内存不足报错时,开启此功能,才能保存内存数据。其余内存不足报错,配置此环境变量不生效。

配置示例

export OOM_SNAPSHOT_ENABLE=1

使用约束

此环境变量仅适用于基于PyTorch框架构建的神经网络,且使用PyTorch内存机制管理内存的场景。

支持的型号

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • Atlas 800I A2 推理产品