环境变量列表
本手册描述开发者在Ascend Extension for PyTorch训练和在线推理过程中可使用的环境变量。基于CANN构建AI应用和业务过程中使用的环境变量请参考《CANN 环境变量参考》。
环境变量 |
简介 |
---|---|
算子执行 |
|
通过此环境变量可控制芯片对输入数据为Inf/NaN的处理能力,即控制芯片使用饱和模式还是INF_NAN模式。默认值为“1”。 |
|
通过此环境变量可设置combined标志。设置为0表示关闭此功能;设置为1表示开启,用于优化非连续两个算子组合类场景。 |
|
通过此环境变量可控制算子执行时是否启动同步模式。 |
|
通过此环境变量可配置task_queue算子下发队列是否开启和优化等级。 |
|
算子编译 |
|
通过此环境变量可配置算子编译磁盘缓存的目录。 |
|
通过此环境变量可配置算子编译磁盘缓存模式。 |
|
内存管理 |
|
通过此环境变量可控制缓存分配器行为。配置此环境变量会改变内存占用量,可能造成性能波动。 |
|
通过此环境变量可配置是否关闭内存复用机制。 |
|
通过此环境变量可配置在网络发生“NPU out of memory. Tried to allocate...”的内存不足报错时,是否保存内存数据,以供分析内存不足原因。 |
|
通过此环境变量可配置在网络发生内存不足报错时,内存数据保存路径。 |
|
通过此环境变量可配置多流内存复用是否开启。 |
|
集合通信 |
|
当使用HCCL作为通信后端时,通过此环境变量可控制是否开启异步错误处理。 |
|
当使用HCCL作为通信后端时,通过此环境变量可控制是否进行通信超时分析。 |
|
当使用HCCL作为通信后端时,通过此环境变量可设置等待Event完成的超时时间。 |
|
通过此环境变量可配置是否开启点对点通信(torch.distributed.isend、torch.distributed.irecv和torch.distributed.batch_isend_irecv)使用独立通信域功能。 |
|
通过此环境变量可配置是否通过ranktable file进行集合通信域建链。 |
|
告警信息打印 |
|
通过此环境变量可配置是否打印Ascend Extension for PyTorch的告警信息。 |
|
同步超时 |
|
通过此环境变量可配置设备同步的超时时间。 |
|
特征值检测 |
|
通过此环境变量可控制是否开启Ascend Extension for PyTorch的特征值检测功能。 |
|
通过此环境变量可配置特征值检测功能的绝对阈值,格式为整型数据对,最小取值为3。 |
|
通过此环境变量可配置特征值检测功能的相对阈值,格式为整型数据对,最小取值为3。 |