PYTORCH_NPU_ALLOC_CONF
功能描述
PyTorch训练或在线推理场景,可通过此环境变量控制缓存分配器行为。
可选参数:
- max_split_size_mb:<value>,内存块允许切分上限。
大于设定值的内存块在使用过程中不会进行切分,这有助于减少内存碎片。此选项主要应用于当模型由于oom(内存不足)而中断并显示存在大量非活动的拆分内存块场景的优化。<value>默认值为无限大,单位MB,即所有大小的内存块都可以拆分,最小设置值大于20MB。
- garbage_collection_threshold:<value>,垃圾回收阈值。
主动回收未使用的NPU内存块,不会触发同步机制。在设置value阈值(例如0.8)后,如果NPU内存容量使用超过阈值(即分配给NPU应用程序的总内存的80%),缓存分配器将开始回收NPU内存块,优先释放最先申请和长时间未复用的内存块,避免释放积极复用的内存块。其中<value>取值范围为(0.0,1.0),默认值为0.0。
- expandable_segments:使能内存池扩展段功能,即虚拟内存特性。
默认为False。如果设置为True,此设置将指示缓存分配器创建特定的内存块分配,这些内存块后续可以扩展,以便能更好地处理内存使用中频繁变更使用内存大小的情况。如果设置为False,关闭内存池扩展段功能,使用原有的内存申请方式。
- base_addr_aligned_kb:取值范围为0~16,设置值需为整数,单位KB,默认值为16。仅在expandable_segments设置为true的时候生效。若此参数配置为16,在申请大块内存(大于等于2M)的时候,会尽量保持申请内存的基地址16KB对齐;若配置为0时,申请内存的基地址512B对齐。此外配置此参数会对内存占用量、性能造成波动。
参数配置格式PYTORCH_NPU_ALLOC_CONF=<option1>:<value1>,<option2>:<value2>。
max_split_size_mb和garbage_collection_threshold中任意一个为非默认值时,expandable_segments必须设置为False。
用户使用Ascend Extension for PyTorch 6.0.rc3版本配套的驱动(Ascend HDK 24.1.RC3),开启虚拟内存特性时,可以使用单进程多卡特性;用户使用Ascend Extension for PyTorch 6.0.rc3之前版本配套的驱动(Ascend HDK 24.1.RC3之前版本),开启虚拟内存特性时,不能使用单进程多卡特性。
配置示例
示例一:
export PYTORCH_NPU_ALLOC_CONF=max_split_size_mb:32,garbage_collection_threshold:0.6
示例二:
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True,base_addr_aligned_kb:16
使用约束
expandable_segments特性需在Ascend HDK 23.0.0及以上版本上使用。
支持的型号
Atlas 训练系列产品
Atlas A2 训练系列产品