下载
中文
注册

beta)torch_npu.npu.check_uce_in_memory

本接口为预留接口,暂不支持。

接口原型

torch_npu.npu.check_uce_in_memory(device_id:int)

功能描述

提供故障内存地址类型检测接口,供MindCluster进行故障恢复策略的决策。其功能是在出现UCE片上内存故障时,判断故障内存地址类型。

此API的功能实现依赖于PyTorch的内存管理机制,仅在PYTORCH_NO_NPU_MEMORY_CACHING未配置,即开启内存复用机制时,才可使用此API,若export PYTORCH_NO_NPU_MEMORY_CACHING=1,即关闭内存复用机制时,此API无法使用。

参数说明

device_id(int) :需要处理的device id。

输入说明

要确保是一个有效的device。

输出说明

0:无UCE故障地址。

1:UCE故障地址为非Ascend Extension for PyTorch使用的内存地址。

2:UCE故障地址为Ascend Extension for PyTorch使用的临时内存地址。

3:UCE故障地址为Ascend Extension for PyTorch使用的常驻内存地址。

支持的型号

  • Atlas A2 训练系列产品

调用示例

import torch,torch_npu
torch.npu.set_device(0)
torch.npu.check_uce_in_memory (0)