API来源	API名称	类型	说明
contrib	torch_npu.contrib.npu_fused_attention_with_layernorm	class
	torch_npu.contrib.npu_fused_attention	class
	torch_npu.contrib.Prefetcher	class
	torch_npu.contrib.DCNv2	class
	torch_npu.contrib.BiLSTM	class
	torch_npu.contrib.Swish	class
	torch_npu.contrib.NpuFairseqDropout	class

	torch_npu.contrib.npu_giou	function
	torch_npu.contrib.npu_ptiou	function
	torch_npu.contrib.npu_iou	function
DDP	torch.distributed.is_hccl_available	function	功能与调用方式与torch_npu.distributed.is_available相同。
	torch.distributed.ProcessGroupHCCL	class
	torch.distributed.distributed_c10d.distributed.Group	class
	torch_npu.distributed.is_available	function	功能与调用方式与torch.distributed.is_hccl_available相同。
optim	torch_npu.optim.NpuFusedOptimizerBase	class
	torch_npu.optim.NpuFusedSGD	class
	torch_npu.optim.NpuFusedAdadelta	class
	torch_npu.optim.NpuFusedLamb	class
	torch_npu.optim.NpuFusedAdam	class
	torch_npu.optim.NpuFusedAdamW	class
	torch_npu.optim.NpuFusedAdamP	class
	torch_npu.optim.NpuFusedBertAdam	class
	torch_npu.optim.NpuFusedRMSprop	class
	torch_npu.optim.NpuFusedRMSpropTF	class
AMP	torch_npu.npu.get_npu_overflow_flag	function
AMP	torch_npu.npu.clear_npu_overflow_flag	function
Device	torch_npu.npu.npu_device	-	非接口，可作为参数等价替换'npu'字符串。
Device	torch_npu.npu.native_device	-	非接口，可作为参数等价替换'xla'字符串。
dump	torch_npu.npu.set_dump	function
	torch_npu.npu.init_dump	function
	torch_npu.npu.finalize_dump	function
算子	torch_npu.npu.set_compile_mode	function
	torch_npu.npu.is_jit_compile_false	function
	torch_npu.npu.set_mm_bmm_format_nd	function
	torch_npu.npu.get_mm_bmm_format_nd	function
	torch_npu.npu.config.allow_internal_format	class
	torch_npu.npu.matmul	class	功能和调用方式与torch.backends.cuda.matmul.allow_tf32相同。
	torch_npu.npu.conv	class	功能和调用方式与torch.backends.cudnn.allow_tf32相同。
profiling	torch_npu.npu.set_option	function	详细使用参见设置算子编译选项。
	torch_npu.npu.profiler	class	计划废弃，推荐使用torch_npu.profiler相关接口。
	torch_npu.npu.set_aoe	function
	torch_npu.npu.profile	function
	torch_npu.npu.prof_init	function
	torch_npu.npu.prof_start	function
	torch_npu.npu.prof_stop	function
	torch_npu.npu.prof_finalize	function
	torch_npu.npu.iteration_start	function
	torch_npu.npu.iteration_end	function
	torch_npu.npu.profileConfig	function
	torch_npu.profiler.profile	class
	torch_npu.profiler.ProfilerActivity	class	枚举类。
	torch_npu.profiler.supported_activities	function
	torch_npu.profiler.tensorboard_trace_handler	function
	torch_npu.profiler.schedule	class
	torch_npu.profiler.ProfilerAction	class	枚举类。
	torch_npu.profiler._ExperimentalConfig	class
	torch_npu.profiler.supported_profiler_level	function
	torch_npu.profiler.supported_ai_core_metrics	function
	torch_npu.profiler.ProfilerLevel	class	枚举类。
	torch_npu.profiler.AiCMetrics	class	枚举类。
random	torch_npu.npu._in_bad_fork	function
fx	torch_npu.fx.symbolic_trace	function	功能和调用方式与torch.fx.symbolic_trace相同。
fx	torch_npu.fx.NpuTracer	class	功能和调用方式与torch.fx.Tracer相同。
aclnn	torch_npu.npu.aclnn.version	function
aclnn	torch.npu.aclnn.allow_hf32	function

contrib接口说明

torch_npu.contrib.npu_fused_attention_with_layernorm(hidden_states, attention_mask, query_kernel, key_kernel, value_kernel, query_bias, key_bias, value_bias, gamma, beta, scale=1, keep_prob=0)

bert自注意力与前层规范的融合实现。

参数解释：
- hidden_states (Tensor)：the hidden_states of the last layer
- attention_mask (Tensor)：attention mask
- query_kernel (Tensor)：the weight of query
- key_kernel (Tensor)：the weight of key
- value_kernel (Tensor)：the weight of value
- query_bias (Tensor)：the weight of query
- key_bias (Tensor)：the weight of key
- value_bias (Tensor)：the weight of value
- gammam (Tensor)：should be a tensor of torch.nn.LayerNorm.weight
- beta (Tensor)：should be a tensor of torch.nn.LayerNorm.bias
- scale=1 (double)：scaling coefficient of the calculated score
- keep_prob=0：probability of "keeping items", should equal to 1 - drop date.
返回值
 torch.Tensor：The result of self attention
约束条件：
无
示例：
无

torch_npu.contrib.npu_fused_attention(hidden_states, attention_mask, query_kernel, key_kernel, value_kernel, query_bias, key_bias, value_bias, scale=1, keep_prob=0)

bert自我注意的融合实现。

参数解释：
- hidden_states (Tensor)：the hidden_states of the last layer
- attention_mask (Tensor)：attention mask
- query_kernel (Tensor): the weight of query
- key_kernel (Tensor)：the weight of key
- value_kernel (Tensor): the weight of value
- query_bias (Tensor)：the weight of query
- key_bias (Tensor)：the weight of key
- value_bias (Tensor): the weight of value
- scale=1 (double)：scaling coefficient of the calculated score
- keep_prob=0: probability of "keeping items", should equal to 1 - drop date.
返回值：
torch.Tensor：The result of self attention
约束条件：
无
示例：
无

torch_npu.contrib.Prefetcher(loader, stream=None)

npu设备上使用的预取程序。

参数解释：
- loder (torch.utils.data.DataLoader or DataLoader like iterator):Using to generate inputs after preprocessing.
- stream (torch.npu.Stream)：Default None.Because of the limitation of NPU's memory mechanism,if prefetcher is initialized repeatedly during training,a defined stream should be introduced to prevent memory leakage;if prefetcher is initialized only once during training,a defined stream is not necessary.
约束条件：
无
示例：
无

torch_npu.contrib.DCNv2(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, deformable_groups=1, bias=True, pack=True)

应用基于NPU的调制可变形2D卷积操作。ModulationDeformConv的实现主要是基于mmcv的实现

进行设计和重构。

参数解释：
- in_channels (int)：Number of channels in the input image.=
- out_channels (int)：Number of channels produced by the convolution.
- kernel_size(int, tuple)：Size of the convolving kernel.
- stride(int, tuple)：Stride of the convolution. Default: 1.
- padding (int or tuple)：Zero-padding added to both sides of the input.
- Default：0.
- dilation (int or tuple)：Spacing between kernel elements. Default：1.
- groups (int)：Number of blocked connections from input.
- channels to output channels. Default：1.
- deform_groups (int)：Number of deformable group partitions.
- bias (bool)：If True, adds a learnable bias to the output. Default：False.
- pack (bool)：If True, conv_offset and mask will be included in this module. Default：True.
约束条件：
ModedDeformConv仅实现fp32数据类型下的操作。注意，con_offset中的权重和偏置必须初始化为0。

示例：

   >>> m = ModulatedDeformConv(32, 32, 1)
   >>> input_tensor = torch.randn(2, 32, 5, 5)
   >>> output = m(input_tensor)

   >>> x = torch.randn(2, 32, 7, 7)
   >>> model = ModulatedDeformConv(32, 32, 3, 2, 1)

   >>> torch.npu.set_device(0)
   >>> x = x.npu()
   >>> model = model.npu()

   >>> o = model(x)
   >>> l = o.sum()
   >>> l.backward()
   >>> print(l)

torch_npu.contrib.BiLSTM

torch_npu.contrib.BiLSTM(input_size, hidden_size)

将NPU兼容的双向LSTM操作应用于输入序列。

参数解释：
- input_size：The number of expected features in the input `x`
- hidden_size：The number of features in the hidden state `h`
约束条件：
无

示例：

    >>> r = BiLSTM(512, 256)
    >>> input_tensor = torch.randn(26, 2560, 512)
    >>> output = r(input_tensor)

torch_npu.contrib.Swish()

应用基于NPU的Sigmoid线性单元（SiLU）函数，按元素方向。SiLU函数也称为swish函数。

参数解释：
无参数。
约束条件：
无

示例：

    >>> m = nnn.SiLU()
    >>> input_tensor = torch.randn(2, 32, 5, 5)
    >>> output = m(input_tensor)

torch_npu.contrib.NpuFairseqDropout(p, module_name=None)

在npu设备上使用FairseqDropout。

参数解释：
- p (float): probability of an element to be zeroed.
- module_name (string): the name of the model.
约束条件：
不支持动态shape。
示例：
无

torch_npu.contrib.npu_giou(boxes1,boxes2,is_permuted=True)

参数解释：
- boxes1 (Tensor) - 格式为xywh、shape为(4, n)的预测检测框。
- boxes2 (Tensor) - 相应的gt检测框，shape为(4, n)。
- is_permuted(bool) - 坐标值是否已经标准化。默认为True。
约束条件：
仅trans=True（仅支持xywh，不支持xyxy), is_cross=False(仅支持boxes1.shape ==boxes2.shape,不支持((n,4), (m,4)))

示例:

>>> box1 = torch.randn(32, 4)
>>> box1.requires_grad = True
>>> box2 = torch.randn(32, 4)
>>> iou1 = npu_giou(box1, box2) # (32, 1)
>>> l = iou1.sum()
>>> l.backward()

torch_npu.contrib.npu_ptiou(boxes1, boxes2, mode="ptiou", is_normalized=False, normalized_scale=100.)

参数解释：
- boxes1 (Tensor) - shape为(n, 4)的预测检测框。
- boxes2 (Tensor) - shape为(m, 4)的预测检测框。
- is_normalized(bool) - 坐标值是否已经标准化。默认为False.
- normalized_scale(Float) - 设置恢复坐标的标准化比例，默认100。

约束条件：
该函数常用于bbox和anchor匹配时。到目前为止，这个函数还没有对应的后向运算符, 所以不能用在IOU_Loss中, 由于计算公式中分母加上了0.001以避免除以0，当输入框是归一化数据时，0.001的分量会太重。此时需要放大输入值，避免0.001影响过大。

示例:

>>> box1 = torch.randint(0, 256, size=(32, 4))
>>> box2 = torch.randint(0, 256, size=(16, 4))
>>> iou1 = npu_ptiou(box1, box2) # (32, 16)

torch_npu.contrib.npu_iou(boxes1, boxes2, mode="ptiou", is_normalized=False, normalized_scale=100.)

参数解释：
- boxes1 (Tensor) - shape为(n, 4)的预测检测框。
- boxes2 (Tensor) - shape为(m, 4)的预测检测框。
- is_normalized(bool) - 坐标值是否已经标准化。默认为False.
- normalized_scale(Float) - 设置恢复坐标的标准化比例，默认100。

约束条件：
该函数常用于bbox和anchor匹配时。到目前为止，这个函数还没有对应的后向运算符, 所以不能用在IOU_Loss中, 由于计算公式中分母加上了0.001以避免除以0，当输入框是归一化数据时，0.001的分量会太重。此时需要放大输入值，避免0.001影响过大。

示例:

>>> box1 = torch.randint(0, 256, size=(32, 4))
>>> box2 = torch.randint(0, 256, size=(16, 4))
>>> iou1 = npu_iou(box1, box2) # (32, 16)

DDP接口说明

torch_npu.is_hccl_available(): -> bool

判断npu的专属通讯后端HCCL后端是否是可用的。

参数解释：
无参数。
约束条件：
无
示例：
无

torch.distributed.ProcessGroupHCCL(store, rank, size, timeout); -> ProcessGroup

创建一个ProcessGroupHCCL对象并返回。

参数解释：
- Store：torch.distributed.distributed_c10d.PrefixStore对象，可以通过构造函数构造。
- Rank：当前节点的rank序号。
- Size：全部通讯节点的数量。
- Timeout：通讯中断时间，判断节点断联，默认值为1800s。
约束条件：
无
示例：
无

optim接口说明

使用融合优化器约束条件：

使用融合优化器，在创建融合张量时会申请融合后张量大小的内存（如融合的参数或融合的梯度、优化器状态等），device内存不足时不建议使用。
融合张量内存与原张量共享内存，若更改其一的内存地址，将破坏共享内存机制，可能引起精度异常等问题，使用时须用户自行保证共享内存不被破坏。

torch_npu.optim.NpuFusedOptimizerBase(params)

通过张量融合实现优化器的基础类，实现梯度清零、梯度更新等优化器基本功能，用户可进行继承实现自定义融合优化器。

参数解释：
params：模型参数或模型参数组。
约束条件：
无
示例：
无

torch_npu.optim.NpuFusedSGD(params, lr=required， momentum=MOMENTUM_MIN, dampening=DAMPENING_DEFAULT, weight_decay=WEIGHT_DECAY_MIN, nesterov=False)

通过张量融合实现的随机梯度下降算法。

参数解释：
- params：模型参数或模型参数组。
- lr：学习率（默认值：1e-3）。
- betas：用于计算梯度及其平方的运行平均值的系数（默认值：（0.9，0.999））。
- eps：防止除0，提高数值稳定性（默认值：1e-8）。
- weight_decay：权重衰减（默认值：0）。
- amsgrad：是否使用AMSGrad（默认值：False）。
约束条件：
无

示例：

opt = torch_npu.optim.NpuFusedSGD(model.parameters(), lr=0.1, momentum=0.9, weight_decay=0.1)

torch_npu.optim.NpuFusedAdam(params, lr=1e-3, betas=(0.9, 0.999), eps=1e-8, weight_decay=0, amsgrad=False)

通过张量融合实现的Adam算法。

参数解释：
- params：模型参数或模型参数组。
- lr：学习率（默认值：1e-3）。
- betas：用于计算梯度及其平方的运行平均值的系数（默认值：（0.9，0.999））。
- eps：防止除0，提高数值稳定性（默认值：1e-8）。
- weight_decay：权重衰减（默认值：0）。
- amsgrad：是否使用AMSGrad（默认值：False）。
约束条件：
无

示例：

opt = torch_npu.optim.NpuFusedAdam(model.parameters(), lr=0.1, weight_decay=0.1)

torch_npu.optim.NpuFusedAdamW(params, lr=1e-3, betas=(0.9, 0.999), eps=1e-8, weight_decay=1e-2, amsgrad=False)

通过张量融合实现的AdamW算法。

参数解释：
- params：模型参数或模型参数组
- lr：学习率（默认值：1e-3）
- betas：用于计算梯度及其平方的运行平均值的系数（默认值：（0.9，0.999））
- eps：防止除0，提高数值稳定性（默认值：1e-8）
- weight_decay：权重衰减（默认值：0）
- amsgrad：是否使用AMSGrad（默认值：False）
约束条件：
无

示例：

opt = torch_npu.optim.NpuFusedAdamW(model.parameters(), lr=0.1, weight_decay=0.1)

torch_npu.optim.NpuFusedAdamP(params, lr=1e-3, betas=(0.9, 0.999), eps=1e-8, weight_decay=0, delta=0.1, wd_ratio=0.1, nesterov=False)

通过张量融合实现的AdamP算法。

参数解释：
- params：模型参数或模型参数组
- lr：学习率（默认值：1e-3）
- betas：用于计算梯度及其平方的运行平均值的系数（默认值：（0.9，0.999））
- eps：分母防除0项，提高数值稳定性（默认值：1e-8）
- weight_decay：权重衰减（默认值：0）
- delta：余弦相似度阈值（默认值：0.1）
- wd_ratio：权重衰减动态调整速率（默认值：0.1）
- nesterov：使用nesterov动量（默认值：False）
约束条件：
无

示例：

opt = torch_npu.optim.NpuFusedAdamP(model.parameters(), lr=0.1, weight_decay=0.1, wd_ratio=0.01)

torch_npu.optim.NpuFusedBertAdam(params, lr=required, warmup=-1, t_total=-1, schedule='warmup_linear', b1=0.9, b2=0.99, e=1e-6, weight_decay=0.01, max_grad_norm=-1)

通过张量融合实现的 BertAdam 算法。

参数解释：
- params：模型参数或模型参数组
- lr：学习率（默认值：1e-3）
- warmup：t_total的warmup比例（默认值：-1，表示不进行warmup）
- t_total：学习率调整的步数（默认值：-1，表示固定学习率）
- schedule：学习率warmup策略（默认值：'warmup_linear'）
- b1：Adams b1（默认值：0.9）
- b2：Adams b2（默认值：0.99）
- e：Adams epsilon（默认值：1e-6）
- weight_decay：权重衰减（默认值：0.01）
- max_grad_norm：最大梯度正则（默认值：1.0，-1表示不做裁剪）
约束条件：
无

示例：

opt = torch_npu.optim.NpuFusedBertAdam(model.parameters(), lr=0.1, weight_decay=0.01, max_grad_norm=1.0)

torch_npu.optim.NpuFusedAdadelta(params, lr=1.0, rho=0.9, eps=1e-6, weight_decay=0)

通过张量融合实现的 Adadelta 算法。

参数解释：
- params：模型参数或模型参数组
- lr：学习率（默认值：1e-3）
- rho：梯度的均方差系数（默认值：0.9）
- eps：分母防除0项，提高数值稳定性（默认值：1e-6）
- weight_decay：权重衰减（默认值：0）
约束条件：
无

示例：

opt = torch_npu.optim.NpuFusedAdadelta(model.parameters(), lr=0.001, rho=0.95, weight_decay=0.01)

torch_npu.optim.NpuFusedLamb(params, lr=1e-3, betas=(0.9, 0.999), eps=1e-6, weight_decay=0, adam=False, use_global_grad_norm=False)

通过张量融合实现的 FusedLamb 算法。

参数解释：
- params：模型参数或模型参数组
- lr：学习率。（默认值：1e-3）
- betas：用于计算梯度及其平方的运行平均值的系数。（默认值：（0.9，0.999））
- eps：分母防除0项，提高数值稳定性（默认值：1e-8）
- weight_decay：权重衰减（默认值：0）
- adam：将strust_ratio设置为1，退化为Adam（默认值：False）
- use_global_grad_norm：使用全局梯度正则（默认值：False）
约束条件：
无

示例：

opt = torch_npu.optim.NpuFusedLamb(model.parameters(), lr=0.001, weight_decay=0.01)

torch_npu.optim.NpuFusedRMSprop(params, lr=1e-2, alpha=0.99, eps=1e-8, weight_decay=0, momentum=0, centered=False)

通过张量融合实现的 RMSprop 算法。

参数解释：
- params：模型参数或模型参数组
- lr：学习率。（默认值：1e-3）
- alpha：平滑常量（默认值：0.99）
- eps：分母防除0项，提高数值稳定性（默认值：1e-8）
- weight_decay：权重衰减（默认值：0）
- momentum：动量因子（默认值：0）
- centered：计算中心RMSProp（默认值：False）
约束条件：
无

示例：

opt = torch_npu.optim.NpuFusedRMSprop(model.parameters(), lr=0.001, weight_decay=0.01, momentum=0.9)

torch_npu.optim.NpuFusedRMSpropTF(params, lr=1e-2, alpha=0.9, eps=1e-10, weight_decay=0, momentum=0., centered=False, decoupled_decay=False, lr_in_momentum=True)

通过张量融合实现的 RMSpropTF 算法。

参数解释：
- params：模型参数或模型参数组
- lr：学习率（默认值：1e-3）
- alpha：平滑常量（默认值：0.9）
- eps：分母防除0项，提高数值稳定性（默认值：1e-10）
- weight_decay：权重衰减（默认值：0）
- momentum：动量因子（默认值：0）
- centered：计算中心RMSProp（默认值：False）
- decoupled_decay：权重衰减仅作用于参数（默认值：False）
- lr_in_momentum：计算动量buffer时使用lr（默认值：True）
约束条件：
无

示例：

opt = torch_npu.optim.NpuFusedRMSpropTF(model.parameters(), lr=0.001, weight_decay=0.01, momentum=0.9)

amp接口说明

torch_npu.npu.get_npu_overflow_flag()

检测npu计算过程中是否有数值溢出。

参数解释：
无参数
约束条件：
无

示例：

>>>a = torch.Tensor([65535]).npu().half()
>>>a = a + a
>>>ret = torch_npu.npu.get_npu_overflow_flag()

torch_npu.npu.clear_npu_overflow_flag

对npu芯片溢出检测为进行清零。

参数解释：
无参数，无返回值。
约束条件：
无
示例：
无

dump接口说明

torch_npu.npu.init_dump()

初始化dump配置。

参数解释：
无参数
约束条件：
无
示例：
无

torch_npu.npu.set_dump(path_to_json)

传入配置文件来配置dump参数。

参数解释：
path_to_json：配置文件路径，用户自行配置。
约束条件：
无

示例：

>>>torch_npu.npu.set_dump("/home/HwHiAiUser/dump.json")

torch_npu.npu.finalize_dump()

结束dump。

参数解释：
无参数
约束条件：
无
示例：
无

算子接口说明

torch_npu.npu.set_compile_mode(jit_compile = bool)

设置是否开启二进制。

参数解释：
jit_compile：jit_compile=True时是非二进制模式，jit_compile=False时是二进制模式。
约束条件：
无

示例：

>>>torch.npu.set_compile_mode(jit_compile=False)

torch_npu.npu.is_jit_compile_false()

确认算子计算是否采用的二进制，如果是二进制计算，返回True，否则返回False。

参数解释：
无参数。
返回值：
bool型。
约束条件：
无

示例：

>>>torch.npu.set_compile_mode(jit_compile=False)

torch_npu.npu.set_mm_bmm_format_nd(bool)

设置线性module里面的mm和bmm算子是否用ND格式。

参数解释：
无参数。
返回值：
无。
约束条件：
无

示例：

>>>torch_npu.npu.set_mm_bmm_format_nd(True)

torch_npu.npu.get_mm_bmm_format_nd()

确认线性module里面的mm和bmm算子是否有使能ND格式，如果使能了ND，返回True，否则，返回False。

参数解释：
无参数。
返回值：
bool型。
约束条件：
无

示例：

>>>torch_npu.npu.set_mm_bmm_format_nd()
   True

torch_npu.npu.config.allow_internal_format = bool

是否使用私有格式，设置为True时允许使用私有格式，设置为False时，不允许申请任何私有格式的tensor，避免了适配层出现私有格式流通。

参数解释：
输入bool值，默认值为True。
返回值：
无
约束条件：
无

示例：

>>>torch_npu.npu.config.allow_internal_format = False

profiling接口说明

torch_npu.npu.set_aoe (dump_path)

AOE调优使能。

参数解释：
dump_path：dump算子图保存路径
返回值：
无
约束条件：
无
示例：
无

torch_npu.npu.profile(profiler_result_path, use_e2e_profiler, config)

通过profiling获取性能数据文件。

参数解释：
profiler_result_path：profiling结果保存路径，默认为当前路径。

use_e2e_profiler：是否开启E2E profiling功能，默认为False，代表仅开启CANN profiling功能，采集CANN层面的数据。

config：torch.npu. profileConfig类型，指定Profiling配置数据。
返回值：
无
约束条件：
无
示例：
无

torch_npu.npu.prof_init (profiler_result_path)

初始化Profiling。

参数解释：
profiler_result_path：保存性能数据的文件的路径。
返回值：
无
约束条件：
无
示例：
无

torch_npu.npu.prof_start (config)

下发Profiling请求，使能对应数据的采集。

参数解释：
config：torch.npu. profileConfig类型，指定Profiling配置数据。
返回值：
无
约束条件：
无
示例：
无

torch_npu.npu.prof_stop()

停止Profiling数据采集，与torch_npu.npu.prof_start配对使用。

参数解释：
无参数。
返回值：
无
约束条件：
无
示例：
无

torch_npu.npu.prof_finalize()

结束Profiling，与torch_npu.npu.prof_init配对使用。

参数解释：
无参数。
返回值：
无
约束条件：
无
示例：
无

torch_npu.npu.iteration_start()

为了从prof图上区分step信息，进入每个step时打上开始标记。

参数解释：
无参数。
返回值：
无
约束条件：
无
示例：
无

torch_npu.npu.iteration_end()

为了从prof图上区分step信息，每个step结束时打上结束标记

参数解释：
无参数。
返回值：
无
约束条件：
无
示例：
无

torch_npu.npu.profileConfig(ACL_PROF_ACL_API=True, \
                        ACL_PROF_TASK_TIME=True, ACL_PROF_AICORE_METRICS=True, \
                        ACL_PROF_AICPU=True, ACL_PROF_L2CACHE=False, \
                        ACL_PROF_HCCL_TRACE=True, ACL_PROF_TRAINING_TRACE=False, \
                        TORCH_CALL_STACK=False, \
                        aiCoreMetricsType=1)

指定Profiling配置数据。

参数解释：

ACL_PROF_ACL_API：采集AscendCL接口的性能数据，默认为True。

ACL_PROF_TASK_TIME：采集AI CORE算子的执行时间，默认为True。

ACL_PROF_AICORE_METRICS：采集AI CORE性能指标数据，默认为True，当值为True时，aicore_metrics入参处配置的性能指标采集项才有效。

ACL_PROF_AICPU：采集AI CPU任务的开始、结束轨迹数据，默认为True。

ACL_PROF_L2CACHE：采集L2 Cache数据，该数据会导致prof结果膨胀，默认False。

ACL_PROF_HCCL_TRACE：采集HCCL数据，默认为True。

ACL_PROF_TRAINING_TRACE：表示迭代轨迹数据，记录模型正向和反向等步骤，默认False。

TORCH_CALL_STACK：表示PyTorch框架层的算子调用栈信息，默认False。

表1 aiCoreMetricsType取值和定义说明表
参数取值	相关参数	参数定义	采集项
0	ACL_AICORE_ARITHMETIC_UTILIZATION	各种计算类指标占比统计。	mac_fp16_ratio、mac_int8_ratio、vec_fp32_ratio、vec_fp16_ratio、vec_int32_ratio、vec_misc_ratio。
1	ACL_AICORE_PIPE_UTILIZATION	计算单元和搬运单元耗时占比。	vec_ratio、mac_ratio、scalar_ratio、mte1_ratio、mte2_ratio、mte3_ratio、icache_miss_rate。
2	ACL_AICORE_MEMORY_BANDWIDTH	外部内存读写类指令占比。	ub_read_bw、ub_write_bw、l1_read_bw、l1_write_bw、l2_read_bw、l2_write_bw、main_mem_read_bw、main_mem_write_bw。
3	ACL_AICORE_L0B_AND_WIDTH	内部内存读写类指令占比。	scalar_ld_ratio、scalar_st_ratio、l0a_read_bw、l0a_write_bw、l0b_read_bw、l0b_write_bw、l0c_read_bw、l0c_write_bw。
4	ACL_AICORE_RESOURCE_CONFLICT_RATIO	流水线队列类指令占比。	vec_bankgroup_cflt_ratio、vec_bank_cflt_ratio、vec_resc_cflt_ratio、mte1_iq_full_ratio、mte2_iq_full_ratio、mte3_iq_full_ratio、cube_iq_full_ratio、vec_iq_full_ratio、iq_full_ratio。
5	ACL_AICORE_MEMORY_UB	内部内存读写指令占比。	ub_read_bw_vector、ub_write_bw_vector、ub_read_bw_scalar、ub_write_bw_scalar。
0x FF	ACL_AICORE_NONE	不采集。	无。

返回值：
无
约束条件：
无
示例：
无

torch_npu.profiler.profile(activities=None, schedule=None, on_trace_ready=None, record_shapes=False, profile_memory=False, with_stack=False, with_flops=False, with_modules=False, experimental_config=None, use_cuda=None)

提供对训练过程数据的profiling功能。

参数解释：
- activities：CPU、NPU事件采集列表，Enum类型。取值为：
torch_npu.profiler.ProfilerActivity.CPU：框架侧数据采集的开关。

torch_npu.profiler.ProfilerActivity.NPU：CANN软件栈及NPU数据采集的开关。

默认情况下两个开关同时开启。
- schedule：设置不同step的行为，Callable类型。由schedule类控制。
- on_trace_ready：采集结束时自动执行操作，Callable类型。当前仅支持执行tensorboard_trace_handler函数的操作，默认不执行任何操作。
- record_shapes：算子的InputShapes和InputTypes，Bool类型。取值为：
  - True：开启。
  - False：关闭。默认值。
    开启torch_npu.profiler.ProfilerActivity.CPU时生效。
- profile_memory算子的内存占用情况，Bool类型。取值为：
  - True：开启。
  - False：关闭。默认值。
- with_stack：算子调用栈，Bool类型。取值为：
  - True：开启。
  - False：关闭。默认值。
  开启torch_npu.profiler.ProfilerActivity.CPU时生效。
- with_flops：算子浮点操作，Bool类型（该参数暂不支持解析性能数据）。取值为：
  - True：开启。
  - False：关闭。默认值。
    开启torch_npu.profiler.ProfilerActivity.CPU时生效。
- with_modules：with_stack时modules分层信息，Bool类型（该参数暂不支持解析性能数据）。取值为：
  - True：开启。
  - False：关闭。默认值。
    开启torch_npu.profiler.ProfilerActivity.CPU时生效。
experimental_config：扩展参数，通过扩展配置性能分析工具常用的采集项。支持采集项和详细介绍请参见torch_npu.profiler._ExperimentalConfig
返回值：
无
约束条件：
无

示例：

experimental_config = torch_npu.profiler._ExperimentalConfig(
        aic_metrics=torch_npu.profiler.AiCMetrics.PipeUtilization, profiler_level=torch_npu.profiler.ProfilerLevel.Level1, l2_cache=False
)
with torch_npu.profiler.profile(
        activities=[
            torch_npu.profiler.ProfilerActivity.CPU,
            torch_npu.profiler.ProfilerActivity.NPU
            ],
        schedule=torch_npu.profiler.schedule(wait=1, warmup=1, active=2, repeat=2, skip_first=10),
        on_trace_ready=torch_npu.profiler.tensorboard_trace_handler("./result"),
 
        record_shapes=True,
        profile_memory=True,
        with_stack=True,
        with_flops=False,
        with_modules=False,
        experimental_config=experimental_config) as prof:
            for step in range(steps):
                train_one_step(step, steps, train_loader, model, optimizer, criterion)
                prof.step()

torch_npu.profiler.ProfilerActivity

事件采集列表，枚举类。用于赋值给torch_npu.profiler.profile的activities参数。

参数解释：
- torch_npu.profiler.ProfilerActivity.CPU：框架侧数据采集的开关。
- torch_npu.profiler.ProfilerActivity.NPU：CANN软件栈及NPU数据采集的开关。
返回值：
无
约束条件：
无
示例：
无

torch_npu.profiler.supported_activities()

事件采集列表，枚举类。用于赋值给torch_npu.profiler.profile的activities参数。

参数解释：
无参数。
返回值：
无
约束条件：
无
示例：
无

torch_npu.profiler.tensorboard_trace_handler(dir_name, worker_name = None, use_gzip = False)

将采集到的性能数据导出为TensorBoard工具支持的格式。用于构造torch_npu.profiler.profile的on_trace_ready参数。

参数解释：
- dir_name：采集的性能数据的输出目录。必选。
- worker_name：用于区分唯一的工作线程，默认为{hostname}_{pid}。可选。
- use_gzip：暂未使用。
返回值：
无
约束条件：
无

示例：

with torch_npu.profiler.profile(
schedule=torch_npu.profiler.schedule(wait=1, warmup=1, active=2, repeat=2, skip_first=10),
on_trace_ready=torch_npu.profiler.tensorboard_trace_handler("./result"),
    with_stack=True) as prof:
            for step in range(steps):
                train_one_step(step, steps, train_loader, model, optimizer, criterion)
                prof.step()

torch_npu.profiler.schedule (wait, active, warmup = 0, repeat = 0, skip_first = 0)

设置不同step的行为。用于构造torch_npu.profiler.profile的schedule参数。

参数解释：
- skip_first：采集前先跳过的step轮数。默认为值0。可选。建议跳过前10轮。
- wait：每次重复执行采集跳过的step轮数。必选。
- warmup：预热的step轮数。必选。建议设置1轮预热。
- active：采集的step轮数。必选。
- repeat：重复执行wait+warmup+active的次数。默认为值0。可选。默认不执行该操作。
返回值：
无
约束条件：
无

示例：

with torch_npu.profiler.profile(
schedule=torch_npu.profiler.schedule(wait=1, warmup=1, active=2, repeat=2, skip_first=10),
on_trace_ready=torch_npu.profiler.tensorboard_trace_handler("./result"),
    with_stack=True) as prof:
            for step in range(steps):
                train_one_step(step, steps, train_loader, model, optimizer, criterion)
                prof.step()

torch_npu.profiler.ProfilerAction

Profiler状态，Enum类型。

参数解释：
- NONE：无任何行为。
- WARMUP：性能数据采集预热。
- RECORD：性能数据采集。
- RECORD_AND_SAVE：性能数据采集并保存。
返回值：
无
约束条件：
无
示例：
无

torch_npu.profiler._ExperimentalConfig(profiler_level = Constant.LEVEL0, aic_metrics = Constant.AicMetricsNone, l2_cache = False, record_op_args = False)

Profiling扩展参数。用于构造torch_npu.profiler.profile的experimental_config参数。

参数解释：
- profiler_level：采集的Level等级，Enum类型。可取值以及含义详见torch_npu.profiler.ProfilerLevel。
- aic_metrics：AI Core的性能指标采集项，Enum类型，采集的结果数据将在Kernel View呈现。可取值以及含义详见torch_npu.profiler.AiCMetrics
- l2_cache：控制l2_cache数据采集开关。可取值True或False，默认为False。该采集项在ASCEND_PROFILER_OUTPUT生成l2_cache.csv文件。
返回值：
无
约束条件：
无

示例：

experimental_config = torch_npu.profiler._ExperimentalConfig(
    aic_metrics=torch_npu.profiler.AiCMetrics.PipeUtilization, profiler_level=torch_npu.profiler.ProfilerLevel.Level1, 
    l2_cache=False
)

torch_npu.profiler.supported_profiler_level()

返回支持的AI Core的性能指标采集项，返回值等同torch_npu.profiler.ProfilerLevel枚举类的取值范围。

参数解释：
无参数。
返回值：
无
约束条件：
无
示例：
无

torch_npu.profiler.supported_ai_core_metrics()

返回支持的采集等级，返回值等同torch_npu.profiler.AiCMetrics枚举类的取值范围。

参数解释：
无参数。
返回值：
无
约束条件：
无
示例：
无

torch_npu.profiler.ProfilerLevel

采集等级，用于作为 _ExperimentalConfig类的profiler_level参数。

参数解释：
Level0：采集上层应用数据、底层NPU数据（Ascend Headware数据）以及NPU上执行的算子信息。默认值。
Level1：在Level0的基础上多采集CANN层AscendCL数据和NPU上执行的AI Core性能指标信息以及开启aic_metrics=torch_npu.profiler.AiCMetrics.PipeUtilization。
Level2：在Level1的基础上多采集CANN层GE、Runtime数据以及HCCL、AI CPU数据以及开启aic_metrics=torch_npu.profiler.AiCMetrics.PipeUtilization。
返回值：
无
约束条件：
无
示例：
无

torch_npu.profiler.AiCMetrics

AI Core的性能指标采集项，用于作为 _ExperimentalConfig类的aic_metrics参数。

参数解释：
- PipeUtilization：计算单元和搬运单元耗时占比，包括采集项vec_ratio、mac_ratio、scalar_ratio、mte1_ratio、mte2_ratio、mte3_ratio、icache_miss_rate、fixpipe_ratio。默认值。
- ArithmeticUtilization：各种计算类指标占比统计，包括采集项mac_fp16_ratio、mac_int8_ratio、vec_fp32_ratio、vec_fp16_ratio、vec_int32_ratio、vec_misc_ratio。
- torch_npu.profiler. AiCMetrics. Memory：外部内存读写类指令占比，包括采集项ub_read_bw、ub_write_bw、l1_read_bw、l1_write_bw、l2_read_bw、l2_write_bw、main_mem_read_bw、main_mem_write_bw。
- torch_npu.profiler. AiCMetrics. MemoryL0：内部内存读写类指令占比，包括采集项scalar_ld_ratio、scalar_st_ratio、l0a_read_bw、l0a_write_bw、l0b_read_bw、l0b_write_bw、l0c_read_bw、l0c_write_bw、l0c_read_bw_cube、l0c_write_bw_cube。
- torch_npu.profiler. AiCMetrics. ResourceConflictRatio：流水线队列类指令占比，包括采集项vec_bankgroup_cflt_ratio、vec_bank_cflt_ratio、vec_resc_cflt_ratio、mte1_iq_full_ratio、mte2_iq_full_ratio、mte3_iq_full_ratio、cube_iq_full_ratio、vec_iq_full_ratio、iq_full_ratio
- torch_npu.profiler. AiCMetrics. MemoryUB：内部内存读写指令占比，包括采集项vec_bankgroup_cflt_ratio、vec_bank_cflt_ratio、vec_resc_cflt_ratio、mte1_iq_full_ratio、mte2_iq_full_ratio、mte3_iq_full_ratio、cube_iq_full_ratio、vec_iq_full_ratio、iq_full_ratio。
- torch_npu.profiler. AiCMetrics. L2Cache：读写cache命中次数和缺失后重新分配次数，包括采集项ai*_write_cache_hit、ai*_write_cache_miss_allocate、ai*_r*_read_cache_hit、ai*_r*_read_cache_miss_allocate。
返回值：
无
约束条件：
无
示例：
无

random接口说明

torch_npu.npu._in_bad_fork()

用在 torch.manual_seed 的全局变量

参数解释：
无参数。
返回值：
无
约束条件：
无
示例：
无

aclnn接口说明

torch_npu.aclnn.allow_hf32:bool

设置conv算子是否支持hf32，一个属性值，对aclnn的allow_hf32属性的设置和查询，默认值为true。

参数解释：
aclnn的bool类的属性
约束条件：
无

示例：

>>>res = torch.npu.aclnn.allow_hf32
   res=True
>>>torch.npu.aclnn.allow_hf32 = True
>>>res = torch.npu.aclnn.allow_hf32
   res=True
>>>torch.npu.aclnn.allow_hf32 = False
>>>res = torch.npu.aclnn.allow_hf32
   res=False

torch_npu.aclnn.version(): -> None

查询当前aclnn的版本信息,当前版本还没有支持正确的aclnn的版本，兼容返回None同时做warn提示torch.npu.aclnn.version isn't implemented!

参数解释：
无参数
约束条件：
无

示例：

>>>res = torch_npu.npu.aclnn.version()
   res=None

torch_npu自定义接口

contrib接口说明

DDP接口说明

optim接口说明

amp接口说明

dump接口说明

算子接口说明

profiling接口说明

random接口说明

aclnn接口说明