torch_npu.npu_prefetch

功能描述

提供网络weight预取功能,将需要预取的权重搬到L2 Cache中。尤其在做较大Tensor的MatMul计算且需要搬移到L2 Cache的操作时,可通过该接口提前预取权重,适当提高模型性能,具体效果基于用户对并行的处理。

接口原型

torch_npu.npu_prefetch(Tensor input, Tensor? dependency, int max_size, int offset=0) -> ()

参数说明

输出说明

无输出。

约束说明

该接口支持图模式(目前仅支持PyTorch 2.1版本)。

支持的型号

Atlas A2 训练系列产品/Atlas 800I A2 推理产品

调用示例