下载
中文
注册

--tiling_schedule_optimize

功能说明

Tiling下沉调度优化开关。

由于NPU中AI Core内部存储无法完全容纳算子输入输出的所有数据,需要每次搬运一部分输入数据进行计算然后搬出,再搬运下一部分输入数据进行计算,该过程称之为Tiling;根据算子的shape等信息来确定数据切分算法相关参数(比如每次搬运的块大小,以及总共循环多少次)的计算程序,称之为Tiling实现。由于Tiling实现中完成的均为标量计算,AI Core并不擅长,故一般在Host侧CPU上执行,但是满足下述条件Tiling实现会下沉到Device侧执行:

  1. 模型为静态shape。
  2. 模型中的算子支持Tiling下沉,比如FusedInferAttentionScore、IncreFlashAttention等融合算子。
  3. 支持Tiling下沉的算子值有依赖,依赖前一个算子的执行结果。

关联参数

无。

参数取值

  • 0:关闭Tiling下沉,默认为0。
  • 1:使能Tiling下沉。

推荐配置及收益

无。

示例

--tiling_schedule_optimize=1

支持的型号

Atlas 推理系列产品

Atlas A2训练系列产品/Atlas 800I A2推理产品