--tiling_schedule_optimize

功能说明

Tiling下沉调度优化开关。

由于NPU中AI Core内部存储无法完全容纳算子输入输出的所有数据，需要每次搬运一部分输入数据进行计算然后搬出，再搬运下一部分输入数据进行计算，该过程称之为Tiling；根据算子的shape等信息来确定数据切分算法相关参数（比如每次搬运的块大小，以及总共循环多少次）的计算程序，称之为Tiling实现。由于Tiling实现中完成的均为标量计算，AI Core并不擅长，故一般在Host侧CPU上执行，但是满足下述条件Tiling实现会下沉到Device侧执行：

模型为静态shape。
模型中的算子支持Tiling下沉，比如FusedInferAttentionScore、IncreFlashAttention等融合算子。
支持Tiling下沉的算子值有依赖，依赖前一个算子的执行结果。

关联参数

无。

参数取值

0：关闭Tiling下沉，默认为0。
1：使能Tiling下沉。

示例

--tiling_schedule_optimize=1

支持的型号

Atlas 推理系列产品

Atlas A2训练系列产品/Atlas 800I A2推理产品

父主题： 模型调优选项

--tiling_schedule_optimize

功能说明

关联参数

参数取值

推荐配置及收益

示例

支持的型号