--tiling_schedule_optimize
功能说明
Tiling下沉调度优化开关。
由于NPU中AI Core内部存储无法完全容纳算子输入输出的所有数据,需要每次搬运一部分输入数据进行计算然后搬出,再搬运下一部分输入数据进行计算,该过程称之为Tiling;根据算子的shape等信息来确定数据切分算法相关参数(比如每次搬运的块大小,以及总共循环多少次)的计算程序,称之为Tiling实现。由于Tiling实现中完成的均为标量计算,AI Core并不擅长,故一般在Host侧CPU上执行,但是满足下述条件Tiling实现会下沉到Device侧执行:
- 模型为静态shape。
- 模型中的算子支持Tiling下沉,比如FusedInferAttentionScore、IncreFlashAttention等融合算子。
- 支持Tiling下沉的算子值有依赖,依赖前一个算子的执行结果。
关联参数
无。
参数取值
- 0:关闭Tiling下沉,默认为0。
- 1:使能Tiling下沉。
推荐配置及收益
无。
示例
--tiling_schedule_optimize=1
支持的型号
Atlas 推理系列产品
Atlas A2训练系列产品/Atlas 800I A2推理产品
父主题: 模型调优选项