下载
中文
注册

FusedInferAttentionScoreQuantFusionPass

融合模式

量化场景,将FusedInferAttentionScore+AscendQuant融合为FusedInferAttentionScore算子,quant的scale和offset转化为pfa的quant_scale2和quant_offset2入参。

使用约束

  • 仅支持FusedInferAttentionScore为fp16输出。
  • 仅支持AscendQuant为fp16输入int8输出。
  • FusedInferAttentionScore算子的quant_scale2和quant_offset2必须为空。
  • FusedInferAttentionScore算子必须为单输出。

支持的型号

Atlas A2训练系列产品/Atlas 800I A2推理产品