接口列表

融合算子简介

融合算子是指将多个独立的“小算子”融合成一个“大算子”，多个小算子的功能和大算子的功能等价，融合算子在性能或者内存等方面优于独立的小算子。可以根据具体算法的实现自由融合向量（Vector）、矩阵（Cube）算子以达到性能或者内存收益。

例如对于大语言模型（Large Language Model, LLM）核心计算为Scaled dot product attention。其核心实现如下图。图中Matmul算子（Cube）、Scale算子（Vector）、Mask算子（Vector）、SoftMax算子（Vector）融合为一个融合算子。

融合算子通常有如下优势：

减少计算量：融合算子可以将多个算子合并为一个，简化计算过程，减少计算量，提高计算效率。
减少内存占用：融合算子可以将多个算子的中间结果合并为一个，从而减少内存占用，提高内存利用率。
优化数据流：融合算子可以优化数据流，减少数据在不同算子之间的传输，从而提高数据处理效率。
简化代码实现：融合算子可以简化代码实现，减少代码量，提高代码可读性和可维护性。

融合算子归属领域

算子接口可被归属为如下领域：

aclnn_ops_infer：NN网络算子推理库
aclnn_ops_train：NN网络算子训练库
aclnn_math：数学算子库
aclnn_rand：随机数算子库

其中推理库依赖数学库，训练库依赖推理库、数学库与随机库。

每个算子接口所属领域如下所示。

aclnn api	aclnn_ops_infer	aclnn_ops_train	aclnn_math	aclnn_rand
aclnnAddLayerNorm	是	是	否	否
aclnnAddLayerNormGrad	否	是	否	否
aclnnAddRmsNorm	是	是	否	否
aclnnAllGatherMatmul	是	是	否	否
aclnnAlltoAllAllGatherBatchMatMul	是	是	否	否
aclnnApplyRotaryPosEmb	是	否	否	否
aclnnBatchMatMulReduceScatterAlltoAll	是	是	否	否
aclnnBidirectionLSTM	是	否	否	否
aclnnBidirectionLSTMV2	是	否	否	否
aclnnDeepNorm	是	是	否	否
aclnnDeepNormGrad	否	是	否	否
aclnnDynamicQuant	是	否	否	否
aclnnDynamicQuantV2	是	否	否	否
aclnnEinsum	是	否	否	否
aclnnFFN（代码开放）	是	是	否	否
aclnnFFNV2（代码开放）	是	是	否	否
aclnnFFNV3（代码开放）	是	是	否	否
aclnnFlashAttentionScore（代码开放）	是	是	否	否
aclnnFlashAttentionScoreGrad（代码开放）	否	是	否	否
aclnnFlashAttentionScoreGradV2（代码开放）	否	是	否	否
aclnnFlashAttentionScoreV2（代码开放）	是	是	否	否
aclnnFlashAttentionUnpaddingScoreGrad（代码开放）	否	是	否	否
aclnnFlashAttentionUnpaddingScoreGradV2（代码开放）	否	是	否	否
aclnnFlashAttentionVarLenScore（代码开放）	是	是	否	否
aclnnFlashAttentionVarLenScoreV2（代码开放）	是	是	否	否
aclnnFusedInferAttentionScore（代码开放）	是	否	否	否
aclnnFusedInferAttentionScoreV2（代码开放）	是	否	否	否
aclnnGroupedMatmul	是	否	否	否
aclnnGroupedMatmulV2	是	否	否	否
aclnnGroupedMatmulV3	是	否	否	否
aclnnGroupedMatmulV4	是	否	否	否
aclnnGroupedMatMulAllReduce	是	否	否	否
aclnnIncreFlashAttention（代码开放）	是	否	否	否
aclnnIncreFlashAttentionV2（代码开放）	是	否	否	否
aclnnIncreFlashAttentionV3（代码开放）	是	否	否	否
aclnnIncreFlashAttentionV4（代码开放）	是	否	否	否
aclnnInplaceMatmulAllReduceAddRmsNorm	是	否	否	否
aclnnInplaceQuantMatmulAllReduceAddRmsNorm	是	否	否	否
aclnnInplaceQuantScatter	是	否	否	否
aclnnInplaceWeightQuantMatmulAllReduceAddRmsNorm	是	否	否	否
aclnnInstanceNorm	是	否	否	否
aclnnMatmulAllReduce	是	否	否	否
aclnnMatmulAllReduceV2	是	否	否	否
aclnnMatmulAllReduceAddRmsNorm	是	否	否	否
aclnnMatmulReduceScatter	是	是	否	否
aclnnMoeComputeExpertTokens	是	是	否	否
aclnnMoeFinalizeRouting	是	是	否	否
aclnnMoeFinalizeRoutingV2	是	是	否	否
aclnnMoeFinalizeRoutingV2Grad	否	是	否	否
aclnnMoeGatingTopKSoftmax	是	是	否	否
aclnnMoeGatingTopKSoftmaxV2	是	是	否	否
aclnnMoeInitRouting	是	是	否	否
aclnnMoeInitRoutingV2	是	是	否	否
aclnnMoeInitRoutingV2Grad	否	是	否	否
aclnnMoeInitRoutingQuant	是	是	否	否
aclnnMoeInitRoutingQuantV2	是	是	否	否
aclnnMoeTokenPermute	否	是	否	否
aclnnMoeTokenPermuteGrad	否	是	否	否
aclnnMoeTokenUnpermute	否	是	否	否
aclnnMoeTokenUnpermuteGrad	否	是	否	否
aclnnMrgbaCustom	是	否	否	否
aclnnMultiScaleDeformableAttentionGrad	否	是	否	否
aclnnMultiScaleDeformableAttentionGrad	是	是	否	否
aclnnPromptFlashAttention（代码开放）	是	否	否	否
aclnnPromptFlashAttentionV2（代码开放）	是	否	否	否
aclnnPromptFlashAttentionV3（代码开放）	是	否	否	否
aclnnQuantMatmulAllReduce	是	否	否	否
aclnnQuantMatmulAllReduceV2	是	否	否	否
aclnnQuantMatmulAllReduceV3	是	否	否	否
aclnnQuantMatmulAllReduceAddRmsNorm	是	否	否	否
aclnnRingAttentionUpdate	否	是	否	否
aclnnRmsNorm	是	是	否	否
aclnnRmsNormGrad	否	是	否	否
aclnnSwinAttentionScoreQuant	是	否	否	否
aclnnSwinTransformerLnQkvQuant	是	否	否	否
aclnnWeightQuantBatchMatmulV2	是	否	否	否
aclnnWeightQuantMatmulAllReduce	是	否	否	否
aclnnWeightQuantMatmulAllReduceAddRmsNorm	是	否	否	否
aclRfft1D	是	是	否	否
aclStft	是	是	否	否