亲和库

表1 常用亲和函数对照表

序号

原生函数/参考链接

亲和函数名称

测试用例

局限性

1

self.dropout()/nn.functional.softmax()/torch.add

def fuse_add_softmax_dropout()

https://gitee.com/ascend/pytorch/blob/v1.11.0-3.0.0/test/test_contrib/test_fuse_add_softmax_dropout.py

暂无

2

def bboexs_diou()

def npu_diou()

https://gitee.com/ascend/pytorch/blob/v1.11.0-3.0.0/test/test_contrib/test_iou.py

反向仅支持trans==True, is_Cross==False,mode==0('iou')场景。

3

def bboexs_giou()

def npu_ciou()

https://gitee.com/ascend/pytorch/blob/v1.11.0-3.0.0/test/test_contrib/test_iou.py

反向仅支持trans==True, is_Cross==False,mode==0('iou')。

4

class FairseqDropout()

class NpuCachedDropout()

https://gitee.com/ascend/pytorch/blob/v1.11.0-3.0.0/test/test_contrib/test_ensemble_dropout.py

不支持动态shape。

5

class MultiheadAttention()

class MultiheadAttention()

https://gitee.com/ascend/pytorch/blob/v1.11.0-3.0.0/test/test_contrib/test_multihead_attention.py

不支持动态shape。

6

def single_level_responsible_flags()

def npu_single_level_responsible_flags()

https://gitee.com/ascend/pytorch/blob/v1.11.0-3.0.0/test/test_contrib/test_anchor_generator.py

由于NPU op的限制,output_size(featmap_size[0] * featmap_size[1] * num_base_anchors)必须小于60000。

7

def encode()

def npu_bbox_coder_encode_xyxy2xywh()

https://gitee.com/ascend/pytorch/blob/v1.11.0-3.0.0/test/test_contrib/test_bbox_coder.py

支持动态shape,因为语义的原因,只支持2维 (n,4)场景,max_shape必须传2个数,dtype仅支持float16和float32,两个输入dtype需保持一致。

8

无原函数,主要功能语句:input1[condition] = value,请查看测试用例。

def npu_fast_condition_index_put()

https://gitee.com/ascend/pytorch/blob/v1.11.0-3.0.0/test/test_contrib/test_index_op.py

暂无

9

torch.matmul()

class

matmul_transpose

()

https://gitee.com/ascend/pytorch/blob/v1.11.0-3.0.0/test/test_contrib/test_matmul_transpose.py

动态shape场景下,不支持broadcast,仅支持输入float16,输出float16;输入float16,输出float32。

10

def multiclass_nms()

def npu_multiclass_nms()

https://gitee.com/ascend/pytorch/blob/v1.11.0-3.0.0/test/test_contrib/test_multiclass_nms.py

动态shape场景:类别最大为20,框的数量最大为10000。

11

def fast_nms()

def npu_batched_multiclass_nms()

https://gitee.com/ascend/pytorch/blob/v1.11.0-3.0.0/test/test_contrib/test_multiclass_nms.py

动态shape场景:类别最大为20,框的数量最大为10000。

12

torch.roll()

class roll()

https://gitee.com/ascend/pytorch/blob/v1.11.0-3.0.0/test/test_contrib/test_roll.py

暂无

13

class Mish()

class Mish()

https://gitee.com/ascend/pytorch/blob/v1.11.0-3.0.0/test/test_contrib/test_activations.py

暂无

14

class SiLu()

class SiLU()

https://gitee.com/ascend/pytorch/blob/v1.11.0-3.0.0/test/test_contrib/test_activations.py

暂无

15

def channel_shuffle()

class ChannelShuffle()

https://gitee.com/ascend/pytorch/blob/v1.11.0-3.0.0/test/test_contrib/test_channel_shuffle.py

仅实现group=2场景。

16

class LabelSmoothingCrossEntropy()

class LabelSmoothingCrossEntropy()

https://gitee.com/ascend/pytorch/blob/v1.11.0-3.0.0/test/test_contrib/test_crossentropy.py

暂无

17

class ModulatedDeformConv2dFunciton()

class ModulatedDeformConv()

https://gitee.com/ascend/pytorch/blob/v1.11.0-3.0.0/test/test_contrib/test_deform_conv.py

ModedDeformConv仅支持float32数据类型下的操作。注意,con_offset中的weight和bias必须初始化为0。

18

class DropPath()

class NpuDropPath()

https://gitee.com/ascend/pytorch/blob/v1.11.0-3.0.0/test/test_contrib/test_drop_path.py

不支持动态shape。

19

class Focus()

class Focus()

https://gitee.com/ascend/pytorch/blob/v1.11.0-3.0.0/test/test_contrib/test_focus.py

暂无

20

class PSROIPool()

class PSROIPool()

https://gitee.com/ascend/pytorch/blob/v1.11.0-3.0.0/test/test_contrib/test_ps_roi_pooling.py

pooled_height、pooled_width、group_size参数需保持一致。

21

class ROIAlign()

class ROIAlign()

https://gitee.com/ascend/pytorch/blob/v1.11.0-3.0.0/test/test_contrib/test_roi_align.py

需设置aligned=True,功能验证请参考test_roi_align.py

22

Reference 1Reference 2

class FusedColorJitter()

https://gitee.com/ascend/pytorch/blob/v1.11.0/test/test_contrib/test_fused_color_jitter.py

暂无

23

def npu_bbox_coder_decode_xywh2xyxy()

def npu_bbox_coder_decode_xywh2xyxy()

https://gitee.com/ascend/pytorch/blob/v1.11.0/test/test_contrib/test_bbox_coder.py

支持动态shape。由于算子语义限制,只支持2维(n,4)场景,max_shape必须传2个数,dtype仅支持float16和float32,两个输入dtype需保持一致。

24

def npu_bbox_coder_encode_yolo()

def npu_bbox_coder_encode_yolo()

https://gitee.com/ascend/pytorch/blob/v1.11.0/test/test_contrib/test_bbox_coder.py

不支持动态shape。由于算子语义限制,只支持2维(n,4)场景,bboxes和gt_bboxes的shape与dtype需相同, dtype仅支持float16和float32,第三个输入(步长)仅可为1维,并与第一个输入(bboxes)相同。

25

暂无

class DropoutWithByteMask()

暂无

仅在32核场景下可以提升性能。

26

暂无

def dropout_with_byte_mask()

暂无

仅在32核场景下可以提升性能。

详细算子接口说明

def fuse_add_softmax_dropout(training, dropout, attn_mask, attn_scores, attn_head_size, p=0.5, dim=-1):

使用NPU自定义算子替换原生写法,以提高性能。

def npu_diou(boxes1,boxes2,trans=True, is_cross=False, mode=0):

应用基于NPU的DIoU操作。考虑到目标之间距离,以及距离和范围的重叠率,不同目标或边界需趋于稳定。

def npu_ciou(boxes1,boxes2,trans=True, is_cross=False, mode=0):

应用基于NPU的CIoU操作。在DIoU的基础上增加了penalty item,并propose CIoU。

def npu_single_level_responsible_flags(featmap_size,gt_bboxes,stride,num_base_anchors):

使用NPU OP在单个特征图中生成锚点的responsible flags。

def npu_bbox_coder_encode_yolo(bboxes, gt_bboxes, stride):

使用NPU OP获取将bbox转换为gt_bbox的框回归转换deltas。

def npu_bbox_coder_encode_xyxy2xywh(bboxes,gt_bboxes,means=None,stds=None,is_normalized=False,normalized_scale=10000.):

应用基于NPU的bbox格式编码操作,将格式从xyxy编码为xywh。

def npu_bbox_coder_decode_xywh2xyxy(bboxes,pred_bboxes,means=None,stds=None,max_shape=[9999, 9999],wh_ratio_clip=16 / 1000):

应用基于NPU的bbox格式编码操作,将格式从xywh编码为xyxy。

def npu_fast_condition_index_put(x, condition, value):

使用NPU亲和写法替换bool型index_put函数中的原生写法。

class 
matmul_transpose
(torch.autograd.Function):

使用NPU自定义算子替换原生写法,以提高性能。

def npu_multiclass_nms(multi_bboxes,multi_scores, score_thr=0.05,nms_thr=0.45,max_num=50,score_factors=None):

使用NPU API的多类bbox NMS。

def npu_batched_multiclass_nms(multi_bboxes,multi_scores,score_thr=0.05,nms_thr=0.45,max_num=50,score_factors=None):

使用NPU API的批量多类bbox NMS。

def dropout_with_byte_mask(input1, p=0.5, training=True, inplace=False)

此dropout_with_byte_mask方法生成无状态随机uint8掩码,并根据掩码执行dropout。

class roll():

使用NPU亲和写法替换swin-transformer中的原生roll。

class Mish(nn.Module):

应用基于NPU的Mish操作。

class SiLU(nn.Module):

按元素应用基于NPU的Sigmoid线性单元(SiLU)函数。SiLU函数也称为Swish函数。

class ChannelShuffle(nn.Module):

应用NPU兼容的通道shuffle操作。为避免NPU上效率不高的连续操作,我们用相同语义重写替换原始操作。以下两个不连续操作已被替换:transpose和chunk。

class LabelSmoothingCrossEntropy(nn.Module):

使用NPU API进行LabelSmoothing Cross Entropy。

class ModulatedDeformConv(nn.Module):

应用基于NPU的Modulated Deformable 2D卷积操作。

class NpuDropPath(nn.Module):

使用NPU亲和写法替换swin_transformer.py中的原生Drop路径。丢弃每个样本(应用于residual blocks的主路径)的路径(随机深度)。

class NpuCachedDropout(torch.nn.Dropout):

在NPU设备上使用FairseqDropout。

class Focus(nn.Module):

使用NPU亲和写法替换YOLOv5中的原生Focus。

class FusedColorJitter(torch.nn.Module):

随机更改图像的亮度、对比度、饱和度和色调。

class MultiheadAttention(nn.Module):

Multi-headed attention.

class DropoutWithByteMask(Module):

应用NPU兼容的DropoutWithByteMask操作。

def dropout_with_byte_mask(input1, p=0.5, training=True, inplace=False)
应用NPU兼容的dropout_with_byte_mask操作,仅支持npu设备。这个dropout_with_byte_mask方法生成无状态随机uint8掩码,并根据掩码做dropout。
  • 参数解释:
    • p:probability of a channel to be zeroed. Default: 0.5
    • training:apply dropout if is ``True``. Default: ``True``
    • inplace:If set to ``True``, will do this operation in-place. Default: ``False``
  • 约束条件:

    仅在设备32核场景下性能提升。

  • 示例:

class PSROIPool(nn.Module):

使用NPU API进行ROIAlign。

class ROIAlign(nn.Module):

使用NPU API进行ROIAlign。