下载
中文
注册

Conv2D

函数功能

注意:该接口后续即将废弃,新开发内容不要使用该接口

计算给定输入张量和权重张量的2-D卷积,输出结果张量。Conv2d卷积层多用于图像识别,使用过滤器提取图像中的特征。

函数原型

template <typename dst_T, typename src_T> __aicore__ inline void Conv2D(const LocalTensor<dst_T>& dstLocal, const LocalTensor<src_T>& featureMap, const LocalTensor<src_T>& weight, Conv2dParams& conv2dParams, Conv2dTilling& tilling);
入参中的tiling结构需要通过如下切分方案计算接口来获取:
template <typename T> __aicore__ inline Conv2dTilling GetConv2dTiling(Conv2dParams& conv2dParams);

参数说明

表1 接口参数说明

参数名称

类型

说明

dstLocal

输出

目的操作数。

Atlas 训练系列产品,支持的QuePosition为:CO1,CO2

Atlas推理系列产品AI Core,支持的QuePosition为:CO1,CO2

结果中有效张量格式为[Cout/16, Ho, Wo, 16],大小为Cout * Ho * Wo,Ho与Wo可以根据其他数据计算得出。

Ho = floor((H + pad_top + pad_bottom - dilation_h * (Kh - 1) - 1) / stride_h + 1)

Wo = floor((W + pad_left + pad_right - dilation_w * (Kw - 1) - 1) / stride_w + 1)

由于硬件要求Ho*Wo需为16倍数,在申请dst Tensor时,shape应向上16对齐,实际申请shape大小应为Cout * round_howo。

round_howo = ceil(Ho * Wo /16) * 16。

featureMap

输入

输入张量,Tensor的QuePosition为A1。

输入张量“feature_map”的形状,格式是[C1, H, W, C0]。

C1*C0为输入的channel数,要求如下:

  • 当feature_map的数据类型为half时,C0=16。
  • 当feature_map的数据类型为int8_t时,C0=32。
  • C1取值范围:[1,4], 输入的channel的范围:[16,32,64,128]。

H为高,取值范围:[1,40]。

W为宽,取值范围:[1,40]。

weight

输入

卷积核(权重)张量,Tensor的QuePosition为B1。

卷积核张量“weight”的形状,格式是[C1, Kh, Kw, Cout, C0]。

C1*C0为输入的channel数,对于C0要求如下:

  • 当feature_map的数据类型为half时,C0=16。
  • 当feature_map的数据类型为int8_t时,C0=32。
  • C1取值范围:[1,4]。
  • kernel_shape输入的channel数需与fm_shape输入的channel数保持一致。

Cout为卷积核数目,取值范围:[16,32,64,128], Cout必须为16的倍数。

Kh为卷积核高;值的范围:[1,5]。

Kw表示卷积核宽;值的范围:[1,5]。

conv2dParams

输入

输入矩阵形状等状态参数,类型为Conv2dParams。结构体具体定义为:

struct Conv2dParams {
    uint32_t imgShape[kConv2dImgSize];       // [H, W]
    uint32_t kernelShape[kConv2dkernelSize]; // [Kh, Kw]
    uint32_t stride[kConv2dStride];          // [stride_h, stride_w]
    uint32_t cin;                            // cin = C0 * C1;
    uint32_t cout;
    uint32_t padList[kConv2dPad];       // [pad_left, pad_right, pad_top, pad_bottom]
    uint32_t dilation[kConv2dDilation]; // [dilation_h, dilation_w]
    uint32_t initY;
    uint32_t partialSum;
};

tilling

输入

分形控制参数,类型为Conv2dTilling。结构体具体定义为:

struct Conv2dTilling {
    const uint32_t blockSize = 16; // # M block size is always 16
    LoopMode loopMode = LoopMode::MODE_NM;

    uint32_t c0Size = 32;
    uint32_t dTypeSize = 1;

    uint32_t strideH = 0;
    uint32_t strideW = 0;
    uint32_t dilationH = 0;
    uint32_t dilationW = 0;
    uint32_t hi = 0;
    uint32_t wi = 0;
    uint32_t ho = 0;
    uint32_t wo = 0;

    uint32_t height = 0;
    uint32_t width = 0;

    uint32_t howo = 0;

    uint32_t mNum = 0;
    uint32_t nNum = 0;
    uint32_t kNum = 0;

    uint32_t mBlockNum = 0;
    uint32_t kBlockNum = 0;
    uint32_t nBlockNum = 0;

    uint32_t roundM = 0;
    uint32_t roundN = 0;
    uint32_t roundK = 0;

    uint32_t mTileBlock = 0;
    uint32_t nTileBlock = 0;
    uint32_t kTileBlock = 0;

    uint32_t mIterNum = 0;
    uint32_t nIterNum = 0;
    uint32_t kIterNum = 0;

    uint32_t mTileNums = 0;

    bool mHasTail = false;
    bool nHasTail = false;
    bool kHasTail = false;

    uint32_t kTailBlock = 0;
    uint32_t mTailBlock = 0;
    uint32_t nTailBlock = 0;

    uint32_t mTailNums = 0;
};
表2 Conv2DParams结构体内参数说明:

参数名称

类型

说明

imgShape

vector<int>

输入张量“feature_map”的形状,格式是[ H, W]。
  • H为高,取值范围:[1,40]。
  • W为宽,取值范围:[1,40]。

kernelShape

vector<int>

卷积核张量“weight”的形状,格式是[Kh, Kw]。

  • Kh为高,取值范围:[1,5]。
  • Kw为宽,取值范围:[1,5]。

stride

vector<int>

卷积步长,格式是[stride_h, stride_w]。
  • stride_h表示步长高, 值的范围:[1,4]。
  • stride_w表示步长宽, 值的范围:[1,4]。

cin

int

分形排布参数,Cin = C1 * C0,Cin 为输入的channel数,C1取值范围:[1,4]。

  • 当feature_map的数据类型为float时,C0=8。输入的channel的范围:[8,16,24,32]。
  • 当feature_map的数据类型为half时,C0=16。输入的channel的范围:[16,32,48,64]。
  • 当feature_map的数据类型为int8_t时,C0=32。输入的channel的范围:[32,64,96,128]。

cout

int

Cout为卷积核数目,取值范围:[16,32,64,128], Cout必须为16的倍数。

padList

vector<int>

padding行数/列数,格式是[pad_left, pad_right, pad_top, pad_bottom]。
  • pad_left为feature_map左侧pad列数,范围[0,4]。pad_right为feature_map右侧pad列数,范围[0,4]。
  • pad_top为feature_map顶部pad行数,范围[0,4]。
  • pad_bottom为feature_map底部pad行数,范围[0,4]。

dilation

vector<int>

空洞卷积参数,格式[dilation_h, dilation_w]。
  • dilation_h为空洞高,范围:[1,4]。
  • dilation_w为空洞宽,范围:[1,4]。

膨胀后卷积核宽为dilation_w * (Kw - 1) + 1,高为dilation_h * (Kh - 1) + 1。

initY

uint32_t

表示dstLocal是否需要初始化。

  • 取值0:不使用bias,L0C需要初始化,dstLocal初始矩阵保存有之前结果,新计算结果会累加前一次conv2d 计算结果。
  • 取值1:不使用bias,L0C不需要初始化,dstLocal初始矩阵中数据无意义,计算结果直接覆盖dstLocal中的数据。

partialSum

uint32_t

当dstLocal参数所在的QuePosition为CO2时,通过该参数控制计算结果是否搬出。
  • 取值0:搬出计算结果
  • 取值1:不搬出计算结果,可以进行后续计算
表3 Conv2dTilling结构体内参数说明

参数名称

类型

说明

blockSize

uint32_t

固定值,恒为16,一个维度内存放的元素个数。

loopMode

LoopMode

遍历模式,结构体具体定义为:

enum class LoopMode {
    MODE_NM = 0,
    MODE_MN = 1,
    MODE_KM = 2,
    MODE_KN = 3
};

c0Size

uint32_t

一个block的字节长度,范围[16或者32]。

dtypeSize

uint32_t

传入的数据类型的字节长度,范围[1, 2]。

strideH

uint32_t

卷积步长-高,范围:[1,4]。

strideW

uint32_t

卷积步长-宽,范围:[1,4]。

dilationH

uint32_t

空洞卷积参数-高,范围:[1,4]。

dilationW

uint32_t

空洞卷积参数-宽,范围:[1,4]。

hi

uint32_t

feature_map形状-高,范围:[1,40]。

wi

uint32_t

feature_map形状-宽,范围:[1,40]。

ho

uint32_t

feature_map形状-高,范围:[1,40]。

wo

uint32_t

feature_map形状-宽,范围:[1,40]。

height

uint32_t

weight形状-高,[1,5]。

width

uint32_t

weight形状-宽,[1,5]。

howo

uint32_t

feature_map形状大小,为ho * wo。

mNum

uint32_t

M轴等效数据长度参数值,范围:[1,4096]。

nNum

uint32_t

N轴等效数据长度参数值,范围:[1,4096]。

kNum

uint32_t

K轴等效数据长度参数值,范围:[1,4096]。

roundM

uint32_t

M轴等效数据长度参数值且以blockSize为倍数向上取整,范围:[1,4096]。

roundN

uint32_t

N轴等效数据长度参数值且以blockSize为倍数向上取整,范围:[1,4096]。

roundK

uint32_t

K轴等效数据长度参数值且以c0Size为倍数向上取整,范围:[1,4096]。

mBlockNum

uint32_t

M轴Block个数,mBlockNum = mNum / blockSize,范围:[1,4096]。

nBlockNum

uint32_t

N轴Block个数,nBlockNum = nNum / blockSize,范围:[1,4096]。

kBlockNum

uint32_t

K轴Block个数,kBlockNum = kNum / blockSize,范围:[1,4096]。

mIterNum

uint32_t

遍历M轴维度数量,范围:[1,4096]。

nIterNum

uint32_t

遍历N轴维度数量,范围:[1,4096]。

kIterNum

uint32_t

遍历K轴维度数量,范围:[1,4096]。

mTileBlock

uint32_t

M轴切分块个数,范围:[1,4096]。

nTileBlock

uint32_t

N轴切分块个数,范围:[1,4096]。

kTileBlock

uint32_t

K轴切分块个数,范围:[1,4096]。

kTailBlock

uint32_t

K轴尾块个数,范围:[1,4096]。

mTailBlock

uint32_t

M轴尾块个数,范围:[1,4096]。

nTailBlock

uint32_t

N轴尾块个数,范围:[1,4096]。

kHasTail

bool

K轴是否存在尾块。

mHasTail

bool

M轴是否存在尾块。

nHasTail

bool

N轴是否存在尾块。

mTileNums

uint32_t

M轴切分块个数的长度,范围:[1,4096]。

mTailNums

uint32_t

M轴尾块个数的长度,范围:[1,4096]。

表4 imgShape、kernelShape和dstLocal的数据类型组合

feature_map.dtype

weight.dtype

dst.dtype

int8_t

int8_t

int32_t

half

half

float

half

half

half

支持的型号

Atlas 训练系列产品

Atlas推理系列产品AI Core

注意事项

  • 该接口当前不支持W=Kw并且H>Kh的场景,其将产生不可预期的结果。
  • 操作数地址偏移对齐要求请参见通用约束