Conv2D

函数功能

注意：该接口后续即将废弃，新开发内容不要使用该接口。

计算给定输入张量和权重张量的2-D卷积，输出结果张量。Conv2d卷积层多用于图像识别，使用过滤器提取图像中的特征。

函数原型

template <typename dst_T, typename src_T>
__aicore__ inline void Conv2D(const LocalTensor<dst_T>& dstLocal, const LocalTensor<src_T>& featureMap, const LocalTensor<src_T>& weight, Conv2dParams& conv2dParams, Conv2dTilling& tilling)

入参中的tiling结构需要通过如下切分方案计算接口来获取：

template <typename T>
__aicore__ inline Conv2dTilling GetConv2dTiling(Conv2dParams& conv2dParams)

参数说明

表1 接口参数说明

参数名称

类型

说明

dstLocal

输出

目的操作数。

Atlas 训练系列产品，支持的QuePosition为：CO1，CO2

Atlas推理系列产品AI Core，支持的QuePosition为：CO1，CO2

结果中有效张量格式为[Cout/16, Ho, Wo, 16]，大小为Cout * Ho * Wo，Ho与Wo可以根据其他数据计算得出。

Ho = floor((H + pad_top + pad_bottom - dilation_h * (Kh - 1) - 1) / stride_h + 1)

Wo = floor((W + pad_left + pad_right - dilation_w * (Kw - 1) - 1) / stride_w + 1)

由于硬件要求Ho*Wo需为16倍数，在申请dst Tensor时，shape应向上16对齐，实际申请shape大小应为Cout * round_howo。

round_howo = ceil(Ho * Wo /16) * 16。

featureMap

输入

输入张量，Tensor的QuePosition为A1。

输入张量“feature_map”的形状，格式是[C1, H, W, C0]。

C1*C0为输入的channel数，要求如下：

当feature_map的数据类型为half时，C0=16。
当feature_map的数据类型为int8_t时，C0=32。
C1取值范围：[1,4], 输入的channel的范围：[16，32，64，128]。

H为高，取值范围：[1,40]。

W为宽，取值范围：[1,40]。

weight

输入

卷积核（权重）张量，Tensor的QuePosition为B1。

卷积核张量“weight”的形状，格式是[C1, Kh, Kw, Cout, C0]。

C1*C0为输入的channel数，对于C0要求如下：

当feature_map的数据类型为half时，C0=16。
当feature_map的数据类型为int8_t时，C0=32。
C1取值范围：[1,4]。
kernel_shape输入的channel数需与fm_shape输入的channel数保持一致。

Cout为卷积核数目，取值范围：[16，32，64，128]， Cout必须为16的倍数。

Kh为卷积核高；值的范围：[1,5]。

Kw表示卷积核宽；值的范围：[1,5]。

conv2dParams

输入

输入矩阵形状等状态参数，类型为Conv2dParams。结构体具体定义为：

struct Conv2dParams {
    uint32_t imgShape[kConv2dImgSize];       // [H, W]
    uint32_t kernelShape[kConv2dkernelSize]; // [Kh, Kw]
    uint32_t stride[kConv2dStride];          // [stride_h, stride_w]
    uint32_t cin;                            // cin = C0 * C1;
    uint32_t cout;
    uint32_t padList[kConv2dPad];       // [pad_left, pad_right, pad_top, pad_bottom]
    uint32_t dilation[kConv2dDilation]; // [dilation_h, dilation_w]
    uint32_t initY;
    uint32_t partialSum;
};

tilling

输入

分形控制参数，类型为Conv2dTilling。结构体具体定义为：

struct Conv2dTilling {
    const uint32_t blockSize = 16; // # M block size is always 16
    LoopMode loopMode = LoopMode::MODE_NM;

    uint32_t c0Size = 32;
    uint32_t dTypeSize = 1;

    uint32_t strideH = 0;
    uint32_t strideW = 0;
    uint32_t dilationH = 0;
    uint32_t dilationW = 0;
    uint32_t hi = 0;
    uint32_t wi = 0;
    uint32_t ho = 0;
    uint32_t wo = 0;

    uint32_t height = 0;
    uint32_t width = 0;

    uint32_t howo = 0;

    uint32_t mNum = 0;
    uint32_t nNum = 0;
    uint32_t kNum = 0;

    uint32_t mBlockNum = 0;
    uint32_t kBlockNum = 0;
    uint32_t nBlockNum = 0;

    uint32_t roundM = 0;
    uint32_t roundN = 0;
    uint32_t roundK = 0;

    uint32_t mTileBlock = 0;
    uint32_t nTileBlock = 0;
    uint32_t kTileBlock = 0;

    uint32_t mIterNum = 0;
    uint32_t nIterNum = 0;
    uint32_t kIterNum = 0;

    uint32_t mTileNums = 0;

    bool mHasTail = false;
    bool nHasTail = false;
    bool kHasTail = false;

    uint32_t kTailBlock = 0;
    uint32_t mTailBlock = 0;
    uint32_t nTailBlock = 0;

    uint32_t mTailNums = 0;
};

表2 Conv2DParams结构体内参数说明：
参数名称	类型	说明
imgShape	vector<int>	输入张量“feature_map”的形状，格式是[ H, W]。 H为高，取值范围：[1,40]。 W为宽，取值范围：[1,40]。
kernelShape	vector<int>	卷积核张量“weight”的形状，格式是[Kh, Kw]。 Kh为高，取值范围：[1,5]。 Kw为宽，取值范围：[1,5]。
stride	vector<int>	卷积步长，格式是[stride_h, stride_w]。 stride_h表示步长高，值的范围：[1,4]。 stride_w表示步长宽，值的范围：[1,4]。
cin	int	分形排布参数，Cin = C1 * C0，Cin为输入的channel数，C1取值范围：[1,4]。当feature_map的数据类型为float时，C0=8。输入的channel的范围：[8，16，24，32]。当feature_map的数据类型为half时，C0=16。输入的channel的范围：[16，32，48，64]。当feature_map的数据类型为int8_t时，C0=32。输入的channel的范围：[32，64，96，128]。
cout	int	Cout为卷积核数目，取值范围：[16，32，64，128]， Cout必须为16的倍数。
padList	vector<int>	padding行数/列数，格式是[pad_left, pad_right, pad_top, pad_bottom]。 pad_left为feature_map左侧pad列数，范围[0,4]。pad_right为feature_map右侧pad列数，范围[0,4]。 pad_top为feature_map顶部pad行数，范围[0,4]。 pad_bottom为feature_map底部pad行数，范围[0,4]。
dilation	vector<int>	空洞卷积参数，格式[dilation_h, dilation_w]。 dilation_h为空洞高，范围：[1,4]。 dilation_w为空洞宽，范围：[1,4]。膨胀后卷积核宽为dilation_w * (Kw - 1) + 1，高为dilation_h * (Kh - 1) + 1。
initY	uint32_t	表示dstLocal是否需要初始化。取值0：不使用bias，L0C需要初始化，dstLocal初始矩阵保存有之前结果，新计算结果会累加前一次conv2d 计算结果。取值1：不使用bias，L0C不需要初始化，dstLocal初始矩阵中数据无意义，计算结果直接覆盖dstLocal中的数据。
partialSum	uint32_t	当dstLocal参数所在的QuePosition为CO2时，通过该参数控制计算结果是否搬出。取值0：搬出计算结果取值1：不搬出计算结果，可以进行后续计算

表3 Conv2dTilling结构体内参数说明

参数名称

类型

说明

blockSize

uint32_t

固定值，恒为16，一个维度内存放的元素个数。

loopMode

LoopMode

遍历模式，结构体具体定义为：

enum class LoopMode {
    MODE_NM = 0,
    MODE_MN = 1,
    MODE_KM = 2,
    MODE_KN = 3
};

c0Size

uint32_t

一个block的字节长度，范围[16或者32]。

dtypeSize

uint32_t

传入的数据类型的字节长度，范围[1, 2]。

strideH

uint32_t

卷积步长-高，范围:[1,4]。

strideW

uint32_t

卷积步长-宽，范围:[1,4]。

dilationH

uint32_t

空洞卷积参数-高，范围：[1,4]。

dilationW

uint32_t

空洞卷积参数-宽，范围：[1,4]。

hi

uint32_t

feature_map形状-高，范围：[1,40]。

wi

uint32_t

feature_map形状-宽，范围：[1,40]。

ho

uint32_t

feature_map形状-高，范围：[1,40]。

wo

uint32_t

feature_map形状-宽，范围：[1,40]。

height

uint32_t

weight形状-高，[1,5]。

width

uint32_t

weight形状-宽，[1,5]。

howo

uint32_t

feature_map形状大小，为ho * wo。

mNum

uint32_t

M轴等效数据长度参数值，范围：[1,4096]。

nNum

uint32_t

N轴等效数据长度参数值，范围：[1,4096]。

kNum

uint32_t

K轴等效数据长度参数值，范围：[1,4096]。

roundM

uint32_t

M轴等效数据长度参数值且以blockSize为倍数向上取整，范围：[1,4096]。

roundN

uint32_t

N轴等效数据长度参数值且以blockSize为倍数向上取整，范围：[1,4096]。

roundK

uint32_t

K轴等效数据长度参数值且以c0Size为倍数向上取整，范围：[1,4096]。

mBlockNum

uint32_t

M轴Block个数，mBlockNum = mNum / blockSize，范围：[1,4096]。

nBlockNum

uint32_t

N轴Block个数，nBlockNum = nNum / blockSize，范围：[1,4096]。

kBlockNum

uint32_t

K轴Block个数，kBlockNum = kNum / blockSize，范围：[1,4096]。

mIterNum

uint32_t

遍历M轴维度数量，范围：[1,4096]。

nIterNum

uint32_t

遍历N轴维度数量，范围：[1,4096]。

kIterNum

uint32_t

遍历K轴维度数量，范围：[1,4096]。

mTileBlock

uint32_t

M轴切分块个数，范围：[1,4096]。

nTileBlock

uint32_t

N轴切分块个数，范围：[1,4096]。

kTileBlock

uint32_t

K轴切分块个数，范围：[1,4096]。

kTailBlock

uint32_t

K轴尾块个数，范围：[1,4096]。

mTailBlock

uint32_t

M轴尾块个数，范围：[1,4096]。

nTailBlock

uint32_t

N轴尾块个数，范围：[1,4096]。

kHasTail

bool

K轴是否存在尾块。

mHasTail

bool

M轴是否存在尾块。

nHasTail

bool

N轴是否存在尾块。

mTileNums

uint32_t

M轴切分块个数的长度，范围：[1,4096]。

mTailNums

uint32_t

M轴尾块个数的长度，范围：[1,4096]。

表4 imgShape、kernelShape和dstLocal的数据类型组合
feature_map.dtype	weight.dtype	dst.dtype
int8_t	int8_t	int32_t
half	half	float
half	half	half

支持的型号

Atlas 训练系列产品

Atlas推理系列产品AI Core

注意事项

该接口当前不支持W=Kw并且H>Kh的场景，其将产生不可预期的结果。
操作数地址偏移对齐要求请参见通用约束。

父主题： 矩阵计算