aclnnConvDepthwise2d

支持的产品型号

Atlas 推理系列产品。
Atlas 训练系列产品。
Atlas A2训练系列产品/Atlas 800I A2推理产品。

接口原型

每个算子分为，必须先调用“aclnnConvDepthwise2dGetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器，再调用“aclnnConvDepthwise2d”接口执行计算。

[object Object]
[object Object]

功能描述

算子功能：2D深度卷积。在每一深度上卷积，不求和。
计算公式：

我们假定输入（self）的shape是 $(N, C_{\text{in}}, H, W)$ ,输出（out）的shape是 $(N, N*C_{\text{out}}, H_{\text{out}}, W_{\text{out}})$ ，那么每个卷积核的输出将被表示为：

\text{out}(N_i, C_{\text{out}_j}) = \text{bias}(C_{\text{out}_j}) + \text{weight}(C_{\text{out}_j}, C_{\text{in}_j}) \star \text{self}(N_i, C_{\text{in}_j})

其中， $\star$ 表示互相关的计算， $N$ 代表batch size， $C$ 代表通道数， $W$ 和 $H$ 分别代表宽和高。

aclnnConvDepthwise2dGetWorkspaceSize

参数说明：
- self(const aclTensor *, 计算输入)：公式中的[object Object]，数据类型仅支持FLOAT，FLOAT16，BFLOAT16(仅Atlas A2训练系列产品/Atlas 800I A2推理产品支持)，支持，为NCHW。
- weight(const aclTensor *, 计算输入)：公式中的[object Object]，数据类型仅支持FLOAT，FLOAT16，BFLOAT16(仅Atlas A2训练系列产品/Atlas 800I A2推理产品支持)，数据类型与self一致，支持，为NCHW。weight第一维的数值应等于self通道数的整数倍，H, W两维的数值需小于self的H, W两维的数值。
- kernelSize(const aclIntArray *, 计算输入)：卷积核尺寸，(int, int)型元组。
- bias(const aclTensor *, 计算输入)：公式中的[object Object]，数据类型仅支持FLOAT，FLOAT16，BFLOAT16(仅Atlas A2训练系列产品/Atlas 800I A2推理产品支持)，数据类型与self, weight一致，仅支持一维且数值与weight第一维相等。
- stride(const aclIntArray *, 计算输入)：卷积扫描步长，数组长度需等于1或者self的维度减2。
- padding(const aclIntArray *, 计算输入)：对self的填充，数组长度需等于1或者self的维度减2。
- dilation(const aclIntArray *, 计算输入)：卷积核中元素的间隔，数组长度需等于1或者self的维度减2。
- out(aclTensor *, 计算输出)：公式中的[object Object]，数据类型仅支持FLOAT，FLOAT16，BFLOAT16(仅Atlas A2训练系列产品/Atlas 800I A2推理产品支持)，数据类型与self, weight一致，与self一致。out通道数应等于weight第一维的数值。
- cubeMathType(int8_t, 计算输入)：用于判断Cube单元应该使用哪种计算逻辑进行运算，INT8类型的枚举值，枚举如下：
  - 0:KEEP_DTYPE，保持输入的数据类型进行计算。当输入是BFLOAT16或FLOAT，Atlas 训练系列产品和Atlas 推理系列产品暂不支持，取0时会报错。
  - 1:ALLOW_FP32_DOWN_PRECISION，允许将输入数据降精度计算。当输入是FLOAT，Atlas 训练系列产品和Atlas 推理系列产品允许转换为FLOAT16计算，Atlas A2训练系列产品/Atlas 800I A2推理产品允许转换为HFLOAT32计算。当输入是BFLOAT16，Atlas 训练系列产品Cube计算单元暂不支持，取1时会报错，Atlas A2训练系列产品/Atlas 800I A2推理产品仍使用BFLOAT16计算。
  - 2:USE_FP16，允许转换为数据类型FLOAT16进行计算。当输入数据类型是FLOAT时，转换为FLOAT16计算。当输入是BFLOAT16，Atlas 训练系列产品Cube计算单元暂不支持，Atlas A2训练系列产品/Atlas 800I A2推理产品转换成FLOAT16计算。
  - 3:USE_HF32，允许转换为数据类型HFLOAT32计算。当输入是FLOAT，Atlas 训练系列产品和Atlas 推理系列产品暂不支持，取3时会报错，Atlas A2训练系列产品/Atlas 800I A2推理产品转换为HFLOAT32计算。当输入是BFLOAT16，Atlas 训练系列产品Cube计算单元暂不支持，取3时会报错，Atlas A2训练系列产品/Atlas 800I A2推理产品仍使用BFLOAT16计算。当输入是FLOAT16，昇腾AI处理器仍使用FLOAT16计算。
- workspaceSize(uint64_t *, 出参)：返回需要在Device侧申请的workspace大小。
- executor(aclOpExecutor **, 出参)：返回op执行器，包含了算子计算流程。
返回值：

aclnnStatus：返回状态码，具体参见。

[object Object]

aclnnConvDepthwise2d

参数说明：
- workspace(void *, 入参)：在Device侧申请的workspace内存地址。
- workspaceSize(uint64_t, 入参)：在Device侧申请的workspace大小，由第一段接口aclnnConvDepthwise2dGetWorkspaceSize获取。
- executor(aclOpExecutor *, 入参)：op执行器，包含了算子计算流程。
- stream(aclrtStream, 入参)：指定执行任务的 AscendCL Stream流。
返回值：

aclnnStatus：返回状态码，具体参见。

约束与限制

无

调用示例

示例代码如下，仅供参考，具体编译和执行过程请参考。

[object Object]