vec_reduce_add

功能说明

对所有输入数据求和。数据采用二叉树方式,两两相加。

假设源操作数为256个float16的数据[data0,data1,data2...data255],两个repeat可以计算完,计算过程如下。

  1. [data0,data1,data2...data127]为第一个repeat的源操作数,计算得到result01,具体计算方式为:
    1. data0和data1相加得到data00,data2和data3相加得到data01,...,data124和data125相加得到data62,data126和data127相加得到data63。
    2. data00和data01相加得到data000,data02和data03相加得到data001,...,data62和data63相加得到data031。
    3. 以此类推,计算得到result01。
  2. [data128,data1,data2...data255]为第二个repeat的源操作数,计算得到result02;
  3. 将result01与result02相加,得到目的操作数为1个float16的数据[data]。
  4. result01,result02,result03,result04...多个repeat之间的结果也是两两相加。

函数原型

vec_reduce_add(mask, dst, src, work_tensor, repeat_times, src_rep_stride)

参数说明

参数名称

输入/输出

含义

mask

输入

请参考表1中mask参数描述。

dst

输出

目的操作数,tensor起始element。

Tensor的scope为Unified Buffer

src

输入

源操作数,tensor起始element。

Tensor的scope为Unified Buffer

work_tensor

输入

指令执行期间存储中间结果,用于内部计算所需操作空间,需特别注意空间大小,参见各指令注意事项。

repeat_times

输入

重复迭代次数。

src_rep_stride

输入

相邻迭代间,源操作数相同block地址步长。

dst、src和work_tensor的数据类型需保持一致。

Atlas 200/300/500 推理产品,dst、src和work_tensor支持的数据类型为:Tensor(float16/float32)

Atlas 训练系列产品,dst、src和work_tensor支持的数据类型为:Tensor(float16/float32)

Atlas推理系列产品AI Core,dst、src和work_tensor支持的数据类型为:Tensor(float16/float32)

Atlas推理系列产品Vector Core,dst、src和work_tensor支持的数据类型为:Tensor(float16/float32)

Atlas A2训练系列产品/Atlas 800I A2推理产品,dst/src支持的数据类型为:Tensor(float16/float32)

Atlas 200/500 A2推理产品,dst/src支持的数据类型为:Tensor(float16/float32)

,dst/src支持的数据类型为:Tensor(float16/float32)

返回值

支持的型号

Atlas 200/300/500 推理产品

Atlas 训练系列产品

Atlas推理系列产品AI Core

Atlas推理系列产品Vector Core

Atlas A2训练系列产品/Atlas 800I A2推理产品

Atlas 200/500 A2推理产品

注意事项

调用示例