下载
中文
注册

通用定义

功能说明

此为有两个源操作数时指令的通用格式。

注意,此章节仅为通用格式说明,不是真正的指令。

函数原型

instruction (mask, dst, src0, src1, repeat_times, dst_rep_stride, src0_rep_stride, src1_rep_stride)

参数说明

表1 参数说明

参数名称

输入/输出

含义

instruction

输入

指令名称,TIK DSL中为全小写字符串。

mask

输入

请参考表1中mask参数描述。

dst

输出

目的操作数,tensor起始element,支持数据类型见具体指令。

Tensor的scope为Unified Buffer

src0

输入

源操作数0,tensor起始element,支持数据类型见具体指令。

Tensor的scope为Unified Buffer

src1

输入

源操作数1,tensor起始element,支持数据类型见具体指令。

Tensor的scope为Unified Buffer

repeat_times

输入

重复迭代次数。

dst_rep_stride

输入

相邻迭代间,目的操作数相同block地址步长。

src0_rep_stride

输入

相邻迭代间,源操作数0相同block地址步长。

src1_rep_stride

输入

相邻迭代间,源操作数1相同block地址步长。

注意事项

  • repeat_times∈[0,255]。支持的数据类型为:Scalar(int16/int32/int64/uint16/uint32/uint64)、立即数(int)、Expr(int16/int32/int64/uint16/uint32/uint64),当repeat_times为立即数时,不支持0。
  • 每个repeat的并行度取决于数据精度、AI处理器版本,以下以PAR代表并行度。
  • dst_rep_stride/src0_rep_stride/src1_rep_stride,单位为32B。支持的数据类型:Scalar(int16/int32/int64/uint16/uint32/uint64)、立即数(int)、Expr(int16/int32/int64/uint16/uint32/uint64)。
  • 为了节省地址空间,开发者可以定义一个Tensor,供源操作数与目的操作数同时使用(即地址重叠),相关约束如下:
    • 对于单次repeat(repeat_times=1),且源操作数与目的操作数之间要求100%完全重叠,不支持部分重叠。
    • 对于多次repeat(repeat_times>1),若源操作数与目的操作数之间存在依赖,即第N次迭代的目的操作数是第N+1次的源操作数,这种情况是不支持地址重叠的。以下情况是支持地址重叠的:对于vec_add/vec_sub/vec_mul/vec_max/v_min/vec_and/vec_or指令,dst与src1重叠;src0与src1之间不能有任何的地址重叠;src1_rep_stride/dst_rep_stride相等且为0;操作数数据类型满足以下要求:针对Atlas 200/300/500 推理产品,数据类型为float16,针对Atlas 训练系列产品Atlas 推理系列产品,数据类型为float16、int32、float32。操作数数据类型为float16,int32,float32。
  • 操作数地址偏移对齐要求请见通用约束

调用示例

  • 数据连续操作样例
    from tbe import tik
    tik_instance = tik.Tik()
    dtype_size = {
        "int8": 1,
        "uint8": 1,
        "int16": 2,
        "uint16": 2,
        "float16": 2,
        "int32": 4,
        "uint32": 4,
        "float32": 4,
        "int64": 8,
    }
    shape = (2, 512)
    dtype = "float16"
    elements = 2 * 512
    # 单次迭代操作的数,当前示例一次迭代处理128个数,mask逐bits模式可写成 [2**64-1, 2**64-1]
    mask = 128
    # 迭代次数,当前示例进行了8次迭代,可根据需要调整对应的迭代次数
    repeat_times = 8
    # 迭代间目的操作数前一次repeat头与后一次repeat头之间的距离,单位32B, 该示例是连续放置目的操作数,若不需要连续处理数据,可调整对应的参数
    dst_rep_stride = 8
    # 迭代间源的操作数前一次repeat头与后一次repeat头之间的距离,单位32B, 该示例是连续读取源操作数,若不需要连续处理数据,可调整对应的参数
    src0_rep_stride = 8
    src1_rep_stride = 8
    src0_gm = tik_instance.Tensor(dtype, shape, name="src0_gm", scope=tik.scope_gm)
    src1_gm = tik_instance.Tensor(dtype, shape, name="src1_gm", scope=tik.scope_gm)
    dst_gm = tik_instance.Tensor(dtype, shape, name="dst_gm", scope=tik.scope_gm)
    src0_ub = tik_instance.Tensor(dtype, shape, name="src0_ub", scope=tik.scope_ubuf)
    src1_ub = tik_instance.Tensor(dtype, shape, name="src1_ub", scope=tik.scope_ubuf)
    dst_ub = tik_instance.Tensor(dtype, shape, name="dst_ub", scope=tik.scope_ubuf)
    # 搬移的片段数
    nburst = 1
    # 每次搬运的片段长度,单位32B
    burst = elements * dtype_size[dtype] // 32 // nburst
    # 前burst尾与后burst头的距离,单位32B
    dst_stride, src_stride = 0, 0
    # 拷贝用户输入数据到src ubuf
    tik_instance.data_move(src0_ub, src0_gm, 0, nburst, burst, src_stride, dst_stride)
    tik_instance.data_move(src1_ub, src1_gm, 0, nburst, burst, src_stride, dst_stride)
    tik_instance.vec_add(mask, dst_ub, src0_ub, src1_ub, repeat_times, dst_rep_stride, src0_rep_stride, src1_rep_stride)
    # 将计算结果拷贝到目标gm
    tik_instance.data_move(dst_gm, dst_ub, 0, nburst, burst, src_stride, dst_stride)
    tik_instance.BuildCCE(kernel_name="vec_add", inputs=[src0_gm, src1_gm], outputs=[dst_gm])
    
    示例结果
    输入数据(src0_gm):
    [[0.000e+00 1.000e+00 2.000e+00 3.000e+00 4.000e+00 5.000e+00 6.000e+00
      7.000e+00 8.000e+00 9.000e+00 1.000e+01 1.100e+01 1.200e+01 1.300e+01
      1.400e+01 1.500e+01 1.600e+01 1.700e+01 1.800e+01 1.900e+01 2.000e+01
      2.100e+01 2.200e+01 2.300e+01 2.400e+01 2.500e+01 2.600e+01 2.700e+01
      2.800e+01 2.900e+01 3.000e+01 3.100e+01 3.200e+01 3.300e+01 3.400e+01
      3.500e+01 3.600e+01 3.700e+01 3.800e+01 3.900e+01 4.000e+01 4.100e+01
      4.200e+01 4.300e+01 4.400e+01 4.500e+01 4.600e+01 4.700e+01 4.800e+01
      4.900e+01 5.000e+01 5.100e+01 5.200e+01 5.300e+01 5.400e+01 5.500e+01
      5.600e+01 5.700e+01 5.800e+01 5.900e+01 6.000e+01 6.100e+01 6.200e+01
      6.300e+01 6.400e+01 6.500e+01 6.600e+01 6.700e+01 6.800e+01 6.900e+01
      7.000e+01 7.100e+01 7.200e+01 7.300e+01 7.400e+01 7.500e+01 7.600e+01
      7.700e+01 7.800e+01 7.900e+01 8.000e+01 8.100e+01 8.200e+01 8.300e+01
      8.400e+01 8.500e+01 8.600e+01 8.700e+01 8.800e+01 8.900e+01 9.000e+01
      9.100e+01 9.200e+01 9.300e+01 9.400e+01 9.500e+01 9.600e+01 9.700e+01
      ...
      1.009e+03 1.010e+03 1.011e+03 1.012e+03 1.013e+03 1.014e+03 1.015e+03
      1.016e+03 1.017e+03 1.018e+03 1.019e+03 1.020e+03 1.021e+03 1.022e+03
      1.023e+03]]
    输入数据(src1_gm):
    [[0.000e+00 1.000e+00 2.000e+00 3.000e+00 4.000e+00 5.000e+00 6.000e+00
      7.000e+00 8.000e+00 9.000e+00 1.000e+01 1.100e+01 1.200e+01 1.300e+01
      1.400e+01 1.500e+01 1.600e+01 1.700e+01 1.800e+01 1.900e+01 2.000e+01
      2.100e+01 2.200e+01 2.300e+01 2.400e+01 2.500e+01 2.600e+01 2.700e+01
      2.800e+01 2.900e+01 3.000e+01 3.100e+01 3.200e+01 3.300e+01 3.400e+01
      3.500e+01 3.600e+01 3.700e+01 3.800e+01 3.900e+01 4.000e+01 4.100e+01
      4.200e+01 4.300e+01 4.400e+01 4.500e+01 4.600e+01 4.700e+01 4.800e+01
      4.900e+01 5.000e+01 5.100e+01 5.200e+01 5.300e+01 5.400e+01 5.500e+01
      5.600e+01 5.700e+01 5.800e+01 5.900e+01 6.000e+01 6.100e+01 6.200e+01
      6.300e+01 6.400e+01 6.500e+01 6.600e+01 6.700e+01 6.800e+01 6.900e+01
      7.000e+01 7.100e+01 7.200e+01 7.300e+01 7.400e+01 7.500e+01 7.600e+01
      7.700e+01 7.800e+01 7.900e+01 8.000e+01 8.100e+01 8.200e+01 8.300e+01
      8.400e+01 8.500e+01 8.600e+01 8.700e+01 8.800e+01 8.900e+01 9.000e+01
      9.100e+01 9.200e+01 9.300e+01 9.400e+01 9.500e+01 9.600e+01 9.700e+01
      ...
      1.009e+03 1.010e+03 1.011e+03 1.012e+03 1.013e+03 1.014e+03 1.015e+03
      1.016e+03 1.017e+03 1.018e+03 1.019e+03 1.020e+03 1.021e+03 1.022e+03
      1.023e+03]]
    输出数据(dst_gm):
    [[0.000e+00 2.000e+00 4.000e+00 6.000e+00 8.000e+00 1.000e+01 1.200e+01
      1.400e+01 1.600e+01 1.800e+01 2.000e+01 2.200e+01 2.400e+01 2.600e+01
      2.800e+01 3.000e+01 3.200e+01 3.400e+01 3.600e+01 3.800e+01 4.000e+01
      4.200e+01 4.400e+01 4.600e+01 4.800e+01 5.000e+01 5.200e+01 5.400e+01
      5.600e+01 5.800e+01 6.000e+01 6.200e+01 6.400e+01 6.600e+01 6.800e+01
      7.000e+01 7.200e+01 7.400e+01 7.600e+01 7.800e+01 8.000e+01 8.200e+01
      8.400e+01 8.600e+01 8.800e+01 9.000e+01 9.200e+01 9.400e+01 9.600e+01
      9.800e+01 1.000e+02 1.020e+02 1.040e+02 1.060e+02 1.080e+02 1.100e+02
      1.120e+02 1.140e+02 1.160e+02 1.180e+02 1.200e+02 1.220e+02 1.240e+02
      1.260e+02 1.280e+02 1.300e+02 1.320e+02 1.340e+02 1.360e+02 1.380e+02
      1.400e+02 1.420e+02 1.440e+02 1.460e+02 1.480e+02 1.500e+02 1.520e+02
      1.540e+02 1.560e+02 1.580e+02 1.600e+02 1.620e+02 1.640e+02 1.660e+02
      1.680e+02 1.700e+02 1.720e+02 1.740e+02 1.760e+02 1.780e+02 1.800e+02
      1.820e+02 1.840e+02 1.860e+02 1.880e+02 1.900e+02 1.920e+02 1.940e+02
      ...
      2.018e+03 2.020e+03 2.022e+03 2.024e+03 2.026e+03 2.028e+03 2.030e+03
      2.032e+03 2.034e+03 2.036e+03 2.038e+03 2.040e+03 2.042e+03 2.044e+03
      2.046e+03]]
  • 数据非连续操作样例
    """
    将两组各160个源操作数,经过指令vec_add叠加,并按照每放32个数再间隔32个数进行目的数据的放置
    """
    tik_instance = tik.Tik()
    dtype_size = {
        "int8": 1,
        "uint8": 1,
        "int16": 2,
        "uint16": 2,
        "float16": 2,
        "int32": 4,
        "uint32": 4,
        "float32": 4,
        "int64": 8,
    }
    
    src_shape = (5, 32)
    dst_shape = (10, 32)
    dtype = "float16"
    elements = 5 * 32
    dst_elements = 10 * 32
    # 单次迭代操作的数,当前示例一次迭代处理32个数,mask逐bits模式可写成 [0, 2**32-1]
    mask = 32
    # 迭代次数,当前示例进行了5次迭代,可根据需要调整对应的迭代次数
    repeat_times = 5
    # 迭代间目的操作数前一次repeat头与后一次repeat头之间的距离,单位32B, 由于每次迭代处理32个数,每32个数间隔32个数,所以当前迭代间需要间隔4个block放置目地操作数才能达到效果
    dst_rep_stride = 4
    src0_rep_stride = 2
    src1_rep_stride = 2
    src0_gm = tik_instance.Tensor(dtype, src_shape, name="src0_gm", scope=tik.scope_gm)
    src1_gm = tik_instance.Tensor(dtype, src_shape, name="src1_gm", scope=tik.scope_gm)
    dst_gm = tik_instance.Tensor(dtype, dst_shape, name="dst_gm", scope=tik.scope_gm)
    src0_ub = tik_instance.Tensor(dtype, src_shape, name="src0_ub", scope=tik.scope_ubuf)
    src1_ub = tik_instance.Tensor(dtype, src_shape, name="src1_ub", scope=tik.scope_ubuf)
    dst_ub = tik_instance.Tensor(dtype, dst_shape, name="dst_ub", scope=tik.scope_ubuf)
    # 搬移的片段数
    nburst = 1
    # 每次搬运的片段长度,单位32B
    burst = elements * dtype_size[dtype] // 32 // nburst
    dst_burst = dst_elements * dtype_size[dtype] // 32 // nburst
    # 前burst尾与后burst头的距离,单位32B
    dst_stride, src_stride = 0, 0
    # 拷贝用户输入数据到src ubuf
    tik_instance.data_move(src0_ub, src0_gm, 0, nburst, burst, src_stride, dst_stride)
    tik_instance.data_move(src1_ub, src1_gm, 0, nburst, burst, src_stride, dst_stride)
    # 对dst_ub进行置零处理,详细参数见对应指令说明
    tik_instance.vec_dup(64, dst_ub, 0, 5, 4)
    tik_instance.vec_add(mask, dst_ub, src0_ub, src1_ub, repeat_times, dst_rep_stride, src0_rep_stride, src1_rep_stride)
    # 将计算结果拷贝到目标gm
    tik_instance.data_move(dst_gm, dst_ub, 0, nburst, dst_burst, src_stride, dst_stride)
    tik_instance.BuildCCE(kernel_name="vec_add", inputs=[src0_gm, src1_gm], outputs=[dst_gm])
    
    
    示例结果
    输入数据(src0_gm):
    [[  0.   1.   2.   3.   4.   5.   6.   7.   8.   9.  10.  11.  12.  13.
       14.  15.  16.  17.  18.  19.  20.  21.  22.  23.  24.  25.  26.  27.
       28.  29.  30.  31.]
     [ 32.  33.  34.  35.  36.  37.  38.  39.  40.  41.  42.  43.  44.  45.
       46.  47.  48.  49.  50.  51.  52.  53.  54.  55.  56.  57.  58.  59.
       60.  61.  62.  63.]
     [ 64.  65.  66.  67.  68.  69.  70.  71.  72.  73.  74.  75.  76.  77.
       78.  79.  80.  81.  82.  83.  84.  85.  86.  87.  88.  89.  90.  91.
       92.  93.  94.  95.]
     [ 96.  97.  98.  99. 100. 101. 102. 103. 104. 105. 106. 107. 108. 109.
      110. 111. 112. 113. 114. 115. 116. 117. 118. 119. 120. 121. 122. 123.
      124. 125. 126. 127.]
     [128. 129. 130. 131. 132. 133. 134. 135. 136. 137. 138. 139. 140. 141.
      142. 143. 144. 145. 146. 147. 148. 149. 150. 151. 152. 153. 154. 155.
      156. 157. 158. 159.]]
    输入数据(src1_gm):
    [[  0.   1.   2.   3.   4.   5.   6.   7.   8.   9.  10.  11.  12.  13.
       14.  15.  16.  17.  18.  19.  20.  21.  22.  23.  24.  25.  26.  27.
       28.  29.  30.  31.]
     [ 32.  33.  34.  35.  36.  37.  38.  39.  40.  41.  42.  43.  44.  45.
       46.  47.  48.  49.  50.  51.  52.  53.  54.  55.  56.  57.  58.  59.
       60.  61.  62.  63.]
     [ 64.  65.  66.  67.  68.  69.  70.  71.  72.  73.  74.  75.  76.  77.
       78.  79.  80.  81.  82.  83.  84.  85.  86.  87.  88.  89.  90.  91.
       92.  93.  94.  95.]
     [ 96.  97.  98.  99. 100. 101. 102. 103. 104. 105. 106. 107. 108. 109.
      110. 111. 112. 113. 114. 115. 116. 117. 118. 119. 120. 121. 122. 123.
      124. 125. 126. 127.]
     [128. 129. 130. 131. 132. 133. 134. 135. 136. 137. 138. 139. 140. 141.
      142. 143. 144. 145. 146. 147. 148. 149. 150. 151. 152. 153. 154. 155.
      156. 157. 158. 159.]]
    输出数据(dst_gm):
    [[  0.   2.   4.   6.   8.  10.  12.  14.  16.  18.  20.  22.  24.  26.
       28.  30.  32.  34.  36.  38.  40.  42.  44.  46.  48.  50.  52.  54.
       56.  58.  60.  62.]
     [  0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.
        0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.
        0.   0.   0.   0.]
     [ 64.  66.  68.  70.  72.  74.  76.  78.  80.  82.  84.  86.  88.  90.
       92.  94.  96.  98. 100. 102. 104. 106. 108. 110. 112. 114. 116. 118.
      120. 122. 124. 126.]
     [  0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.
        0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.
        0.   0.   0.   0.]
     [128. 130. 132. 134. 136. 138. 140. 142. 144. 146. 148. 150. 152. 154.
      156. 158. 160. 162. 164. 166. 168. 170. 172. 174. 176. 178. 180. 182.
      184. 186. 188. 190.]
     [  0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.
        0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.
        0.   0.   0.   0.]
     [192. 194. 196. 198. 200. 202. 204. 206. 208. 210. 212. 214. 216. 218.
      220. 222. 224. 226. 228. 230. 232. 234. 236. 238. 240. 242. 244. 246.
      248. 250. 252. 254.]
     [  0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.
        0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.
        0.   0.   0.   0.]
     [256. 258. 260. 262. 264. 266. 268. 270. 272. 274. 276. 278. 280. 282.
      284. 286. 288. 290. 292. 294. 296. 298. 300. 302. 304. 306. 308. 310.
      312. 314. 316. 318.]
     [  0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.
        0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.
        0.   0.   0.   0.]]