按element取倒数:。
vec_rec_high_preci(mask, dst, src, work_tensor, repeat_times, dst_rep_stride, src_rep_stride)
请参见参数说明。下面仅对dst/src/work_tensor参数进行说明:
dst与src的数据类型需要保持一致,支持的数据类型为:Tensor(float16/float32);work_tensor支持的数据类型为Tensor(float32)。
【work_tensor参数说明】:
work_tensor为用户定义的临时buffer空间,存储中间结果,空间限定在scope_ubuf,用于内部计算使用。
【work_tensor空间计算说明】:
当源操作数数据类型为float16时,block_len=16;
当源操作数数据类型为float32时,block_len=8;
当mask是连续模式时,mask_len 即mask值;
当mask为逐bits模式时,mask_len为最高有效位的位数值。
当源操作数数据类型为float16时,则work_tensor需要申请的大小为4*wk_size_unit
当源操作数数据类型为float32时,则work_tensor需要申请的大小为2*wk_size_unit
【work_tensor空间计算举例】:
无
from tbe import tik # 定义容器 tik_instance = tik.Tik() # 定义计算tensor src_gm = tik_instance.Tensor("float32", (128,), name="src_gm", scope=tik.scope_gm) dst_gm = tik_instance.Tensor("float32", (128,), name="dst_gm", scope=tik.scope_gm) src_ub = tik_instance.Tensor("float32", (128,), name="src_ub", scope=tik.scope_ubuf) dst_ub = tik_instance.Tensor("float32", (128,), name="dst_ub", scope=tik.scope_ubuf) # 数据从gm搬运到ub tik_instance.data_move(src_ub, src_gm, 0, 1, 128*4 // 32, 0, 0) # 计算work_tensor大小 mask = [0, 2**64 - 1] mask_len = 64 repeat_times = 2 dst_rep_stride = 8 src_rep_stride = 8 block_len = 8 # src dtype is float32 src_extent_size = (repeat_times - 1)*src_rep_stride*block_len + mask_len wk_size_unit = ((src_extent_size + block_len - 1)//block_len) *block_len wk_size = 2*wk_size_unit # 定义work_tensor work_tensor_ub = tik_instance.Tensor("float32", (wk_size,), name="work_tensor_ub", scope=tik.scope_ubuf) # 如果work_tensor有索引,需要写成work_tensor[index:] tik_instance.vec_rec_high_preci(mask_len, dst_ub, src_ub, work_tensor_ub[0:], repeat_times, dst_rep_stride, src_rep_stride) # 数据从ub搬运到gm tik_instance.data_move(dst_gm, dst_ub, 0, 1, 128*4 // 32, 0, 0) tik_instance.BuildCCE(kernel_name="test_vec_rec_high_preci", inputs=[src_gm], outputs=[dst_gm])
结果示例:
输入: [-6.9427586 -3.5300326 1.176882 ... -6.196793 9.0379095] 输出: [-0.14403497 -0.2832835 0.8497028 ... -0.16137381 0.11064506]
from tbe import tik # 定义容器 tik_instance = tik.Tik() # 定义计算tensor src_gm = tik_instance.Tensor("float16", (128,), name="src_gm", scope=tik.scope_gm) dst_gm = tik_instance.Tensor("float16", (128,), name="dst_gm", scope=tik.scope_gm) src_ub = tik_instance.Tensor("float16", (128,), name="src_ub", scope=tik.scope_ubuf) dst_ub = tik_instance.Tensor("float16", (128,), name="dst_ub", scope=tik.scope_ubuf) # 数据从gm搬运到ub tik_instance.data_move(src_ub, src_gm, 0, 1, 128*2 // 32, 0, 0) # 计算work_tensor大小 mask = 128 mask_len = mask repeat_times = 1 dst_rep_stride = 8 src_rep_stride = 8 block_len = 16 # src dtype is float16 src_extent_size = (repeat_times - 1)*src_rep_stride*block_len + mask_len wk_size_unit = ((src_extent_size + block_len - 1) // block_len)*block_len wk_size = 4*wk_size_unit # 定义work_tensor work_tensor_ub = tik_instance.Tensor("float32", (wk_size,), name="work_tensor_ub", scope=tik.scope_ubuf) # 如果work_tensor有索引,需要写成work_tensor[index:] tik_instance.vec_rec_high_preci(mask_len, dst_ub, src_ub, work_tensor_ub[0:], repeat_times, dst_rep_stride, src_rep_stride) # 数据从ub搬运到gm tik_instance.data_move(dst_gm, dst_ub, 0, 1, 128*2 // 32, 0, 0) tik_instance.BuildCCE(kernel_name="test_vec_rec_high_preci", inputs=[src_gm], outputs=[dst_gm])
结果示例:
输入: [-7.08 -4.434 1.294 ... 8.82 -2.854] 输出: [-0.1412 -0.2256 0.773 ... 0.1134 -0.3503]