DataCopy

功能说明

数据搬运接口，支持的数据传输通路如下：

GM->A1

GM->B1

CO1->CO2

CO2->GM

GM->VECIN

VECIN->VECOUT

VECOUT->GM

定义原型

普通数据搬运0级接口，适用于连续和不连续数据搬运：

通路：GM->VECIN, GM->A1, GM->B1

template <typename T>
void DataCopy(const LocalTensor<T>& dstLocal, const GlobalTensor<T>& srcGlobal, const DataCopyParams& intriParams);

通路：VECIN->VECOUT

template <typename T>
void DataCopy(const LocalTensor<T>& dstLocal, const LocalTensor <T>& srcLocal, const DataCopyParams& intriParams);

通路：VECOUT->GM, CO2->GM

template <typename T>
void DataCopy(const GlobalTensor <T>& dstGlobal, const LocalTensor <T>& srcLocal, const DataCopyParams& intriParams);

普通数据搬运2级接口，适用于连续数据搬运：

通路：GM->VECIN, GM->A1, GM->B1

template <typename T>
void DataCopy(const LocalTensor<T>& dstLocal, const GlobalTensor<T>& srcGlobal, const uint32_t calCount);

通路：VECIN->VECOUT

template <typename T>
void DataCopy(const LocalTensor<T>& dstLocal, const LocalTensor <T>& srcLocal, const uint32_t calCount);

通路：VECOUT->GM, CO2->GM

template <typename T>
void DataCopy(const GlobalTensor <T>& dstGlobal, const LocalTensor <T>& srcLocal, const uint32_t calCount);

增强数据搬运0级接口，相比于普通数据搬运0级接口，搬运时增加了随路计算：

通路：GM->VECIN, GM->A1, GM->B1

template <typename T>
__aicore__ inline void DataCopy(const LocalTensor<T>& dstLocal, const GlobalTensor<T>& srcGlobal, const DataCopyParams& intriParams, const DataCopyEnhancedParams& enhancedParams)

通路：VECIN->VECOUT, CO1->CO2

__aicore__ inline void DataCopy(const LocalTensor<T>& dstLocal, const LocalTensor<T>& srcLocal, const DataCopyParams& intriParams, const DataCopyEnhancedParams& enhancedParams)

通路：VECOUT->GM, CO2->GM

template <typename T>
__aicore__ inline void DataCopy(const GlobalTensor<T>& dstGlobal, const LocalTensor<T>& srcLocal, const DataCopyParams& intriParams, const DataCopyEnhancedParams& enhancedParams)

切片数据搬运，主要适用于非连续vector数据搬运：

通路：GM->VECIN

template <typename T>
void DataCopy(const LocalTensor<T> &dstLocal, const GlobalTensor<T> &srcGlobal, const SliceInfo dstSliceInfo[], const SliceInfo srcSliceInfo[], const uint32_t dimValue = 1)

通路：VECOUT->GM, CO2->GM

template <typename T>
void DataCopy(const GlobalTensor<T> &dstGlobal, const LocalTensor<T> &srcLocal, const SliceInfo dstSliceInfo[], const SliceInfo srcSliceInfo[], const uint32_t dimValue = 1)

随路格式转换数据搬运，适用于cube数据搬运，在搬运时进行格式转换：

通路：GM->A1, GM->B1(ND2NZ)

template <typename T>
void DataCopy(const LocalTensor<T>& dstLocal, const GlobalTensor<T>& srcGlobal, const Nd2NzParams& intriParams);

通路：VECOUT->GM(NZ2ND)

template <typename T>
void DataCopy(const GlobalTensor <T>& dstGlobal, const LocalTensor <T>& srcLocal, const Nz2NdParamsFull &intriParams);

参数说明（普通数据搬运）

表1 普通数据搬运接口参数说明
参数名称	输入/输出	含义
dstLocal, dstGlobal	输出	目的操作数，类型为LocalTensor或GlobalTensor。支持的数据类型为：half/int16_t/uint16_t/float/int32_t/uint32_t/int8_t/uint8_t。
srcLocal, srcGlobal	输入	源操作数，类型为LocalTensor或GlobalTensor。支持的数据类型为：half/int16_t/uint16_t/float/int32_t/uint32_t/int8_t/uint8_t。
intriParams	输入	搬运参数，适用于0级接口。DataCopyParams类型，DataCopyParams结构定义请参考表2。
calCount	输入	参与搬运的元素个数，适用于2级接口。

表2 DataCopyParams结构体参数定义
参数名称	含义
blockCount	指定该指令包含的连续传输数据块个数，取值范围：blockCount∈[1, 4095]。
blockLen	指定该指令每个连续传输数据块长度，取值范围：blockLen∈[1, 65535]，单位：block(32B)。
srcStride	源操作数，相邻连续数据块的间隔（前面一个数据块的尾与后面数据块的头的间隔）。
dstStride	目的操作数，相邻连续数据块间的间隔（前面一个数据块的尾与后面数据块的头的间隔）。

下面的样例呈现了DataCopyParams结构体参数的使用方法，样例中完成了2个连续传输数据块的搬运，每个数据块含有8个block，源操作数相邻数据块之间无间隔，目的操作数相邻数据块尾与头之间间隔1个block。

点击放大

参数说明（增强数据搬运）

表3 增强数据搬运接口参数说明
参数名称	输入/输出	含义
dstLocal, dstGlobal	输出	目的操作数，类型为LocalTensor或GlobalTensor。支持的数据类型为：half/int16_t/uint16_t/float/int32_t/uint32_t/int8_t/uint8_t。
srcLocal, srcGlobal	输入	源操作数，类型为LocalTensor或GlobalTensor。支持的数据类型为：half/int16_t/uint16_t/float/int32_t/uint32_t/int8_t/uint8_t。
intriParams	输入	搬运参数。DataCopyParams类型，DataCopyParams结构定义请参考表2。
enhancedParams	输入	增强信息参数。 DataCopyEnhancedParams类型， DataCopyEnhancedParams结构定义请参考表4。

表4 DataCopyEnhancedParams结构参数定义
参数名称	含义
blockMode	数据搬移基本分形，传入enum BlockMode，支持以下 5 种配置： BLOCK_MODE_NORMAL: 表示传输单位32B，用于除 CO1->CO2 外的其他一般情形。 BLOCK_MODE_MATRIX: 表示传输单位为一个1616的cube分形，只用于 CO1->CO2。 BLOCK_MODE_VECTOR: 表示传输单位为一个116的cube分形，只用于 CO1->CO2。 BLOCK_MODE_SMALL_CHANNEL: 表示传输单位为一个164的cube分形，只用于CO1->CO2。 BLOCK_MODE_DEPTHWISE: 表示传输单位为一个1616的cube分形，提供随路channel-split功能，只用于 CO1->CO2。当前暂不支持。
deqScale	随路精度转换辅助参数，即量化模式，仅用于CO1->CO2通路。支持如表5所示情况。
deqValue	随路精度转换大小。
sidStoreMode	用于配置存储模式或sid。在 CO1->CO2 通路、并且量化模式为 deq8/vdeq8 时，dst一侧的每2个block（对应src一侧的1*16分形）会合成1个16B，该参数在此时功能表现为storeMode，用来指定该 16B 的存储模式，支持以下配置： 0：dst每两个block存储于每32B的高16B 1：dst每两个block存储于每32B的低16B 3：dst每两个block连续存储在CO1->CO2以外的通路，该配置表现为sid。
isRelu	仅用于 CO1->CO2 通路，配置是否可以随路做线性整流操作。
padMode	仅用于 GM->A1/GM->B1通路，用于随路加pad补齐，当前暂不支持。

表5 deqScale参数列表
量化名	src.dtype	dst.dtype
DEQ	int32_t	half
DEQ	half	half
VDEQ	int32_t	half
DEQ8	int32_t	int8_t
DEQ8	int32_t	uint8_t
VDEQ8	int32_t	int8_t
VDEQ8	int32_t	uint8_t
DEQ16	int32_t	half
DEQ16	int32_t	int16_t
VDEQ16	int32_t	half
VDEQ16	int32_t	int16_t

表6 blockMode为BLOCK_MODE_NORMAL时参数的单位
src 通路	dst 通路	数据类型	blockCount 单位	srcStride单位	dstStride单位
GM	A1	b8, b16, b32	32B	32B	32B
GM	B1	b8, b16, b32	32B	32B	32B
GM	VECIN	b8, b16, b32	32B	32B	32B
VECOUT	GM	b8, b16, b32	32B	32B	32B
VECIN	VECOUT	b8, b16, b32	32B	32B	32B

表7 blockMode为BLOCK_MODE_MATRIX时参数的单位
src 通路	dst 通路	数据类型	blockCount 单位	srcStride单位	dstStride单位
CO1	CO2	b16	512B	512B	32B
CO1	CO2	b32	1024B	1024B	32B

表8 blockMode为BLOCK_MODE_VECTOR时参数的单位
src 通路	dst 通路	数据类型	blockCount 单位	srcStride 单位	dstStride 单位
CO1	CO2	b16	32B	512B	32B
CO1	CO2	b32	64B	1024B	32B

表9 随路精度转换支持数据类型
src 通路	dst 通路	src 数据类型	dst 数据类型
CO1	CO2	float	half
CO1	CO2	int32_t	half
CO1	CO2	int32_t	int16_t
CO1	CO2	int32_t	int8_t
CO1	CO2	int32_t	uint8_t

参数说明（切片数据搬运）

**表10** **切片数据搬运接口参数说明**
参数名称	输入/输出	含义
dstLocal, dstGlobal	输出	目的操作数，类型为LocalTensor或GlobalTensor。支持的数据类型为：half/int16_t/uint16_t/float/int32_t/uint32_t/int8_t/uint8_t。
srcLocal, srcGlobal	输入	源操作数，类型为LocalTensor或GlobalTensor。支持的数据类型为：half/int16_t/uint16_t/float/int32_t/uint32_t/int8_t/uint8_t。
srcSliceInfo/dstSliceInfo	输入	目的操作数/源操作数切片信息，SliceInfo类型，SliceInfo具体参数请参考表11。
dimValue	输入	操作数维度信息，默认值为1。

**表11** SliceInfo结构参数定义
参数名称	含义
startIndex	切片的起始元素位置。
endIndex	切片的终止元素位置。
stride	切片的间隔元素个数。
burstLen	横向切片，每一片数据的长度，当dimValue > 1， burstLen默认为1。单位32B。

参数说明（随路格式转换）

**表12** Nd2NzParams结构体参数定义
参数名称	含义
ndNum	传输nd矩阵的数目，取值范围：ndNum∈[0, 4095]。
nValue	nd矩阵的行数，取值范围：nValue∈[0, 16384]。
dValue	nd矩阵的列数，取值范围：dValue∈[0, 65535]。
srcNdMatrixStride	源相邻nd矩阵的偏移（头与头），取值范围：srcNdMatrixStride∈[0, 65535]，单位：element。
srcDValue	源同一nd矩阵的相邻行的偏移（头与头），取值范围：srcDValue∈[1, 65535]，单位：element。
dstNzC0Stride	目的nz矩阵中，来自源同一行的相邻C0的偏移（头与头），取值范围：dstNzC0Stride∈[1, 16384]，单位：C0_SIZE（32B）。
dstNzNStride	目的nz矩阵中，来自源同一nd矩阵的相邻行的偏移（头与头），取值范围：dstNzNStride∈[1, 16384]，单位：C0_SIZE（32B）。
dstNzMatrixStride	目的nz矩阵中，来自源相邻nd矩阵的偏移（头与头），取值范围：dstNzMatrixStride∈[1, 65535]，单位：element。

**表13** Nz2NdParamsFull 结构体内参数定义
参数名称	含义
ndNum	传输nz矩阵的数目，取值范围：ndNum∈[0, 4095]。
nValue	nz矩阵的行数，取值范围：nValue∈[1, 8192]。
dValue	nz矩阵的列数，取值范围：dValue∈[1, 8192]。
srcNdMatrixStride	源相邻nz矩阵的偏移（头与头），取值范围：srcNdMatrixStride∈[1, 512]，单位fractal_size（16*16）。
srcNStride	源同一nz矩阵的相邻z排布的偏移（头与头），取值范围：srcNStride∈[0, 4096]，单位C0_size（16）。
dstDStride	目的nd矩阵的相邻行的偏移（头与头），取值范围：dstDStride∈[1, 65535]，单位：element。
dstNdMatrixStride	目的nd矩阵中，来自源相邻nz矩阵的偏移（头与头），取值范围：dstNdMatrixStride∈[1, 65535]，单位：element。

支持的型号

昇腾910 AI处理器

昇腾310P AI处理器AI Core

昇腾910B AI处理器

注意事项

增强搬运主要分为CO1->CO2及其他情况两种。
DataCopy的搬运量要求为32byte的倍数，因此使用2级接口时，calCount * sizeof(T)需要32byte对齐，若不对齐，搬运量将对32byte做向下取整。
配置relu与deqScale的某bit配置冲突时，以relu为准。
切片数据搬运中的横向burstLen大小设置，需要用户自己通过计算：横向切片元素个数* sizeof(T)/32byte。横向切片元素个数* sizeof(T)的大小必须32byte的倍数。
切片数据搬运中的SliceInfo结构体数组大小和dimValue需要保持一致，并且不超过8。
切片数据搬运中的srcSliceInfo数组大小的和dstSliceInfo的大小需要保持一致，两者的结构体中的burstLen需要相等（srcSliceInfo[i].burstLen = dstSliceInfo[i].burstLen）。
切片数据搬运对参数有一定要求，建议使用者参考调用示例，并在CPU上仿真结果无误后，再到NPU侧执行。
如果 CO1->CO2有随路精度转换，通路为 UB 的操作数的 blockCount 单位需要减半。
随路格式转换nd2nz只支持GM->A1,GM->B1； nz2nd只支持VECOUT->GM。
硬件在执行数据搬运时会以block作为基本单位，而 1 block = 32 Byte，故使用者可以尝试通过每次指令处理32Byte整数倍大小的数据来提高指令的执行效率。

返回值

无

调用示例

普通数据搬运2级接口

#include "kernel_operator.h"
namespace AscendC {
class KernelDataCopy {
public:
    __aicore__ inline KernelDataCopy() {}
    __aicore__ inline void Init(__gm__ uint8_t* src0Gm, __gm__ uint8_t* src1Gm, __gm__ uint8_t* dstGm)
    {
        src0Global.SetGlobalBuffer((__gm__ half*)src0Gm);
        src1Global.SetGlobalBuffer((__gm__ half*)src1Gm);
        dstGlobal.SetGlobalBuffer((__gm__ half*)dstGm);
        pipe.InitBuffer(inQueueSrc0, 1, 512 * sizeof(half));
        pipe.InitBuffer(inQueueSrc1, 1, 512 * sizeof(half));
        pipe.InitBuffer(outQueueDst, 1, 512 * sizeof(half));
    }
    __aicore__ inline void Process()
    {
        CopyIn();
        Compute();
        CopyOut();
    }
private:
    __aicore__ inline void CopyIn()
    {
        LocalTensor<half> src0Local = inQueueSrc0.AllocTensor<half>();
        LocalTensor<half> src1Local = inQueueSrc1.AllocTensor<half>();

        DataCopy(src0Local, src0Global, 512);
        DataCopy(src1Local, src1Global, 512);

        inQueueSrc0.EnQue(src0Local);
        inQueueSrc1.EnQue(src1Local);
    }
    __aicore__ inline void Compute()
    {
        LocalTensor<half> src0Local = inQueueSrc0.DeQue<half>();
        LocalTensor<half> src1Local = inQueueSrc1.DeQue<half>();
        LocalTensor<half> dstLocal = outQueueDst.AllocTensor<half>();
        Add(dstLocal, src0Local, src1Local, 512);
        outQueueDst.EnQue<half>(dstLocal);
        inQueueSrc0.FreeTensor(src0Local);
        inQueueSrc1.FreeTensor(src1Local);
    }
    __aicore__ inline void CopyOut()
    {
        LocalTensor<half> dstLocal = outQueueDst.DeQue<half>();

        DataCopy(dstGlobal, dstLocal, 512);

        outQueueDst.FreeTensor(dstLocal);
    }
private:
    TPipe pipe;
    TQue<QuePosition::VECIN, 1> inQueueSrc0, inQueueSrc1;
    TQue<QuePosition::VECOUT, 1> outQueueDst;
    GlobalTensor<half> src0Global, src1Global, dstGlobal;
};
} // namespace AscendC
extern "C" __global__ __aicore__ void data_copy_kernel(__gm__ uint8_t* src0Gm, __gm__ uint8_t* src1Gm, __gm__ uint8_t* dstGm)
{
    AscendC::KernelDataCopy op;
    op.Init(src0Gm, src1Gm, dstGm);
    op.Process();
}

结果示例：

输入数据(src0Global): [1 2 3 ... 512]
输入数据(src1Global): [1 2 3 ... 512]
输出数据(dstGlobal):[2 4 6 ... 1024]

随路格式转换数据搬运，nz2nd

#include "kernel_operator.h"
namespace AscendC {
class KernelDataCopyUb2GmNz2Nd {
public:
    __aicore__ inline KernelDataCopyUb2GmNz2Nd()
    {}
    __aicore__ inline void Init(__gm__ uint8_t* dstGm, __gm__ uint8_t* srcGm)
    {
        Nz2NdParamsFull intriParamsIn{1, 32, 32, 1, 32, 32, 1};
        intriParams = intriParamsIn;
        srcGlobal.SetGlobalBuffer((__gm__ half *)srcGm);
        dstGlobal.SetGlobalBuffer((__gm__ half *)dstGm);
        pipe.InitBuffer(inQueueSrcVecIn, 1, intriParams.nValue * intriParams.dValue * sizeof(half));
        pipe.InitBuffer(inQueueSrcVecOut, 1, intriParams.nValue * intriParams.dValue * sizeof(half));
    }
    __aicore__ inline void Process()
    {
        CopyIn();
        Compute();
        CopyOut();
    }

private:
    __aicore__ inline void CopyIn()
    {
        LocalTensor<half> srcLocal = inQueueSrcVecIn.AllocTensor<half>();
        DataCopy(srcLocal, srcGlobal, intriParams.nValue * intriParams.dValue);
        inQueueSrcVecIn.EnQue(srcLocal);
    }
    __aicore__ inline void Compute()
    {
        LocalTensor<half> dstLocal = inQueueSrcVecIn.DeQue<half>();
        LocalTensor<half> srcOutLocal = inQueueSrcVecOut.AllocTensor<half>();
        DataCopy(srcOutLocal, dstLocal, intriParams.nValue * intriParams.dValue);
        inQueueSrcVecOut.EnQue(srcOutLocal);
        inQueueSrcVecIn.FreeTensor(dstLocal);
    }
    __aicore__ inline void CopyOut()
    {
        LocalTensor<half> srcOutLocalDe = inQueueSrcVecOut.DeQue<half>();
        DataCopy(dstGlobal, srcOutLocalDe, intriParams);
        inQueueSrcVecOut.FreeTensor(srcOutLocalDe);
    }

private:
    TPipe pipe;
    TQue<QuePosition::VECIN, 1> inQueueSrcVecIn;
    TQue<QuePosition::VECOUT, 1> inQueueSrcVecOut;
    GlobalTensor<half> srcGlobal;
    GlobalTensor<half> dstGlobal;
    Nz2NdParamsFull intriParams;
};
}  // namespace AscendC

extern "C" __global__ __aicore__ void kernel_data_copy_nz2nd_ub2out(__gm__ uint8_t* src_gm, __gm__ uint8_t* dst_gm)
{
    AscendC::KernelDataCopyUb2GmNz2Nd op;
    op.Init(dst_gm, src_gm);
    op.Process();
}

结果示例：

输入数据(srcGlobal): [1 2 3 ... 1024]
输出数据(dstGlobal):[1 2 ... 15 16 513 514 ... 527 528 17 18 ... 31 32 529 530 ... 543 544 ...497 498 ...  511 512  1009 1010... 1023 1024]

切片数据搬运，非连续转为连续

#include "kernel_operator.h"
namespace AscendC {
class KernelDataCopySliceGM2UB {
public:
    __aicore__ inline KernelDataCopySliceGM2UB()
    {}
    __aicore__ inline void Init(__gm__ uint8_t* dstGm, __gm__ uint8_t* srcGm)
    {
        SliceInfo srcSliceInfoIn = {{16, 70, 7, 3}, {0, 2, 1, 1}};
        SliceInfo dstSliceInfoIn = {{0, 47, 0, 3}, {0, 1, 0, 1}};// UB空间相对紧张，建议设置stride为0。
        uint32_t dimValueIn = 2;
        uint32_t dstDataSize = 96;
        uint32_t srcDataSize = 261;
        dimValue = dimValueIn;

        for (uint32_t i = 0; i < dimValueIn; i++) {
            srcSliceInfo[i].startIndex = srcSliceInfoIn[i].startIndex;
            srcSliceInfo[i].endIndex = srcSliceInfoIn[i].endIndex;
            srcSliceInfo[i].stride = srcSliceInfoIn[i].stride;
            srcSliceInfo[i].burstLen = srcSliceInfoIn[i].burstLen;

            dstSliceInfo[i].startIndex = dstSliceInfoIn[i].startIndex;
            dstSliceInfo[i].endIndex = dstSliceInfoIn[i].endIndex;
            dstSliceInfo[i].stride = dstSliceInfoIn[i].stride;
            dstSliceInfo[i].burstLen = dstSliceInfoIn[i].burstLen;
        }
        uint32_t srsGmShape = {87, 3};  // W:87, H:3 需要注意shape的顺序
        uint32_t dstGmShape = {48, 2};  // W:48, H:2 需要注意shape的顺序
        ShapeInfo srcShapeInfo{2, srsGmShape, 2, srsGmShape, DataFormat::ND};
        ShapeInfo dstShapeInfo{2, dstGmShape, 2, dstGmShape, DataFormat::ND};

        srcGlobal.SetGlobalBuffer((__gm__ float *)srcGm);
        dstGlobal.SetGlobalBuffer((__gm__ float *)dstGm);
        srcGlobal.SetShapeInfo(srcShapeInfo);
        dstGlobal.SetShapeInfo(dstShapeInfo);

        pipe.InitBuffer(inQueueSrcVecIn, 1, dstDataSize * sizeof(float));
    }
    __aicore__ inline void Process()
    {
        CopyIn();
        CopyOut();
    }

private:
    __aicore__ inline void CopyIn()
    {
        LocalTensor<float> srcLocal = inQueueSrcVecIn.AllocTensor<float>();
        ShapeInfo localShapeInfo = {2, {48, 2}, 2, {48, 2}, DataFormat::ND}; // 设置ub上的localtensor的shape
        srcLocal.SetShapeInfo(localShapeInfo);
        DataCopy(srcLocal, srcGlobal, srcSliceInfo, dstSliceInfo, dimValue);
        inQueueSrcVecIn.EnQue(srcLocal);
    }
    __aicore__ inline void CopyOut()
    {
        LocalTensor<float> srcOutLocal = inQueueSrcVecIn.DeQue<float>();
        DataCopy(dstGlobal, srcOutLocal, dstSliceInfo, dstSliceInfo, dimValue);
        inQueueSrcVecIn.FreeTensor(srcOutLocal);
    }

private:
    TPipe pipe;
    TQue<QuePosition::VECIN, 1> inQueueSrcVecIn;
    GlobalTensor<float> srcGlobal;
    GlobalTensor<float> dstGlobal;
    SliceInfo dstSliceInfo[K_MAX_DIM];
    SliceInfo srcSliceInfo[K_MAX_DIM]; // K_MAX_DIM = 8
    uint32_t dimValue;
};
}  // namespace AscendC

extern "C" __global__ __aicore__ void kernel_data_copy_slice_out2ub(__gm__ uint8_t* src_gm, __gm__ uint8_t* dst_gm)
{
    AscendC::KernelDataCopySliceGM2UB op;
    op.Init(dst_gm, src_gm);
    op.Process();
}

结果示例：

输入数据(srcGlobal)：

11111111	11111111	11111111	0000000（7个0）	11111111	11111111	11111111
00000000	00000000	00000000	0000000（7个0）	00000000	00000000	00000000
11111111	11111111	11111111	0000000（7个0）	11111111	11111111	11111111

输出数据(dstGlobal)：

11111111	11111111	11111111	11111111	11111111	11111111
11111111	11111111	11111111	11111111	11111111	11111111

父主题： 数据搬移