aclopCompileAndExecuteV2
函数功能
编译并执行指定的算子,当前只支持固定Shape的算子,同步或异步接口。在编译执行算子前,可以调用aclSetCompileopt接口设置编译选项。
约束说明
- 多线程场景下,不支持调用本接口时指定同一个Stream或使用默认Stream,否则可能任务执行异常。
- 每个算子的输入、输出组织不同,需要应用在调用时严格按照算子输入、输出参数来组织算子,用户在调用aclopCompileAndExecuteV2时,AscendCL根据optype、输入tensor的描述、输出tensor的描述、attr等信息查找对应的任务,再编译、执行算子。
- 编译、执行有可选输入的算子时,如果可选输入不使用,则需按此种方式创建aclTensorDesc类型的数据:aclCreateTensorDesc(ACL_DT_UNDEFINED, 0, nullptr, ACL_FORMAT_UNDEFINED),表示数据类型设置为ACL_DT_UNDEFINED,Format设置为ACL_FORMAT_UNDEFINED,Shape信息为nullptr;需按此种方式创建aclDataBuffer类型的数据:aclCreateDataBuffer(nullptr, 0),同时aclDataBuffer中的数据不需要释放,因为是空指针。
- 编译、执行有constant输入的算子时,需要先调用aclSetTensorConst接口设置constant输入。
对于算子有constant输入的场景,如果未调用aclSetTensorConst接口设置constant输入,则需调用aclSetTensorPlaceMent设置TensorDesc的placement属性,将memType设置为Host内存。
- 在执行单算子时,一般要求用户传入的输入/输出tensor数据是存放在Device内存的,比如两个tensor相加的场景。但是,也存在部分算子,除了将featureMap、weight等Device内存中的tensor数据作为输入外,还需tensor shape信息、learningRate、tensor的dims信息等通常在Host内存中的tensor数据也作为输入,此时,用户不需要额外将这些Host内存中的tensor数据拷贝到Device上作为输入,只需要调用aclSetTensorPlaceMent接口设置对应TensorDesc的placement属性为Host内存,在执行单算子时,设置了placement属性为Host内存的TensorDesc,其对应的tensor数据必须存放在Host内存中,AscendCL内部会自动将Host上的tensor数据拷贝到Device上。
- 对于动态Shape的算子,无法明确算子输出Shape时,可调用aclopInferShape接口获取算子的输出Shape:
- 若可获取到准确的输出Shape,则使用准确的输出Shape来构造outputDesc参数,作为aclopCompileAndExecuteV2的输入。该场景下,aclopCompileAndExecuteV2接口是异步接口。
- 若无法获取准确的输出Shape,仅能获取输出Shape范围,则使用Shape最大值来构造outputDesc参数,作为aclopCompileAndExecuteV2的输入。该场景下,在调用aclopCompileAndExecuteV2接口执行算子后,系统内部会计算出准确的输出Shape,通过aclopCompileAndExecuteV2接口的outputDesc参数输出,此时aclopCompileAndExecuteV2接口是同步接口。
- (该场景预留)若无法获取准确的输出Shape以及Shape范围,则需由用户预估一个最大的Shape来构造outputDesc参数,作为aclopCompileAndExecuteV2的输入。该场景下,在调用aclopCompileAndExecuteV2接口执行算子后,系统内部会计算出准确的输出Shape,通过aclopCompileAndExecuteV2接口的outputDesc参数输出,此时aclopCompileAndExecuteV2接口是同步接口。
函数原型
aclError aclopCompileAndExecuteV2(const char *opType,
int numInputs,
aclTensorDesc *inputDesc[],
aclDataBuffer *inputs[],
int numOutputs,
aclTensorDesc *outputDesc[],
aclDataBuffer *outputs[],
aclopAttr *attr,
aclopEngineType engineType,
aclopCompileType compileFlag,
const char *opPath,
aclrtStream stream)
参数说明
参数名 |
输入/输出 |
说明 |
---|---|---|
opType |
输入 |
算子类型名称的指针。 |
numInputs |
输入 |
算子输入tensor的数量。 |
inputDesc |
输入 |
算子输入tensor描述的指针数组。 需提前调用aclCreateTensorDesc接口创建aclTensorDesc类型。 inputDesc数组中的元素个数必须与numInputs参数值保持一致,且inputs数组与inputDesc数组中的元素必须一一对应。 |
inputs |
输入 |
算子输入tensor的指针数组。 需提前调用aclCreateDataBuffer接口创建aclDataBuffer类型的数据。 inputs数组中的元素个数必须与numInputs参数值保持一致,且inputs数组与inputDesc数组中的元素必须一一对应。 |
numOutputs |
输入 |
算子输出tensor的数量。 |
outputDesc |
输入&输出 |
算子输出tensor描述的指针数组。 需提前调用aclCreateTensorDesc接口创建aclTensorDesc类型。 outputDesc数组中的元素个数必须与numOutputs参数值保持一致,且outputs数组与outputDesc数组中的元素必须一一对应。 |
outputs |
输入&输出 |
算子输出tensor的指针数组。 需提前调用aclCreateDataBuffer接口创建aclDataBuffer类型的数据。 outputs数组中的元素个数必须与numOutputs参数值保持一致,且outputs数组与outputDesc数组中的元素必须一一对应。 |
attr |
输入 |
算子属性的指针。 需提前调用aclopCreateAttr接口创建aclopAttr类型。 |
engineType |
输入 |
算子执行引擎。 |
compileFlag |
输入 |
算子编译标识。 typedef enum aclCompileType { ACL_COMPILE_SYS, //向GE、FE注册过的算子 ACL_COMPILE_UNREGISTERED //未向GE、FE注册的算子(需要使用py源文件编译算子,当前不支持) } aclopCompileType; |
opPath |
输入 |
算子实现文件(*.py)路径的指针,不包含文件名。 如果将compileFlag设置为ACL_COMPILE_UNREGISTERED 时,需要设置opPath。 |
stream |
输入 |
该算子需要加载的stream。 |
返回值说明
返回0表示成功,返回其它值表示失败。