aclopCompile
函数功能
编译指定算子。在编译算子前,可以调用aclSetCompileopt接口设置编译选项;可以调用aclopSetCompileFlag接口设置编译算子时按模糊编译、还是按精确编译方式。
约束说明
- 每个算子的输入、输出组织不同,需要应用在调用时严格按照算子输入、输出参数来组织算子,用户在调用aclopCompile时,AscendCL根据optype、输入tensor的描述、输出tensor的描述、attr等信息查找对应的任务,再编译算子。
- 编译动态Shape的算子时,如果Shape具体值不明确,但Shape范围明确,则在调用aclCreateTensorDesc接口创建aclTensorDesc类型时,需要将dims数组的表示动态维度的元素值设置为-1,再调用aclSetTensorShapeRange接口设置tensor的各个维度的取值范围;如果Shape具体值以及Shape范围都不明确(该场景预留),则在调用aclCreateTensorDesc接口创建aclTensorDesc类型时,需要将dims数组的值设置为-2,例如:int64_t dims[] = {-2}。
- 编译有可选输入的算子时,如果可选输入不使用,则需按此种方式创建aclTensorDesc类型的数据:aclCreateTensorDesc(ACL_DT_UNDEFINED, 0, nullptr, ACL_FORMAT_UNDEFINED),表示数据类型设置为ACL_DT_UNDEFINED,Format设置为ACL_FORMAT_UNDEFINED,Shape信息为nullptr。
- 编译有constant输入的算子时,需要先调用aclSetTensorConst接口设置constant输入。调用aclopCompile接口、aclopExecuteV2接口前,设置的constant输入数据必须保持一致。
函数原型
aclError aclopCompile(const char *opType,
int numInputs,
const aclTensorDesc *const inputDesc[],
int numOutputs,
const aclTensorDesc *const outputDesc[],
const aclopAttr *attr,
aclopEngineType engineType,
aclopCompileType compileFlag,
const char* opPath)
参数说明
参数名 |
输入/输出 |
说明 |
---|---|---|
opType |
输入 |
算子类型名称的指针。 |
numInputs |
输入 |
算子输入tensor的数量。 |
inputDesc |
输入 |
算子输入tensor的描述的指针数组。 需提前调用aclCreateTensorDesc接口创建aclTensorDesc类型。 inputDesc数组中的元素个数必须与numInputs参数值保持一致。 |
numOutputs |
输入 |
算子输出tensor的数量。 |
outputDesc |
输入 |
算子输出tensor的描述的指针数组。 需提前调用aclCreateTensorDesc接口创建aclTensorDesc类型。 outputDesc数组中的元素个数必须与numOutputs参数值保持一致。 |
attr |
输入 |
算子属性的指针。 需提前调用aclopCreateAttr接口创建aclopAttr类型。 |
engineType |
输入 |
算子执行引擎。 |
compileFlag |
输入 |
算子编译标识。 typedef enum aclCompileType { ACL_COMPILE_SYS, //向GE、FE注册过的算子 ACL_COMPILE_UNREGISTERED //未向GE、FE注册的算子(需要使用py源文件编译算子) } aclopCompileType; |
opPath |
输入 |
算子实现文件(*.py)的路径的指针,不包含文件名。 如果将compileFlag设置为ACL_COMPILE_UNREGISTERED时,需要设置opPath。 opPath只需要写到py文件所在的目录,不需要加上py文件名。可以写为绝对路径,也可以写为相对路径。当写为相对路径时,相对路径的父目录需配置到环境变量PYTHONPATH中。例如算子a.py放在绝对路径/A/B/C/下,opPath参数设置为相对路径./C时,则需要将/A/B加入到环境变量PYTHONPATH中。 |
返回值说明
返回0表示成功,返回其它值表示失败。