aclmdlExecuteAsync

函数功能

执行模型推理，异步接口。

约束说明

该接口是异步接口，调用接口成功仅表示任务下发成功，不表示任务执行成功。调用该接口后，需调用同步等待接口（例如，aclrtSynchronizeStream）确保任务已执行完成，否则可能会导致训练或推理等业务异常、Device断链掉卡等未知情况。
对同一个modelId的模型，不能调用aclmdlExecuteAsync接口执行多Stream并发场景下的模型推理。错误示例如下，该示例中，两次aclmdlExecuteAsync接口多Stream并发执行，导致报错：
```
//......
aclmdlExecuteAsync(modelId1, input, output, stream1);
aclmdlExecuteAsync(modelId1, input, output, stream2);
aclrtSynchronizeStream(stream1);
aclrtSynchronizeStream(stream2);
//......
```

若由于业务需求，必须在多线程中使用同一个modelId，则用户线程间需加锁，保证刷新输入输出内存、保证执行是连续操作，例如：

// 线程A的接口调用顺序：
lock(handle1) -> aclrtMemcpyAsync(stream1)刷新输入输出内存 -> aclmdlExecuteAsync(modelId1,stream1)执行推理 -> unlock(handle1)

// 线程B的接口调用顺序：
lock(handle1) -> aclrtMemcpyAsync(stream1)刷新输入输出内存 -> aclmdlExecuteAsync(modelId1,stream1)执行推理 -> unlock(handle1)

模型加载、模型执行、模型卸载的操作必须在同一个Context下（关于Context的创建请参见aclrtSetDevice或aclrtCreateContext）。
存放模型输入/输出数据的内存，可以使用以下接口申请：aclrtMalloc、或aclrtMallocHost、或aclrtMallocCached接口、或acldvppMalloc接口、或hi_mpi_dvpp_malloc接口。
其中，acldvppMalloc接口和hi_mpi_dvpp_malloc接口是媒体数据处理功能专用的内存申请接口，一般从性能角度，为了减少拷贝，媒体数据处理的输出作为模型推理的输入，实现内存复用。

由于硬件对内存有对齐和补齐要求，若用户使用这些接口申请大块内存并自行划分、管理内存时，需满足对应接口的对齐和补齐约束，请参见内存二次分配管理。
若需要使用外置Allocator，则注册Allocator时的stream需与模型执行时的stream保持一致。

函数原型

aclError aclmdlExecuteAsync(uint32_t modelId, const aclmdlDataset *input, aclmdlDataset *output, aclrtStream stream)

参数说明

参数名	输入/输出	说明
modelId	输入	指定需要执行推理的模型的ID。调用aclmdlLoadFromFile接口/aclmdlLoadFromMem接口/aclmdlLoadFromFileWithMem接口/aclmdlLoadFromMemWithMem接口加载模型成功后，会返回模型ID。
input	输入	模型推理的输入数据的指针。
output	输出	模型推理的输出数据的指针。
stream	输入	指定Stream。

返回值说明

返回0表示成功，返回其它值表示失败。

参考资源

接口调用流程及示例代码，参见异步模型推理。

父主题： 模型执行