我要评分

文档获取效率

文档正确性

内容完整性

文档易理解

在线提单

论坛求助

昇腾小AI

LLMReqComplete

函数功能

外部告知Req已结束。

全量场景下，如果请求没有对应的增量需要执行，则需要调用该接口释放对应的kv cache资源。
增量场景下，如果请求已经启动执行，等待当前step执行完后，释放增量推理所在batch对应位置的占位符。
请求还没开始执行的，从队列中删除该请求。

函数原型

ge::Status LLMReqComplete(const LLMReq &req)

参数说明

参数名	输入/输出	描述
req	输入	需要结束的请求。类型为LLMReq。

返回值

请求结束成功

异常处理

无。

约束说明

必须先做初始化后才能调用。

只能在LLM_OPTION_BATCH_MODE为auto的时候调用，否则会报错。

父主题： LLMEngine