文档首页我要评分文档获取效率文档正确性内容完整性文档易理解0/200提交在线提单论坛求助昇腾小AI LLMReqComplete 函数功能 外部告知Req已结束。 全量场景下,如果请求没有对应的增量需要执行,则需要调用该接口释放对应的kv cache资源。 增量场景下,如果请求已经启动执行,等待当前step执行完后,释放增量推理所在batch对应位置的占位符。 请求还没开始执行的,从队列中删除该请求。 函数原型 ge::Status LLMReqComplete(const LLMReq &req) 参数说明 参数名 输入/输出 描述 req 输入 需要结束的请求。类型为LLMReq。 返回值 请求结束成功 异常处理 无。 约束说明 必须先做初始化后才能调用。 只能在LLM_OPTION_BATCH_MODE为auto的时候调用,否则会报错。 父主题: LLMEngine 搜索结果找到“0”个结果当前产品无相关内容未找到相关内容,请尝试其他搜索词