文档
注册

LLMReqComplete

函数功能

外部告知Req已结束。

  • 全量场景下,如果请求没有对应的增量需要执行,则需要调用该接口释放对应的kv cache资源。
  • 增量场景下,如果请求已经启动执行,等待当前step执行完后,释放增量推理所在batch对应位置的的占位符。
  • 请求还没开始执行的,从队列中删除该请求。

函数原型

ge::Status LLMReqComplete(const LLMReq &req);

参数说明

参数名

输入/输出

描述

req

输入

需要结束的请求。类型为LLMReq

返回值

请求结束成功

异常处理

无。

约束说明

必须先做初始化后才能调用。

只能在LLM_OPTION_BATCH_MODE为auto的时候调用,否则会报错。

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词