check_capacity

函数功能

在全量predict接口执行前调用，用于在推理前检查本轮想要执行的请求的kv cache是否可以缓存下。调用complete_request释放kv cache占用。

函数原型

check_capacity(seq_len: int) -> CapacityState

参数说明

参数名称	数据类型	取值说明
seq_len	int	请求token数量。单batch场景是从LLMReq的prompt_length获取值。在多batch场景下，seq_len=max_prompt_len_per_batch * batch_size。

参数名称

数据类型

取值说明

seq_len

int

请求token数量。

单batch场景是从LLMReq的prompt_length获取值。
在多batch场景下，seq_len=max_prompt_len_per_batch * batch_size。

调用示例

from llm_datadist import LLMDataDist, LLMRole
llm_datadist = LLMDataDist(LLMRole.PROMPT, 0)
...
llm_req = LLMReq()
llm_req.prompt_length = 1
capacity_state = llm_datadist.check_capacity(llm_req.prompt_length)

返回值

返回CapacityState。

约束说明

仅支持全量侧调用。
不建议在add多个不相干的模型场景使用。
仅支持高阶API场景。

父主题： LLMDataDist