check_capacity
函数功能
在全量predict接口执行前调用,用于在推理前检查本轮想要执行的请求的kv cache是否可以缓存下。调用complete_request释放kv cache占用。
函数原型
check_capacity(seq_len: int) -> CapacityState
参数说明
参数名称 |
数据类型 |
取值说明 |
---|---|---|
seq_len |
int |
请求token数量。
|
调用示例
from llm_datadist import LLMDataDist, LLMRole llm_datadist = LLMDataDist(LLMRole.PROMPT, 0) ... llm_req = LLMReq() llm_req.prompt_length = 1 capacity_state = llm_datadist.check_capacity(llm_req.prompt_length)
返回值
返回CapacityState。
约束说明
- 仅支持全量侧调用。
- 不建议在add多个不相干的模型场景使用。
- 仅支持高阶API场景。
父主题: LLMDataDist