下载
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助
昇腾小AI

check_capacity

函数功能

在全量predict接口执行前调用,用于在推理前检查本轮想要执行的请求的kv cache是否可以缓存下。调用complete_request释放kv cache占用。

函数原型

check_capacity(seq_len: int) -> CapacityState

参数说明

参数名称

数据类型

取值说明

seq_len

int

请求token数量。

  • 单batch场景是从LLMReq的prompt_length获取值。
  • 在多batch场景下,seq_len=max_prompt_len_per_batch * batch_size。

调用示例

from llm_datadist import LLMDataDist, LLMRole
llm_datadist = LLMDataDist(LLMRole.PROMPT, 0)
...
llm_req = LLMReq()
llm_req.prompt_length = 1
capacity_state = llm_datadist.check_capacity(llm_req.prompt_length)

返回值

返回CapacityState。

约束说明

  • 仅支持全量侧调用。
  • 不建议在add多个不相干的模型场景使用。
  • 仅支持高阶API场景。
搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词