下载
中文
注册

FetchLLMEngineStatus

函数功能

查询PagedAttention场景下的blocks数量。

函数原型

ge::LLMEngineStatus FetchLLMEngineStatus()
LLMEngineStatus{uint64_t empty_max_prompt_kv, int32_t num_free_blocks}

参数说明

返回值

LLM Engine状态。

异常处理

无。

约束说明

仅增量PagedAttention场景下使用。