FetchLLMEngineStatus
函数功能
查询PagedAttention场景下的blocks数量。
函数原型
ge::LLMEngineStatus FetchLLMEngineStatus();
LLMEngineStatus{uint64_t empty_max_prompt_kv, int32_t num_free_blocks};
参数说明
无
返回值
LLM Engine状态。
异常处理
无。
约束说明
仅增量PagedAttention场景下使用。
父主题: LLMEngine