文档
注册

FetchLLMEngineStatus

函数功能

查询PagedAttention场景下的blocks数量。

函数原型

ge::LLMEngineStatus FetchLLMEngineStatus();

LLMEngineStatus{uint64_t empty_max_prompt_kv, int32_t num_free_blocks};

参数说明

返回值

LLM Engine状态。

异常处理

无。

约束说明

仅增量PagedAttention场景下使用。

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词