下载
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助
昇腾小AI

FetchLLMEngineStatus

函数功能

查询PagedAttention场景下的blocks数量。

函数原型

ge::LLMEngineStatus FetchLLMEngineStatus()
LLMEngineStatus{uint64_t empty_max_prompt_kv, int32_t num_free_blocks}

参数说明

返回值

LLM Engine状态。

异常处理

无。

约束说明

仅增量PagedAttention场景下使用。

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词