接口列表

表2 LLMEngine类接口
接口名称	简介
LLMEngine	创建LLMEngine对象。
~LLMEngine()	LLMEngine对象析构函数。
FetchLLMModelStatus	获取增量模型空闲的block数量。
UnlinkClusters	进行device间断链。
LinkClusters	进行device间建链。
LLMEngineFinalize	LLM Engine的资源释放函数。
MergeKv	将KV从本暂存区中合并到batch中, 该接口会释放暂存区中的KV。
PullKv	从Prompt cluster拉取该request对应的KV到本Decoder cluster的暂存区中，每次调用成功后都会覆盖暂存区之前的KV。
LLMReqComplete	外部告知Req已结束。
RunDecoderAsync	异步执行增量图。
RunDecoder	LLM_OPTION_BATCH_MODE为manual时，批量执行decoder推理。
RunDecoder	LLM_OPTION_BATCH_MODE为manual时，批量执行decoder推理。
RunDecoder	执行增量图。
RunPrompt	LLM_OPTION_BATCH_MODE为manual时，批量执行全量图。
RunPrompt	执行全量图。
RunPromptAsync	异步执行全量图。
ReleasePromptPrefix	释放公共前缀。
PreloadPromptPrefix	预加载公共前缀。
FetchLLMEngineStatus	查询PagedAttention场景下的blocks数量。
LLMEngineInitialize	初始化LLM Engine的资源。
LLMEngineInitializeV2	初始化LLM Engine的资源。
AddLLMModel	添加模型, 返回模型ID。