文档
注册

接口列表

LLMReq

表1 LLMReq类接口

接口名称

简介

SetReqId

设置LLM执行请求的请求id。

GetReqId

获取LLM执行请求的id。

SetPromptLength

设置LLM执行请求的全量实际句子长度。

GetPromptLength

获取LLM执行请求的全量实际句子长度。

SetPromptClusterId

设置LLM执行请求所属的cluster id。

GetPromptClusterId

获取LLM执行请求的全量cluster id。

SetDecoderClusterId

设置LLM执行请求的增量cluster id。

GetDecoderClusterId

获取LLM执行请求的增量cluster id。

SetPrefixId

设置LLM执行请求的公共前缀id。

GetPrefixId

获取LLM执行请求的公共前缀id。

SetSequenceLen

设置LLM执行请求的实际句子长度。

GetSequenceLen

获取LLM执行请求的实际句子长度。

LLMEngine

表2 LLMEngine类接口

接口名称

简介

LLMEngine

创建LLMEngine对象。

~LLMEngine()

LLMEngine对象析构函数。

FetchLLMModelStatus

获取增量模型空闲的block数量。

UnlinkClusters

进行device间断链。

LinkClusters

进行device间建链。

LLMEngineFinalize

LLM Engine的资源释放函数。

MergeKv

将KV从本暂存区中合并到batch中, 该接口会释放暂存区中的KV。

PullKv

从Prompt cluster拉取该request对应的KV到本Decoder cluster的暂存区中,每次调用成功后都会覆盖暂存区之前的KV。

LLMReqComplete

外部告知Req已结束。

RunDecoderAsync

异步执行增量图。

RunDecoder

LLM_OPTION_BATCH_MODE为manual时,批量执行decoder推理。

RunDecoder

LLM_OPTION_BATCH_MODE为manual时,批量执行decoder推理。

RunDecoder

执行增量图。

RunPrompt

LLM_OPTION_BATCH_MODE为manual时,批量执行全量图。

RunPrompt

执行全量图。

RunPromptAsync

异步执行全量图。

ReleasePromptPrefix

释放公共前缀。

PreloadPromptPrefix

预加载公共前缀。

FetchLLMEngineStatus

查询PagedAttention场景下的blocks数量。

LLMEngineInitialize

初始化LLM Engine的资源。

LLMEngineInitializeV2

初始化LLM Engine的资源。

AddLLMModel

添加模型, 返回模型ID。

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词