LLM Engine接口列表

该手册的接口不再演进，推荐使用《LLM DataDist接口参考（Python）》中的功能。

LLM Engine（large language model Engine），支持推理全量增量分离部署，全量图和增量图一起部署时，会造成计算资源的浪费，原因如下：

全量图计算对算力要求高，大batch下算力bound或导致时延体验下降；同batch内多个inputSeq实际长度不同。
增量图单次计算量小，需要冲高batch提升算力利用率；KV Cache容量需求高；batch内输出长度（迭代次数）不一致。

LLM Engine提供管理图的部署和调度执行功能，根据传入的图是全量图还是增量图来执行对应的部署和调度逻辑。相关接口存放在为：“${install_path}/latest/runtime/include/ge/llm_engine.h”、“${install_path}/latest/runtime/include/ge/llm_engine_types.h”l和“${install_path}/latest/runtime/include/ge/llm_error_codes.h”。其中${install_path}为runtime安装路径，root用户的默认路径是“/usr/local/Ascend”。

支持的产品形态：Atlas A2训练系列产品/Atlas 800I A2推理产品。

LLM Engine接口列表如下。

LLMReq

表1 LLMReq类接口
接口名称	简介
SetReqId	设置LLM执行请求的请求id。
GetReqId	获取LLM执行请求的id。
SetPromptLength	设置LLM执行请求的全量实际句子长度。
GetPromptLength	获取LLM执行请求的全量实际句子长度。
SetPromptClusterId	设置LLM执行请求所属的cluster id。
GetPromptClusterId	获取LLM执行请求的全量cluster id。
SetDecoderClusterId	设置LLM执行请求的增量cluster id。
GetDecoderClusterId	获取LLM执行请求的增量cluster id。
SetPrefixId	设置LLM执行请求的公共前缀id。
GetPrefixId	获取LLM执行请求的公共前缀id。
SetSequenceLen	设置LLM执行请求的实际句子长度。
GetSequenceLen	获取LLM执行请求的实际句子长度。

LLMEngine

表2 LLMEngine类接口
接口名称	简介
LLMEngine构造函数	创建LLMEngine对象。
~LLMEngine()	LLMEngine对象析构函数。
FetchLLMModelStatus	获取增量模型空闲的block数量。
UnlinkClusters	进行device间断链。
LinkClusters	进行device间建链。
LLMEngineFinalize	LLM Engine的资源释放函数。
MergeKv	将KV从本暂存区中合并到batch中，该接口会释放暂存区中的KV。
PullKv	从Prompt cluster拉取该request对应的KV到本Decoder cluster的暂存区中，每次调用成功后都会覆盖暂存区之前的KV。
LLMReqComplete	外部告知Req已结束。
RunDecoderAsync	异步执行增量图。
RunDecoder（批量执行，请求列表类型=LLMReq）	LLM_OPTION_BATCH_MODE为manual时，批量执行decoder推理。
RunDecoder（批量执行，请求id类型=uint64_t）	LLM_OPTION_BATCH_MODE为manual时，批量执行decoder推理。
RunDecoder（增量图）	执行增量图。
RunPrompt（批量执行）	LLM_OPTION_BATCH_MODE为manual时，批量执行全量图。
RunPrompt（非批量执行）	执行全量图。
RunPromptAsync	异步执行全量图。
ReleasePromptPrefix	释放公共前缀。
PreloadPromptPrefix	预加载公共前缀。
FetchLLMEngineStatus	查询PagedAttention场景下的blocks数量。
LLMEngineInitialize	初始化LLM Engine的资源。
LLMEngineInitializeV2	初始化LLM Engine的资源。
AddLLMModel	添加模型，返回模型ID。