下载
中文
注册

LLM Engine接口列表

该手册的接口不再演进,推荐使用LLM DataDist接口参考(Python)中的功能。

LLM Engine(large language model Engine),支持推理全量增量分离部署,全量图和增量图一起部署时,会造成计算资源的浪费,原因如下:

  • 全量图计算对算力要求高,大batch下算力bound或导致时延体验下降;同batch内多个inputSeq实际长度不同。
  • 增量图单次计算量小,需要冲高batch提升算力利用率;KV Cache容量需求高;batch内输出长度(迭代次数)不一致。

LLM Engine提供管理图的部署和调度执行功能,根据传入的图是全量图还是增量图来执行对应的部署和调度逻辑。相关接口存放在为:“${install_path}/latest/runtime/include/ge/llm_engine.h”“${install_path}/latest/runtime/include/ge/llm_engine_types.h”l和“${install_path}/latest/runtime/include/ge/llm_error_codes.h”。其中${install_path}为runtime安装路径,root用户的默认路径是“/usr/local/Ascend”

支持的产品形态: Atlas 800I A2 推理产品

LLM Engine接口列表如下。

LLMReq

表1 LLMReq类接口

接口名称

简介

SetReqId

设置LLM执行请求的请求id。

GetReqId

获取LLM执行请求的id。

SetPromptLength

设置LLM执行请求的全量实际句子长度。

GetPromptLength

获取LLM执行请求的全量实际句子长度。

SetPromptClusterId

设置LLM执行请求所属的cluster id。

GetPromptClusterId

获取LLM执行请求的全量cluster id。

SetDecoderClusterId

设置LLM执行请求的增量cluster id。

GetDecoderClusterId

获取LLM执行请求的增量cluster id。

SetPrefixId

设置LLM执行请求的公共前缀id。

GetPrefixId

获取LLM执行请求的公共前缀id。

SetSequenceLen

设置LLM执行请求的实际句子长度。

GetSequenceLen

获取LLM执行请求的实际句子长度。

LLMEngine

表2 LLMEngine类接口

接口名称

简介

LLMEngine构造函数

创建LLMEngine对象。

~LLMEngine()

LLMEngine对象析构函数。

FetchLLMModelStatus

获取增量模型空闲的block数量。

UnlinkClusters

进行device间断链。

LinkClusters

进行device间建链。

LLMEngineFinalize

LLM Engine的资源释放函数。

MergeKv

将KV从本暂存区中合并到batch中,该接口会释放暂存区中的KV。

PullKv

从Prompt cluster拉取该request对应的KV到本Decoder cluster的暂存区中,每次调用成功后都会覆盖暂存区之前的KV。

LLMReqComplete

外部告知Req已结束。

RunDecoderAsync

异步执行增量图。

RunDecoder(批量执行,请求列表类型=LLMReq)

LLM_OPTION_BATCH_MODE为manual时,批量执行decoder推理。

RunDecoder(批量执行,请求id类型=uint64_t)

LLM_OPTION_BATCH_MODE为manual时,批量执行decoder推理。

RunDecoder(增量图)

执行增量图。

RunPrompt(批量执行)

LLM_OPTION_BATCH_MODE为manual时,批量执行全量图。

RunPrompt(非批量执行)

执行全量图。

RunPromptAsync

异步执行全量图。

ReleasePromptPrefix

释放公共前缀。

PreloadPromptPrefix

预加载公共前缀。

FetchLLMEngineStatus

查询PagedAttention场景下的blocks数量。

LLMEngineInitialize

初始化LLM Engine的资源。

LLMEngineInitializeV2

初始化LLM Engine的资源。

AddLLMModel

添加模型,返回模型ID。