接口列表
LLMReq
接口名称 |
简介 |
---|---|
设置LLM执行请求的请求id。 |
|
获取LLM执行请求的id。 |
|
设置LLM执行请求的全量实际句子长度。 |
|
获取LLM执行请求的全量实际句子长度。 |
|
设置LLM执行请求所属的cluster id。 |
|
获取LLM执行请求的全量cluster id。 |
|
设置LLM执行请求的增量cluster id。 |
|
获取LLM执行请求的增量cluster id。 |
|
设置LLM执行请求的公共前缀id。 |
|
获取LLM执行请求的公共前缀id。 |
|
设置LLM执行请求的实际句子长度。 |
|
获取LLM执行请求的实际句子长度。 |
LLMEngine
接口名称 |
简介 |
---|---|
创建LLMEngine对象。 |
|
LLMEngine对象析构函数。 |
|
获取增量模型空闲的block数量。 |
|
进行device间断链。 |
|
进行device间建链。 |
|
LLM Engine的资源释放函数。 |
|
将KV从本暂存区中合并到batch中, 该接口会释放暂存区中的KV。 |
|
从Prompt cluster拉取该request对应的KV到本Decoder cluster的暂存区中,每次调用成功后都会覆盖暂存区之前的KV。 |
|
外部告知Req已结束。 |
|
异步执行增量图。 |
|
LLM_OPTION_BATCH_MODE为manual时,批量执行decoder推理。 |
|
LLM_OPTION_BATCH_MODE为manual时,批量执行decoder推理。 |
|
执行增量图。 |
|
LLM_OPTION_BATCH_MODE为manual时,批量执行全量图。 |
|
执行全量图。 |
|
异步执行全量图。 |
|
释放公共前缀。 |
|
预加载公共前缀。 |
|
查询PagedAttention场景下的blocks数量。 |
|
初始化LLM Engine的资源。 |
|
初始化LLM Engine的资源。 |
|
添加模型, 返回模型ID。 |