接口列表

LLMDataDist

表1 LLMDataDist接口
接口名称	简介
LLMDataDist	构造LLMDataDist。
init	初始化LLMDataDist。
finalize	释放LLMDataDist。
add_model	添加模型。
link_clusters	建链。
unlink_clusters	断链。
complete_request	完成请求, 释放请求所占内存。
kv_cache_manager	获取KvCacheManager实例。

LLMModel

表2 LLMModel接口
接口名称	简介
pull_kv	拉取kv。
merge_kv	合并kv。
preload_prompt_prefix	预加载前缀kv。
release_prompt_prefix	释放前缀kv所占内存。
predict	执行模型推理。
pull_blocks	PagedAttention场景下，拉取kv。

KvCacheManager

表3 KvCacheManager接口
接口名称	简介
is_initialized	查询KvCacheManager实例是否已初始化。
allocate_cache	分配Cache, Cache分配成功后, 会同时被cache_id与cache_keys引用, 只有当这些引用都解除后, cache所占用的资源才会实际释放。
deallocate_cache	释放Cache。
remove_cache_key	移除CacheKey, 仅当LLMRole为PROMPT时可调用。
pull_cache	根据CacheKey，从对应的Prompt节点拉取KV到本地KvCache, 仅当LLMRole为DECODER时可调用。
copy_cache	拷贝KV。
get_cache_tensors	获取cache tensor。
allocate_blocks_cache	PagedAttention场景下，分配多个blocks的Cache。
pull_blocks	PagedAttention场景下，根据BlocksCacheKey，通过block列表的方式从对应的Prompt节点拉取KV到本地KvCache, 仅当LLMRole为DECODER时可调用。
copy_blocks	PagedAttention场景下，拷贝KV。

ModelRunner

表4 ModelRunner接口
接口名称	简介
run_model	执行模型，用户需要集成ModelRunner并实现该接口。该接口会在执行LLMModel.predict时被调用。
on_cache_allocated	当ModelRunner关联的Decoder LLMModel分配了KvCache后回调。
on_cache_deallocated	当ModelRunner关联的Decoder LLMModel释放了KvCache后回调。

TensorDesc

表5 TensorDesc接口
接口名称	简介
TensorDesc	构造TensorDesc。
dtype	获取dtype属性值。
shape	获取shape属性值。

Tensor

表6 Tensor接口
接口名称	简介
Tensor	构造Tensor。
numpy	获取tensor的numpy数据。

ModelConfig

表7 ModelConfig接口
接口名称	简介
ModelConfig	构造ModelConfig。
generate_options	生成模型配置项字典。
kv_shapes	配置每个kv的维度信息，对应底层llm.RefInputShapes配置项。
kv_dtypes	配置每个kv数据类型，对应底层llm.RefInputDtypes配置项。
kv_seq_len_dim_index	配置序列长度所在维度，对应底层llm.RefInputSeqLenDimIndex配置项。
enable_page_attention	配置是否开启PagedAttention，对应底层llm.EnablePagedAttention配置项。
enable_shared_system_prefix	配置是否开启共享系统前缀，对应底层llm.EnableSharedSystemPrefix配置项。
om_paths	配置模型列表，对应底层llm.OmCachePath配置项，如果是flow model，只需要配置一个模型路径。
is_flow_model	配置模型是否是flow_model，对应底层llm.IsFlowModel配置项，如果传入模型是FlowModel时需要配置。
ge_options	配置额外的GE配置项。

LLMConfig

表8 LLMConfig接口
接口名称	简介
LLMConfig	构造LLMConfig。
generate_options	生成配置项字典。
listen_ip_info	PROMPT侧设置集群监听信息，对应底层llm.listenIpInfo配置项。
device_id	设置当前进程device ID，对应底层ge.exec.deviceId配置项。
sync_kv_timeout	配置拉取kv等接口超时时间，对应底层llm.SyncKvCacheWaitTime配置项。
ge_options	配置额外的GE配置项。

LLMReq

表9 LLMReq接口
接口名称	简介
LLMReq	构造LLMReq。
req_id	设置请求ID。
prompt_length	设置请求prompt长度。
prompt_cluster_id	设置请求prompt集群ID。
decoder_cluster_id	设置请求decoder集群ID。
prefix_id	设置请求前缀ID。

LLMClusterInfo

**表10** LLMClusterInfo接口
接口名称	简介
LLMClusterInfo	构造LLMClusterInfo。
remote_cluster_id	设置对端集群ID。
append_local_ip_info	添加本地集群IP信息。
append_remote_ip_info	添加远端集群IP信息。

其他

**表11** 其他接口
接口名称	简介
CacheDesc	构造CacheDesc。
CacheKey	构造CacheKey。
CacheKeyByIdAndIndex	构造CacheKeyByIdAndIndex。
BlocksCacheKey	PagedAttention场景下，构造BlocksCacheKey。
KvCache	构造KvCache。