pull_blocks
函数功能
PagedAttention场景下,根据BlocksCacheKey,通过block列表的方式从对应的Prompt节点拉取KV到本地KvCache, 仅当LLMRole为DECODER时可调用。
函数原型
pull_blocks(prompt_cache_key: BlocksCacheKey, decoder_kv_cache: KvCache, prompt_blocks: List[int], decoder_blocks: List[int])
参数说明
参数名称 |
数据类型 |
取值说明 |
---|---|---|
prompt_cache_key |
BlocksCacheKey |
需要被拉取的BlocksCacheKey。 |
decoder_kv_cache |
KvCache |
目标KvCache。 |
prompt_blocks |
int |
prompt的block index列表。 |
decoder_blocks |
int |
decoder的block index列表。 |
调用示例
kv_cache_manager.pull_blocks(prompt_cache_key, cache, [0, 1], [2, 3])
返回值
正常情况下无返回值。
传入数据类型错误情况下会抛出TypeError异常。
约束说明
无
父主题: KvCacheManager