下载
中文
注册

swap_blocks

函数功能

对cpu_cache和npu_cache进行换入换出。

对于swap out功能,接口中会起4个线程去并行任务;对于swap in功能,接口中起了一个d2d线程。为了性能稳定,建议进行进程绑核。

swap in功能分为h2d和d2d两个阶段,为了性能考虑,会申请4个block大小的buffer用作流水拷贝,所以建议预留出这块device内存,防止出现oom。

函数原型

swap_blocks(src: Cache, dst: Cache, src_to_dst: Dict[int, int])

参数说明

参数名称

数据类型

取值说明

src

Cache

源Cache。

dst

Cache

目标Cache。

src_to_dst

Dict[int, int]

dict里面内容代表(原始block index,目标block index)

调用示例

from llm_datadist import Cache
npu_cache = cache_manager.allocate_blocks_cache(npu_cache_desc, npu_cache_key)
cpu_cache = Cache.create_cpu_cache(cpu_cache_desc, cpu_addrs) # cpu_addrs来自创建的cpu tensors
# swap in
cache_manager.swap_blocks(cpu_cache, npu_cache, {1:2, 3:4})
# swap out
cache_manager.swap_blocks(npu_cache, cpu_cache, {1:2, 3:4})

返回值

正常情况下无返回值。

传入数据类型错误,src和dst不匹配情况下会抛出TypeError或ValueError异常。

传入参数为None,会抛出AttributeError异常。

约束说明

仅PagedAttention场景使用。