特性介绍
当前大语言模型推理系统普遍采用KV Cache缓存机制,但该机制存在以下两个问题:
- 随着LLM支持的序列长度不断增长,KV Cache所需要的显存资源也急剧增加。
- KV Cache只对当前session有效,如果跨session存在重复token序列的情况下无法实现复用。
Prefix Cache通过RadixTree保留session结束后的KV Cache,新的session请求在RadixTree中查找是否存在相同的Token序列,即可复用之前计算好的KV Cache,从而实现跨session的KV Cache复用。
其优势主要包括:
- 更短的prefill时间:由于跨session的重复token序列对应的KV Cache可以复用,那么就可以减少一部分前缀token的KV Cache计算时间,从而减少prefill的时间。
- 更高效的显存使用:当正在处理的sessions相互之间存在公共前缀时,公共前缀部分的KV Cache可以共用,不必重复占用多份显存。
父主题: Prefix Cache