在大模型推理场景下，Prefill和Decoder阶段一起部署时，会造成计算资源的浪费，原因如下：

基于上述背景，提出了Prefill和Decoder分离部署的方案。LLM-DataDist作为大模型分布式集群和数据管理组件，提供了分布式集群中的KV Cache管理能力，包含两个模块link-manager和cache-manager。

LLM-DataDist利用昇腾集群多样化通信链路（HCCS/RoCE）可实现跨实例和集群的高效KV Cache传输，并支持与主流LLM推理框架如MindIE-LLM、vLLM等的集成。

图1 LLM-DataDist整体架构

图2 基于CANN的P-D分离系统示意图

基于如上的分层，外部在与PyTorch/MindSpore等这些执行框架解耦的同时，内部也将不同特性进行了解耦：

服务化框架层：基于LLM-DataDist提供的KV Cache管理能力来构建起P-D之间的KV Cache传输，可以结合常见的KV Cache的优化手段，例如PA（Paged Attention）、公共前缀缓存等。
P-D分离调度层：基于LLM-DataDist提供的集群动态扩缩能力来构建起P-D集群的管理，并可以在业务的忙闲时以及故障场景下完成Prefill或Decoder节点的上下线。