LLM-DataDist整体架构

在大模型推理场景下,Prefill和Decoder阶段一起部署时,会造成计算资源的浪费,原因如下:

基于上述背景,提出了Prefill和Decoder分离部署的方案。LLM-DataDist作为大模型分布式集群和数据管理组件,提供了分布式集群中的KV Cache管理能力,包含两个模块link-manager和cache-manager。

LLM-DataDist利用昇腾集群多样化通信链路(HCCS/RoCE)可实现跨实例和集群的高效KV Cache传输,并支持与主流LLM推理框架如MindIE-LLM、vLLM等的集成。

图1 LLM-DataDist整体架构
图2 基于CANN的P-D分离系统示意图

基于如上的分层,外部在与PyTorch/MindSpore等这些执行框架解耦的同时,内部也将不同特性进行了解耦: