PD分离特性介绍
Transformer大模型推理PD分离部署特性,主要是指模型推理的prefill阶段和decode阶段分别实例化部署在不同的机器资源上同时进行推理,其结合prefill阶段的计算密集型特性,以及decode阶段的访存密集型特性,通过调节PD节点数量配比来提升decode节点的batch size来充分发挥NPU卡的算力,进而提升集群整体吞吐。此外,在decode平均低时延约束场景,PD分离相比PD混合部署,更加能够发挥性能优势。
MindIE LLM提供PD分离部署所需要的关键能力,包括PD按角色实例化,PD KV Cache高性能传输,计算传输并行,batch调度。
限制与约束
- 仅
Atlas 800I A2 推理产品 硬件支持此特性。 - 不同P、D节点使用的NPU卡数量必须相同。
- NPU网口互联(带宽:200Gbps)。
- MindIE Server服务化支持PD分离,包括重计算、集群调度等特性。
- 不支持和Multi-LoRA、并行解码、SplitFuse以及Prefix Cache特性同时使用。
组件 |
用途说明 |
---|---|
MindIE MS Coordinator |
MindIE MS主要负责P、D实例的生命周期管理、状态采集、请求调度等。 逻辑上包含2部分:MS和Coordinator。 其中MS主要负责P、D实例生命周期管理,Coordinator主要负责P、D请求的调度。 |
MindIE Service |
通过endpoint方式接收Coordinator推理请求。 |
MindIE LLM BatchScheduler |
调度batch能力,单独调度prefill或decode类型的请求并下发batch。 |
MindIE LLM |
提供基础的模型执行能力。 |
CANN KV库 |
提供基于RDMA的KV Cache传输能力。 |
配置项 |
取值类型 |
取值范围 |
配置说明 |
---|---|---|---|
InferMode |
std::string |
"dmi"或者"standard" |
|
接口说明
父主题: 特性介绍