PD分离特性介绍

Transformer大模型推理PD分离部署特性，主要是指模型推理的prefill阶段和decode阶段分别实例化部署在不同的机器资源上同时进行推理，其结合prefill阶段的计算密集型特性，以及decode阶段的访存密集型特性，通过调节PD节点数量配比来提升decode节点的batch size来充分发挥NPU卡的算力，进而提升集群整体吞吐。此外，在decode平均低时延约束场景，PD分离相比PD混合部署，更加能够发挥性能优势。

MindIE LLM提供PD分离部署所需要的关键能力，包括PD按角色实例化，PD KV Cache高性能传输，计算传输并行，batch调度。

限制与约束

仅Atlas 800I A2 推理产品硬件支持此特性。
不同P、D节点使用的NPU卡数量必须相同。
NPU网口互联（带宽：200Gbps）。
MindIE Server服务化支持PD分离，包括重计算、集群调度等特性。
不支持和Multi-LoRA、并行解码、SplitFuse以及Prefix Cache特性同时使用。

表1 依赖部件说明
组件	用途说明
MindIE MS Coordinator	MindIE MS主要负责P、D实例的生命周期管理、状态采集、请求调度等。逻辑上包含2部分：MS和Coordinator。其中MS主要负责P、D实例生命周期管理，Coordinator主要负责P、D请求的调度。
MindIE Service	通过endpoint方式接收Coordinator推理请求。
MindIE LLM BatchScheduler	调度batch能力，单独调度prefill或decode类型的请求并下发batch。
MindIE LLM	提供基础的模型执行能力。
CANN KV库	提供基于RDMA的KV Cache传输能力。

表2 ServerConfig补充参数
配置项	取值类型	取值范围	配置说明
InferMode	std::string	"dmi"或者"standard"	dmi为PD分离模式，该模式下服务化和模型启动解耦。待下发P/D身份后才拉起模型。standard为非PD分离模式，服务化和模型启动不解耦。必填，默认值："standard"。

接口说明

请参见SetReqType接口~GetSrcBlockTable接口章节。

执行推理

此特性需要配合MindIE Service使用。请参考《MindIE Service开发指南》的“集群服务部署 > PD分离服务部署”章节。

父主题： 特性介绍