下载
EN
注册

PD分离特性介绍

Transformer大模型推理PD分离部署特性,主要是指模型推理的prefill阶段和decode阶段分别实例化部署在不同的机器资源上同时进行推理,其结合prefill阶段的计算密集型特性,以及decode阶段的访存密集型特性,通过调节PD节点数量配比来提升decode节点的batch size来充分发挥NPU卡的算力,进而提升集群整体吞吐。此外,在decode平均低时延约束场景,PD分离相比PD混合部署,更加能够发挥性能优势。

MindIE LLM提供PD分离部署所需要的关键能力,包括PD按角色实例化,PD KV Cache高性能传输,计算传输并行,batch调度。

限制与约束

  • Atlas 800I A2 推理产品硬件支持此特性。
  • 不同P、D节点使用的NPU卡数量必须相同。
  • NPU网口互联(带宽:200Gbps)。
  • MindIE Server服务化支持PD分离,包括重计算、集群调度等特性。
  • 不支持和Multi-LoRA、并行解码、SplitFuse以及Prefix Cache特性同时使用。
表1 依赖部件说明

组件

用途说明

MindIE MS Coordinator

MindIE MS主要负责P、D实例的生命周期管理、状态采集、请求调度等。

逻辑上包含2部分:MS和Coordinator。

其中MS主要负责P、D实例生命周期管理,Coordinator主要负责P、D请求的调度。

MindIE Service

通过endpoint方式接收Coordinator推理请求。

MindIE LLM BatchScheduler

调度batch能力,单独调度prefill或decode类型的请求并下发batch。

MindIE LLM

提供基础的模型执行能力。

CANN KV库

提供基于RDMA的KV Cache传输能力。

表2 ServerConfig补充参数

配置项

取值类型

取值范围

配置说明

InferMode

std::string

"dmi"或者"standard"

  • dmi为PD分离模式,该模式下服务化和模型启动解耦。待下发P/D身份后才拉起模型。standard为非PD分离模式,服务化和模型启动不解耦。
  • 必填,默认值:"standard"。

接口说明

请参见SetReqType接口~GetSrcBlockTable接口章节。

执行推理

此特性需要配合MindIE Service使用。请参考《MindIE Service开发指南》的“集群服务部署 > PD分离服务部署”章节