Transformer大模型推理PD分离部署特性,主要是指模型推理的prefill阶段和decode阶段分别实例化部署在不同的机器资源上同时进行推理,其结合prefill阶段的计算密集型特性,以及decode阶段的访存密集型特性,通过调节PD节点数量配比来提升decode节点的batch size来充分发挥NPU卡的算力,进而提升集群整体吞吐。此外,在decode平均低时延约束场景,PD分离相比PD混合部署,更加能够发挥性能优势。
MindIE LLM提供PD分离部署所需要的关键能力,包括PD按角色实例化,PD KV Cache高性能传输,计算传输并行,batch调度。
组件 |
用途说明 |
---|---|
MindIE MS Coordinator |
MindIE MS主要负责P、D实例的生命周期管理、状态采集、请求调度等。 逻辑上包含2部分:MS和Coordinator。 其中MS主要负责P、D实例生命周期管理,Coordinator主要负责P、D请求的调度。 |
MindIE Service |
通过endpoint方式接收Coordinator推理请求。 |
MindIE LLM BatchScheduler |
调度batch能力,单独调度prefill或decode类型的请求并下发batch。 |
MindIE LLM |
提供基础的模型执行能力。 |
CANN KV库 |
提供基于RDMA的KV Cache传输能力。 |
配置项 |
取值类型 |
取值范围 |
配置说明 |
---|---|---|---|
InferMode |
std::string |
"dmi"或者"standard" |
|
此特性需要配合MindIE Service使用。请参考《MindIE Service开发指南》的“集群服务部署 > PD分离服务部署”章节。