PD分离架构说明

该架构将推理的2个阶段(Prefill和Decode)分别部署到不同的实例上进行计算,从而减少Prefill和Decode之间互相干扰,提升推理性能。其基本流程如下:

图1 PD分离架构基本流程

PD分离是集群化架构,集群中,存在三种必要的元素,如下所示:

其中,调度器负责对外发布推理接口,P、D负责各自推理阶段的计算。调度器(Coordinator)是由MindIE MS实现;P和D实例是由MindIE Server实现。

基于该架构,MindIE Server不再对终端用户直接开放接口,本章节主要描述MindIE ServerMindIE MS开放的接口。