总述

本章节只适用于基于K8s的集群服务部署，不包含其他场景，其部署示意图如图1所示。

图1 K8s集群整体部署视图
点击放大

按照MindIE Server推理服务实例在集群计算节点（即推理服务器）上的分布和推理模式，可以分为以下三种部署形态。

表1 部署形态
部署形态	含义
单机服务（非分布式）	单个MindIE Server可以独立作为推理服务实例对外提供推理服务，根据集群计算节点资源情况，整个集群可以支持一个或多个计算节点，单个计算节点可部署一个或多个MindIE Server，单机部署详情请参见单机（非分布式）服务部署。
分布式多机服务	多个MindIE Server跨多个计算节点联合部署，整体作为一个分布式多机推理服务实例对外提供推理服务，适用于模型权重规模较大的场景，分布式多机服务部署详情请参见分布式多机服务部署（当前已支持2个或4个MindIE Server跨机部署）。
PD分离服务	多个MindIE Server在一个或多个计算节点上联合部署，分为P实例（Prefill计算实例）和D实例（Decode计算实例），P实例与D实例分离部署，协同推理，整体作为一个Group对外提供推理服务，PD分离部署详情请参见PD分离服务部署。

父主题： 集群服务部署