总述
本章节只适用于基于K8s的集群服务部署,不包含其他场景,其部署示意图如图1所示。
按照MindIE Server推理服务实例在集群计算节点(即推理服务器)上的分布和推理模式,可以分为以下三种部署形态。
部署形态 |
含义 |
---|---|
单机服务(非分布式) |
单个MindIE Server可以独立作为推理服务实例对外提供推理服务,根据集群计算节点资源情况,整个集群可以支持一个或多个计算节点,单个计算节点可部署一个或多个MindIE Server,单机部署详情请参见单机(非分布式)服务部署。 |
分布式多机服务 |
多个MindIE Server跨多个计算节点联合部署,整体作为一个分布式多机推理服务实例对外提供推理服务,适用于模型权重规模较大的场景,分布式多机服务部署详情请参见分布式多机服务部署(当前已支持2个或4个MindIE Server跨机部署)。 |
PD分离服务 |
多个MindIE Server在一个或多个计算节点上联合部署,分为P实例(Prefill计算实例)和D实例(Decode计算实例),P实例与D实例分离部署,协同推理,整体作为一个Group对外提供推理服务,PD分离部署详情请参见PD分离服务部署。 |
父主题: 集群服务部署