下载
中文
注册

总述

本章节只适用于基于K8s的集群服务部署,不包含其他场景,其部署示意图如图1所示。

图1 K8s集群整体部署视图

按照MindIE Server推理服务实例在集群计算节点(即推理服务器)上的分布和推理模式,可以分为以下三种部署形态。

表1 部署形态

部署形态

含义

单机服务(非分布式)

单个MindIE Server可以独立作为推理服务实例对外提供推理服务,根据集群计算节点资源情况,整个集群可以支持一个或多个计算节点,单个计算节点可部署一个或多个MindIE Server,单机部署详情请参见单机(非分布式)服务部署

分布式多机服务

多个MindIE Server跨多个计算节点联合部署,整体作为一个分布式多机推理服务实例对外提供推理服务,适用于模型权重规模较大的场景,分布式多机服务部署详情请参见分布式多机服务部署(当前已支持2个或4个MindIE Server跨机部署)。

PD分离服务

多个MindIE Server在一个或多个计算节点上联合部署,分为P实例(Prefill计算实例)和D实例(Decode计算实例),P实例与D实例分离部署,协同推理,整体作为一个Group对外提供推理服务,PD分离部署详情请参见PD分离服务部署