单机服务部署为非分布式实例部署的场景，即在一个计算节点内可部署一个完整独立的MindIE Server推理服务实例。根据设备资源情况，同一个计算节点可部署多个Server服务实例，也支持在多个计算节点上部署多个服务实例。用户根据使用场景选择不同的组件作为服务请求入口，提供以下两种方案。

MindIE Server作为对外服务入口

推理请求：通过第三方平台的调度入口（由用户部署平台而定，比如K8s的调度入口或MA的调度入口等），基于特定的调度算法，直接调度请求发送给各个单机版的MindIE Server实例。具体部署详情请参见使用Deployer部署服务示例章节。使用该部署方式部署单机（非分布式）服务时，其支持的接口请参见服务化接口。

图1 MindIE Server作为对外服务入口
点击放大

MindIE MS Coordinator作为对外服务入口

推理请求：通过第三方平台的调度入口（由用户部署平台而定，比如k8s的调度入口或MA的调度入口等），将所有请求发送给Coordinator，Coordinator基于本身支持的负载调度算法，调度请求发送给各个MindIE Server实例。具体部署详情请参见使用kubectl部署服务示例章节。使用该部署方式部署单机（非分布式）服务时，其支持的接口请参见RESTful接口API。

图2 MindIE MS Coordinator作为对外服务入口
点击放大

单机部署场景支持的调度算法如下表所示：

调度算法	含义	部署建议	接口详情
cache_affinity	Cache亲和调度算法：当前只支持OpenAI多轮会话场景的亲和调度算法。	OpenAI多轮会话场景，推荐配置。	OpenAI推理接口
round_robin	轮询调度算法：非OpenAI多轮会话场景的调度算法。	使用非OpenAI多轮会话接口时默认执行此算法，用户无须配置。	TGI流式推理接口 TGI文本推理接口 TGI文本/流式推理接口 vLLM文本/流式推理接口 Triton流式推理接口 Triton Token推理接口 Triton文本推理接口 MindIE原生文本/流式推理接口 Token计算接口

场景介绍

MindIE Server作为对外服务入口

MindIE MS Coordinator作为对外服务入口