单机服务部署为非分布式实例部署的场景,即在一个计算节点内可部署一个完整独立的MindIE Server推理服务实例。根据设备资源情况,同一个计算节点可部署多个Server服务实例,也支持在多个计算节点上部署多个服务实例。 用户根据使用场景选择不同的组件作为服务请求入口,提供以下两种方案。
推理请求:通过第三方平台的调度入口(由用户部署平台而定,比如K8s的调度入口或MA的调度入口等),基于特定的调度算法,直接调度请求发送给各个单机版的MindIE Server实例。具体部署详情请参见使用Deployer部署服务示例章节。使用该部署方式部署单机(非分布式)服务时,其支持的接口请参见服务化接口。
推理请求:通过第三方平台的调度入口(由用户部署平台而定,比如k8s的调度入口或MA的调度入口等),将所有请求发送给Coordinator,Coordinator基于本身支持的负载调度算法,调度请求发送给各个MindIE Server实例。具体部署详情请参见使用kubectl部署服务示例章节。使用该部署方式部署单机(非分布式)服务时,其支持的接口请参见RESTful接口API。
单机部署场景支持的调度算法如下表所示:
调度算法 |
含义 |
部署建议 |
接口详情 |
---|---|---|---|
cache_affinity |
Cache亲和调度算法:当前只支持OpenAI多轮会话场景的亲和调度算法。 |
OpenAI多轮会话场景,推荐配置。 |
|
round_robin |
轮询调度算法:非OpenAI多轮会话场景的调度算法。 |
使用非OpenAI多轮会话接口时默认执行此算法,用户无须配置。 |