产品简介
产品介绍
MindIE Service是面向通用模型场景的推理服务化框架,通过开放、可扩展的推理服务化平台架构提供推理服务化能力,支持对接业界主流推理框架接口,满足大语言模型的高性能推理需求。
MindIE Service的组件包括MindIE Service Tools、MindIE Client、MindIE MS(MindIE Management Service)和MindIE Server和,一方面通过对接昇腾推理加速引擎带来大模型在昇腾环境中的性能提升,另一方面通过接入现有主流推理框架生态,逐渐以高性能和易用性牵引用户向全原生推理服务化框架迁移。其架构图如图1所示。
- MindIE Service提供推理服务化部署和运维能力。
- MindIE Service Tools:昇腾推理服务化工具;主要功能有大模型推理性能测试、精度测试和可视化能力,并且支持通过配置提升吞吐。
- MindIE Client:昇腾推理服务化客户端;配套昇腾推理服务化MindIE Server提供完整的推理服务化能力,包括对接MindIE Server的通信协议、请求和返回的接口,提供给用户应用对接。
- MindIE MS:服务策略管理,提供服务运维能力。主要功能包括模型Pod级和Pod内实例级管理、简化部署并提供服务质量监控、模型更新、故障重调度和自动扩缩负载均衡能力,不仅能够提升服务质量,同时也能提高推理硬件资源利用率。
- MindIE Server:推理服务端;提供模型推理服务化能力,支持命令行部署RESTful服务。
- EndPoint:提供简易的API接口;EndPoint面向推理服务开发者提供极简易用的API接口,推理服务化协议和接口封装,支持Triton/OpenAI/TGI/vLLM主流推理框架请求接口。
- GMIS:模型推理调度器,提供多实例调度能力;GMIS模块支持推理流程的工作流定义扩展,以工作流为驱动,实现从推理任务调度到任务执行的可扩展架构,适应各类推理方法。
- BackendManager:模型执行后端,昇腾后端和自定义后端的管理模块;Backend管理模块面向不同推理引擎,不同模型,提供统一抽象接口,便于扩展,减少推理引擎、模型变化带来的修改。
- MindIE Backends:支持昇腾MindIE LLM后端。
- MindIE LLM:提供大模型推理能力,同时提供多并发请求的调度功能。
支持的特性
当前版本PD分离部署特性存在部分场景限制,开启前请仔细评估应用场景是否满足。
- 支持第三方框架接口:兼容Triton/OpenAI/TGI/vLLM第三方框架接口,详情请参见EndPoint业务面RESTful接口章节。
- 支持Transformer推理加速库(Ascend Transformer Boost):支持基于Transformer推理加速库的模型接入,继承其加速能力,包括融合加速算子、量化等特性。
- 支持分布式多机推理:对于规格较大的大模型场景,单机可能无法完成推理,所以提供多台机器协同推理能力。当前仅
Atlas 800I A2 推理产品 支持分布式多机推理,需提前部署RoCE(RDMA over Converged Ethernet)网络,分布式多机推理部署方式请参见分布式多机服务部署章节。 - 支持智能运维管理:支持服务监控和NPU故障重调度,详情请参见RESTful接口API。
- 支持自动精度性能测试:支持测试模型的性能、精度,详情请参见MindIE Benchmark章节。
- 支持PD分离部署:Prefill和Decode分别部署在不同的实例上,减少互相干扰,降低时延,提升吞吐,其部署方式请参见PD分离服务部署章节。
- 支持多模态服务化:支持文本和图片多模态数据类型输入,功能详情请参见多模态理解章节。
- 支持Multi-Lora:使用Multi-Lora来执行基础模型和不同的LoRA权重进行推理,功能详情请参见Multi-Lora章节。
- 支持Function Call:支持Function Call函数调用,使大模型具备使用工具能力。功能详情请参见Function Call章节。
- 支持Prefix Cache:复用跨session的重复token序列对应的KV Cache,减少一部分前缀token的KV Cache计算时间,从而减少Prefill的时间。功能详情请参见Prefix Cache章节。
- 支持Splitfuse:将长提示词被分解成更小的块,并在多个推理轮次中进行调度,降低Prefill时延,功能详情请参见Splitfuse章节。