产品简介
产品介绍
MindIE-Service是面向通用模型的推理服务化场景,实现开放、可扩展的推理服务化平台架构,支持对接业界主流推理框架接口,满足大语言模型、文生图等多类型模型的高性能推理需求。它的组件包括MindIE-Server和MindIE-Client,一方面通过对接昇腾的推理加速引擎带来大模型在昇腾环境中的性能提升,另一方面,通过接入现有的主流推理框架生态,逐渐以性能和易用性牵引存量生态的用户向全自研推理服务化平台迁移。
支持的特性
- 支持大模型服务化快速部署,详情请参见快速开始。
- 提供了标准的昇腾服务化接口,兼容Triton/OpenAI/TGI/vLLM等第三方框架接口,详情请参见EndPoint提供的RESTful接口。
- 支持Continuous Batching,PagedAttention。
- 支持基于Transformer推理加速库(Ascend Transformer Boost)的模型接入,继承其加速能力,包括融合加速算子、量化等特性。