下载
中文
注册

产品简介

产品介绍

MindIE Service是面向通用模型场景的推理服务化框架,通过开放、可扩展的推理服务化平台架构提供推理服务化能力,支持对接业界主流推理框架接口,满足大语言模型的高性能推理需求。

它的组件包括MindIE MSMindIE ServerMindIE ClientMindIE Benchmark,一方面通过对接昇腾推理加速引擎带来大模型在昇腾环境中的性能提升,另一方面通过接入现有主流推理框架生态,逐渐以性能和易用性牵引用户向全自研推理服务化框架迁移。

支持的特性

  • 支持大模型服务化快速部署,详情请参见快速开始
  • 提供了标准的昇腾服务化接口,兼容Triton/OpenAI/TGI/vLLM等第三方框架接口,详情请参见EndPoint提供的RESTful接口
  • 支持CB(Continuous Batching)和PA(Paged Attention)。
  • 支持基于Transformer推理加速库(Ascend Transformer Boost)的模型接入,继承其加速能力,包括融合加速算子、量化等特性。
  • 支持Atlas 800I A2推理产品多机推理,需提前部署RoCE(RDMA over Converged Ethernet)网络。