简介
概述
MindIE LLM(Mind Inference Engine Large Language Model,大语言模型)是MindIE下的大语言模型推理组件,基于昇腾硬件提供业界通用大模型推理能力,同时提供多并发请求的调度功能,支持Continuous Batching、Page Attention、FlashDecoding等加速特性,使能用户高性能推理需求。
MindIE LLM主要提供大模型推理Python API和大模型调度C++ API。
本手册有助于用户快速了解MindIE LLM,完成大模型推理的部署测试。
MindIE LLM架构

MindIE LLM总体架构分为三层:LLM Manager、Text Generator和Modeling。
功能特性
MindIE LLM功能特性主要分为模型相关(包括量化)能力和调度相关能力两个维度。
类别 |
特性列表 |
---|---|
模型相关(包括量化)能力 |
支持量化特性,请参见量化特性介绍。 |
支持长序列特性,请参见长序列特性介绍。 |
|
支持多机特性,请参见多机特性介绍。 |
|
支持MoE特性,请参见MoE特性介绍。 |
|
支持Function Call特性,请参见Function Call特性介绍。 |
|
支持多模态理解特性,请参见多模态理解特性介绍。 |
|
支持MLA特性,请参见MLA特性介绍。 |
|
调度相关能力 |
支持Multi-LoRA特性,请参见Multi-LoRA特性介绍。 |
支持PD分离特性,请参见PD分离特性介绍。 |
|
支持SplitFuse特性,请参见SplitFuse特性介绍。 |
|
支持并行解码特性,请参见并行解码特性介绍。 |
|
支持Prefix Cache特性,请参见Prefix Cache特性介绍。 |
- 模型相关(包括量化)能力简介
- 基础能力包括浮点、量化、并行。
表2 浮点特性 浮点特性
浮点能力
float16
√
bfloat16
√
MindIE LLM主打高性能推理,当前仅支持float16、bfloat16浮点格式。可通过配置模型config.json中'torch_dtype'字段进行类型修改。
表3 量化特性 量化特性
per channel
per token
per group
W8A8
√
√
×
W8A16
√
×
√
KV Cache int8
√
×
×
W8A8稀疏量化
√
×
×
MindIE LLM提供多种量化选择进行推理加速,用户可根据自己的需要进行选择,具体量化权重获取、量化推理运行请参考量化特性介绍章节进行配置。
表4 并行特性 并行特性
并行能力
TP(Tensor Parallelism)
√
DP(Data Parallelism)
×
PP(Pipeline Parallelism)
×
EP(Expert Parallelism)
×
MindIE LLM提供TP并行策略。
- 模型能力
MindIE LLM提供如下所示模型预置能力,用户可根据需要进行使用,也可以对模型进行自定义开发迁移。
- LLaMA
- CodeLLaMA
- Baichuan
- Mixtral
- Qwen
- Bloom
- DeepSeek
- Glm
- CodeGeex
- Starcoder
- Gemma
- 基础能力包括浮点、量化、并行。
- 调度相关能力简介
表5 服务化特性 服务化特性
服务化能力
MindIE Service
√
TGI(Text Generation Inference)
√
vLLM
√
Triton
√
MindIE LLM支持自研MindIE Service服务化框架,MindIE Service运行指导请参考《MindIE Service开发指南》的“MindIE Service组件 > MindIE Server”章节。
MindIE LLM支持对接第三方的服务化框架,如TGI、vLLM和Triton,提供model backend接口,模型加载、推理以及后处理能力。