昇腾大模型推理方案简介
基于推理引擎的大模型推理方案,支持图模式和单算子调用方式的推理,支持Tensor并行及8bit量化以及Stable Diffusion和LLM类大模型迁移。
图1 大模型推理方案
基于推理引擎的大模型推理架构实现如图2所示。
LLM类大模型推理采用分层架构设计,基于Transformer结构实现大模型推理。
- CANN提供异构计算基础能力,包括Runtime、ACLNN、HCCL、DVPP等底层硬件相关的通用能力。
- Operation基于二进制算子提供单算子下发能力。
- Layer基于Operation和ACLNN单算子构图,支持Attention、MLP、Decoder-Layer模块化,也支持多卡Tensor并行及8bit量化。
- Model基于GraphOp积木拼接模型,实现模型流程打通。
- 基于推理引擎统一接口对接Hugging Face,快速实现模型迁移。
父主题: 简介