下载
中文
注册

昇腾大模型推理方案简介

基于推理引擎的大模型推理方案,支持图模式和单算子调用方式的推理,支持Tensor并行及8bit量化以及Stable Diffusion和LLM类大模型迁移。
图1 大模型推理方案

基于推理引擎的大模型推理架构实现如图2所示。
图2 大模型推理架构实现

LLM类大模型推理采用分层架构设计,基于Transformer结构实现大模型推理。
  • CANN提供异构计算基础能力,包括Runtime、ACLNN、HCCL、DVPP等底层硬件相关的通用能力。
  • Operation基于二进制算子提供单算子下发能力。
  • Layer基于Operation和ACLNN单算子构图,支持Attention、MLP、Decoder-Layer模块化,也支持多卡Tensor并行及8bit量化。
  • Model基于GraphOp积木拼接模型,实现模型流程打通。
  • 基于推理引擎统一接口对接Hugging Face,快速实现模型迁移。