昇腾社区首页
中文
注册

产品简介

MindIE SD是MindIE的视图生成推理模型套件,其目标是为稳定扩散(Stable Diffusion, SD)系列大模型推理任务提供在昇腾硬件及其软件栈上的端到端解决方案,软件系统内部集成各功能模块,对外呈现统一的编程接口。

MindIE SD主要功能模块包括SD Runtime、Model Factory、SD Pipeline、Modeling、Transformers/Diffusers和Distributed,其架构图如图1所示,模块介绍如表1所示。

图1 视图生成推理架构图
表1 主要功能模块

功能模块

说明

SD Runtime

负责状态管理及任务队列(Request Queue)的调度,其中包含:

  • 提供开发运维一体化(Development & Operations, DevOps)接口,如状态监控等;
  • 迭代步骤间的扩散转换模型缓存(Diffusion Transformer Cache, DiT-Cache)加速;
  • 扩散步数采样。

Model Factory

负责模型权重配置(Setup)、初始化、权重加载(Weight Loader)等。

SD Pipeline

负责扩散推理流程、噪声采样、视图解码等,向SD Runtime提供统一的扩散推理接口,其中包含:

  • 文本编码;
  • 块(Patch)编码;
  • 时空去噪扩散转换模型(Spatial-Temporal Denoising Diffusion Transformer, ST-DiT);
  • 噪声采样器,基于步数和不同算法采样生成隐空间特征(Latent Feature);
  • 变分自编码器(Variational Autoencoder, VAE)用于视图解码。可加入视频插帧模块(光流或深度学习方法)在关键帧生成后增加视频连续性插帧。

Modeling

负责模型编译和优化,其中包含:

  • 配置(Config)文件:提供内置深度定制优化模型及社区模型快速适配迁移路径;
  • 模型(Models):支持OpenSora v1.2模型;
  • 模块(Modules):软件栈内置模块,提供通用能力,例如注意力(Attention)、多层感知机(Multilayer Perceptron, MLP)等;
  • 层(Layers):包含线性层(Linear Layer)、卷积层(Conv Layer)等,提供定制化算子,如加速注意力(Flash Attention, FA)。

Transformers/Diffusers

提供了一系列预训练的扩散模型以及相关的工具和资源,包括多种不同的扩散模型架构、脚本以及示例等。

Distributed

分布式基础功能,其中包含:

  • 提供通讯原语接口,提供命令控制语言接口(Command Control Language Interface, CCL Interface);
  • 提供类信息传递接口(Message Passing Interface, MPI),如进程编号(Rank)、全局进程数/总进程数(World Size)等;
  • 支持动态序列并行(Dynamic Sequence Parallel, DSP)算法。