术语和缩略语
A
术语/缩略语 |
含义 |
---|---|
AscendCL |
Ascend Computing Language,昇腾编程语言。 提供Device管理、Context管理、Stream管理、内存管理、模型加载与执行、算子加载与执行、媒体数据处理等C语言的API库供用户开发深度神经网络应用,用于实现目标识别、图像分类等功能。 |
AI |
Artificial Intelligence,人工智能。 研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。 |
AI CPU |
主要用于AICPU算子的计算和确定性调度的任务。 |
Ascend EP |
Ascend Endpoint昇腾AI处理器作为终端节点(从控节点)。 主要功能是配合主设备(X86,ARM等各种Server),快速高效的处理推理、训练、图像识别等工作,例如PCIe加速卡。 |
Ascend RC |
Ascend Root Complex,昇腾AI处理器作为根组件(主控节点)。 提供主机控制功能,主要应用于移动端侧,例如Atlas 200 DK。 |
ATC |
Ascend Tensor Compiler,昇腾张量编译器。
|
ATB |
Ascend Transformer Boost,Transformer推理加速库。 用于Transformer类模型的神经网络推理,包含了各种Transformer类模型的高度优化模块,如Encoder和Decoder。 |
APP |
Ascend PyTorch Profiler,针对PyTorch框架开发的性能分析工具。 通过在PyTorch训练脚本中添加Ascend PyTorch Profiler接口,执行训练的同时采集性能数据,完成训练后直接输出可视化的性能数据文件,提升了性能分析效率。 |
B
术语/缩略语 |
含义 |
---|---|
Batch |
模型训练的一次迭代(即一次梯度更新)中使用的样本集。 |
Batch size |
模型迭代一次,使用的样本集的大小。 |
C
术语/缩略语 |
含义 |
---|---|
CANN |
Compute Architecture for Neural Networks,AI异构计算架构。 CANN是针对AI场景推出的异构并行计算架构,通过提供多层次的编程接口,支持用户快速构建基于Ascend平台的AI应用和业务。 |
CCE |
Cube-based Computing Engine,基于Cube的计算引擎。 CCE加速库通过API的方式,为上层应用(为机器学习提供的各种framework或者Application)提供加速。 |
CPU |
Central Processing Unit,中央处理单元。 是计算机的主要设备之一,其功能是解释计算机指令以及处理计算机软件中的数据,与内部存储器、输入及输出设备成为现代电脑的三大部件。 |
Cube |
Cube是AI Core中的运算单元,主要处理矩阵乘积累加运算。 |
D
术语/缩略语 |
含义 |
---|---|
DP |
Data Parallelism,数据并行。 数据并行是大规模深度学习训练中常用的并行模式,它会在每个进程(设备)中维护完整的模型和参数, 但在每个进程上处理不同的数据。 |
DDP |
Distributed Data Parallel,分布式训练。 同时利用一台或者多台机器上的GPU/NPU进行并行计算。 |
DVPP |
Digital Vision Pre-Processing,数字视觉预处理。 提供对特定格式的视频和图像的进行解码、缩放等预处理操作,以及对处理后的视频、图像进行编码再输出的能力。 |
DeepSpeed |
DeepSpeed是一个开源的深度学习框架,用于高效地进行大规模的分布式计算和训练。 DeepSpeed主要针对大规模的深度学习模型和复杂的神经网络结构,特别是针对于异构硬件的加速。通过DeepSpeed,可以实现高效的模型训练和推理,特别是在高性能计算或集群计算环境中。 |
DMA |
Direct Memory Access,一种高速的数据传输操作。 |
DRAM |
Dynamic Random Access Memory,动态随机存储器。 DRAM是计算机主存储器的一种形式,用于临时存储CPU需要处理的数据和指令。 |
E
术语/缩略语 |
含义 |
---|---|
EP |
Endpoint,终端节点。 EP是具有PCIe接口的网卡、SATA控制器等。 |
Epoch |
数据集的一次完整遍历。 |
F
术语/缩略语 |
含义 |
---|---|
FLOPS |
Floating-Point Operations Per Second,每秒所执行的浮点运算次数。 常被用来估算电脑的执行效能,尤其是在使用到大量浮点运算的科学计算领域中。正因为FLOPS字尾的那个S,代表秒,而不是复数,所以不能省略掉。 |
Framework |
NN框架执行引擎。 包括开源主流框架TensorFlow、PyTorch、Caffe等,自研框架MindSpore。系统针对开源主流框架提供适配插件,从而可利用昇腾AI处理器加速计算能力。 |
Flash Attention |
FlashAttention融合算子是一种应用于模型加速的具有IO感知的精确注意力算法,它无需任何近似即可加速注意力计算并减少内存占用。 Flash Attention融合算子在大语言模型中广泛使用,例如LLaMA、GPT3等。 |
FFTS |
Function flow task scheduler,函数流任务调度。 这是一种全新的基于数据流驱动的并行调度机制。它提供了子图DMU机制,去除子图内不必要的DMA拷贝开销,同时提供了sub task的thread切分和thread间并行调度机制,以尽可能并行AIC/AIV硬件资源,达到算子间融合效果。 |
G
术语/缩略语 |
含义 |
---|---|
GDB |
GNU Debugger,GNU调试器。 UNIX及UNIX-like下的命令行调试工具,可以执行程序、管理断点、检查变量赋值、调用函数等。 |
GE |
Graph Engine,图引擎。 提供了Graph/Operator IR作为安全易用的构图接口集合,用户可以调用这些接口构建网络模型,设置模型所包含的图、图内的算子、以及模型和算子的属性。 |
GPU |
Graphics Processing Unit,图形处理器。 GPU是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。 |
H
术语/缩略语 |
含义 |
---|---|
HCCL |
Huawei Collective Communication Library,华为集合通信库。 HCCL提供了深度学习训练场景中服务器间高性能集合通信的功能。 |
HCCS |
High Confidence Computing Systems,高性能计算系统。 提供多卡场景下的高性能片间(Device间)数据通信能力。 |
HDC |
Host Device Communication,主机设备通信。 用于Host和Device之间通信模块,在Host和Device里面均有部署。 |
I
术语/缩略语 |
含义 |
---|---|
IR |
Intermediate Representation,中间表示。 IR是一种数据结构,可将输入的资料建构为一个计算机程序,也可以将一部分或是所有输出的程式反推回输入资料。 |
IOPS |
Input/Output Operations Per Second,每秒输入/输出的运算次数。 这是衡量计算机存储设备性能的一个重要指标。 |
J
术语/缩略语 |
含义 |
---|---|
JPEGD |
JPEG Decoder,JPEG图像解码器。 提供对JPEG格式的图像进行解码的能力。 |
JPEGE |
JPEG Encoder,JPEG图像编码器。 提供对图像进行编码输出为JPEG格式的能力。 |
K
术语/缩略语 |
含义 |
---|---|
KMC |
Key Management CBB,密钥管理组件。 为实现密钥管理的代码共享、简化开发而设计的密钥管理模块,该模块实现了密钥的加密保存、加密解密等基本功能,方便产品快速集成密钥功能。 |
KubeEdge |
KubeEdge是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。云和边缘之间的部署和元数据同步。 |
Kubernetes |
Kubernetes是用于自动部署、扩展和管理容器化(containerized)应用程序的开源系统。它旨在提供“跨主机集群的自动部署、扩展以及运行应用程序容器的平台”。 |
L
术语/缩略语 |
含义 |
---|---|
LLaMA |
Large Language Model Meta AI,Meta AI发布的大型预训练语言模型。 LLaMA按照参数量的大小分为四个型号:LLaMA-7B、LLaMA-13B、LLaMA-33B与LLaMA-65B。 |
Loss |
损失,预测值与实际值的偏差,深度学习用于判断模型好坏的一个标准。 |
LLM |
Large Language Model,大语言模型。 它是一种强大的自然语言处理模型,能够理解和生成复杂的自然语言文本。 |
M
术语/缩略语 |
含义 |
---|---|
Megatron-LM |
Megatron-LM是一个基于PyTorch的大规模语言模型的训练框架。 Megatron-LM作为训练框架, 提供了大量语言模型示例,可以处理数十亿级别的语言数据。Megatron-LM采用分布式训练技术,可以在多主机多AI处理器上进行训练,以加快训练速度。最关键的特性是多种并行机制, 使能多机多卡的大语言模型训练。 |
MoE |
Mixture of Experts,混合专家模型。 一种机器学习技术,通过门控(gating)模型将单一任务空间划分为多个子任务,再由多个专家网络(子模型)分别处理特定的子任务,最终得到整体的预测结果。 |
MTE |
Memory Transfer Engine,内存传输引擎。 MTE也被称作LSU(Load Store Unit),负责AICore内部数据在不同Buffer之间的读写管理,以及完成一些格式转换的操作,比如padding、Img2Col以及解压等。 |
MLP |
Memory Level Parallelism,内存级并行。 内存级平行,平行计算技术的一种,是电脑架构的一种,能够同时进行数个内存操作,特别是在快取未命中(cache miss),或转译后备缓冲区未命中(TLB miss)时。 |
N
术语/缩略语 |
含义 |
---|---|
NN |
Neural Network,神经网络。 在机器学习和认知科学领域,是一种模仿生物神经网络的结构和功能的数学模型或计算模型。 |
NPU |
Neural-Network Processing Unit,神经网络处理器单元。 采用“数据驱动并行计算”的架构,特别擅长处理视频、图像类的海量多媒体业数据,专门用于处理人工智能应用中的大量计算任务。 |
NUMA |
Non-Uniform Memory Access,非一致性内存访问。 一种计算机系统的设计架构,它允许多个处理器(CPU)共享物理内存,但不同的处理器访问内存的速度可能不同。NUMA系统中的每个处理器都有自己的本地内存,但也可以访问其他处理器的内存。 |
NVMe |
Non-Volatile Memory Express,一种高速、低延迟的接口协议,用于连接计算机系统和固态硬盘。 一种新的存储技术,相较于传统的SATA接口,NVMe接口可以提供更高的传输速度和更低的延迟。NVMe盘是一种更快、更可靠的存储设备,适合存储需要高速读写的数据。 |
NLP |
Natural Language Processing,自然语言处理。 一种计算机科学和人工智能领域的交叉学科。它主要研究如何让计算机能够理解、处理和生成人类自然语言的形式和含义,以及如何将计算机技术应用于语言学和语言学习的问题。 |
O
术语/缩略语 |
含义 |
---|---|
om |
offline model,离线模型。 |
onnx |
Open Neural Network Exchange,开放神经网络交换。 |
OP |
Operator,算子。 操作运算,比如AI的ReLU、Conv、Pooling、Scale、Softmax等。 |
OPP |
Operator Package,算子库。 |
OS |
Operating System,操作系统。 |
P
术语/缩略语 |
含义 |
---|---|
PP |
Pipeline Parallel,流水线并行。 流水线并行将模型的不同层放置到不同的计算设备,降低单个计算设备的显存消耗,从而实现超大规模模型训练。 |
PCIe |
Peripheral Component Interconnect Express,快捷外围部件互连标准。 PCIe属于高速串行点对点双通道高带宽传输,所连接的设备分配独享通道带宽,不共享总线带宽,主要支持主动电源管理,错误报告,端对端的可靠性传输,热插拔以及服务质量(QOS)等功能。 |
R
术语/缩略语 |
含义 |
---|---|
RC |
Root Complex,根组件。 在PCI Express(PCIe)系统中,根组件设备将处理器和存储器子系统连接到由一个或多个交换设备组成的PCI Express交换结构。类似于PCI系统中的主机桥,根组件代表处理器生成事务请求,处理器通过本地总线互连。根组件功能可以实现为分立设备,或者可以与处理器集成。 |
Runtime |
Runtime运行于APP进程空间,为APP提供了针对昇腾AI处理器设备的Memory管理、Device管理、Stream管理、Event管理、Kernel执行等功能。 |
RDMA |
Remote Direct Memory Access,远程直接数据存取。 使一台计算机可以直接将数据通过网络传送到另一台计算机内存中的功能。 |
RoPE |
Rotary Position Embedding,旋转式位置嵌入。 一种能够将相对位置信息依赖集成到self-attention中并提升transformer架构性能的位置编码方式。 |
S
术语/缩略语 |
含义 |
---|---|
SoC |
System on Chip,片上系统。 这是ENP成本低的关键技术,通过强大的芯片技术能力,把一个交换机单板的包转发功能全部集成到了一个芯片中,获得了软件灵活性+交换机的低成本。 |
SP |
Sequence Paralleism,序列并行。 序列并行是一种针对输入序列进行列切分的并行计算方式,它可以在张量并行的基础上进一步提高计算效率。序列并行并不会增加额外的通信量,因此在开启张量并行的同时建议也同步开启序列并行。 |
SDMA |
Shared Direct Memory Access,共享直接内存访问。 允许处理器直接访问共享内存,从而避免了CPU的干预,提高了数据传输的速度和效率。 |
SRAM |
Static Random Access Memory,静态随机存储器。 SRAM是一种计算机内存类型。与动态随机存储器(DRAM)相比,SRAM的读写速度更快,通常用于高速缓存、寄存器和其他需要快速访问的应用程序。 |
SwiGLU |
Swish-Gated Linear Unit,Swish门控线性单元激活函数。 Swish门控线性单元激活函数是Gated Linear Unit (GLU) 函数的一种变体,其融入了Swish激活函数。 |
SIMD |
Single Instruction,Multiple Data,单指令,多数据。 一种并行处理器计算机结构,其中一个指令处理器取得指令,并将其分配给其他一些处理器进行处理。 |
T
术语/缩略语 |
含义 |
---|---|
TP |
Tensor Parallelism,张量并行。 通过将网络中的张量(Tensor)切分到不同的设备,从而降低单个设备的显存消耗,使得超大规模模型训练成为可能。 |
TS |
Task Scheduler,任务调度。 通过Task Schedule分发不同的kernel到AI CPU/AI Core执行。 |
TBE |
Tensor Boost Engine,张量加速引擎。 提供通过Python语言实现算子的接口,能够编译生成CCE算子。 |
Tensor |
张量。 TensorFlow程序中的主要数据结构。张量是N维(其中N可能非常大)数据结构,最常见的是标量、向量或矩阵。张量的元素可以包含整数值、浮点值或字符串值。 |
U
术语/缩略语 |
含义 |
---|---|
UUID |
Universally Unique Identifier,通用唯一识别码。 通用唯一识别码是一个软件建构的标准,也是被开源软件基金会 (Open Software Foundation,OSF) 的组织应用在分布式计算环境 (Distributed Computing Environment,DCE) 领域的一部份。 |
V
术语/缩略语 |
含义 |
---|---|
VECTOR |
向量运算。 |
VPC |
Vision Preprocessing Core,视觉预处理核心。 提供对图像进行缩放、色域转换、降bit数处理、存储格式转换、区块切割转换等能力。 |
W
术语/缩略语 |
含义 |
---|---|
WFE |
WorkFlow Engine,工作流引擎。 |
Y
术语/缩略语 |
含义 |
---|---|
YUV |
Luminance-Chrominance,明亮度-带宽-色度。 Y表示明亮度(Luminance),即灰阶值,U和V表示色度(Chrominance),描述影像色彩及饱和度,用于指定像素的颜色。 |