术语和缩略语

A-E

表1
术语/缩略语	含义
A
AccumulatedRelativeError	累积相对误差算法。精度比对算法之一，计算结果取值范围为0到无穷大，值越接近于0，表明越相近，值越大，表明差距越大。
Advisor	专家系统。用于聚焦模型和算子的性能调优Top问题，识别性能瓶颈，重点构建模型和算子瓶颈分析并提供优化推荐，支撑开发效率提升的工具。
AI	Artificial Intelligence，人工智能。研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
AIPP	Artificial Intelligence Pre-Processing，AI预处理。 AIPP用于在AI Core上完成图像预处理，包括改变图像尺寸、色域转换（转换图像格式）、减均值/乘系数（改变图像像素），数据处理之后再进行真正的模型推理。
Ascend EP	Ascend Endpoint，昇腾AI处理器作为终端节点（从控节点）。主要功能是配合主设备（X86，ARM等各种Server），快速高效的处理推理、训练、图像识别等工作，例如PCIe加速卡。
Ascend RC	Ascend Root Complex，昇腾AI处理器作为根组件（主控节点）。提供主机控制功能，主要应用于移动端侧，例如Atlas 200 DK。
AscendCL	Ascend Computing Language，昇腾编程语言。提供Device管理、Context管理、Stream管理、内存管理、模型加载与执行、算子加载与执行、媒体数据处理等C语言的API库供用户开发深度神经网络应用，用于实现目标识别、图像分类等功能。
ASHA	Asynchronous Successive Halving Algorithm，异步连续减半算法。一种基于动态资源分配的超参优化算法。基础思想为：并行训练多组超参数，每轮进行少量的训练迭代。对所有超参数进行评估和排序，所有超参数排列在下半部分的训练都会提前停止。对剩余的超参数执行下一轮评估。评估再次减半，直到达到优化目标。
ATC	Ascend Tensor Compiler，昇腾张量编译器。通过ATC，可以将开源框架的网络模型（如Caffe、TensorFlow等）转换成昇腾AI处理器支持的离线模型。模型转换过程中可以实现算子调度的优化、权值数据重排、内存使用优化等通过ATC，可以进行算子编译。
Accuracy Comparison	精度比对。通过NPU运行生成的dump数据与Ground Truth（基于GPU/CPU运行生成的npy数据）进行比对。实现自主研发算子与业界标准算子运算结果的差异比较。
B
BOHB	Bayesian Optimization and Hyperband，在Hyperband基础上结合贝叶斯进行超参优化。 BOHB依赖Hyperband来决定每次跑多少组参数和每组参数分配多少资源，Hyperband在每个循环开始时依赖之前的数据建立模型（贝叶斯优化）进行参数选择。
BOSS	Bayesian Optimization via Sub-Sampling，基于下采样的贝叶斯优化。是基于贝叶斯优化框架下的一种针对计算资源受限，需要高效搜索的，具有普适性的超参优化算法。
BP Point	Back Propagation Point，训练网络迭代轨迹反向算子的结束位置。
C
CPU	Central Processing Unit，中央处理单元。计算机的主要设备之一，其功能是解释计算机指令以及处理计算机软件中的数据，与内部存储器、输入及输出设备成为现代电脑的三大部件。
CosineSimilarity	余弦相似度算法。精度比对算法之一，计算结果取值范围为[-1,1]，比对的结果如果越接近1，表示两者的值越相近，越接近-1意味着两者的值越相反。
D
DDR	Double Data Rate，双倍数据速率。与传统的单数据速率相比，DDR技术实现了一个时钟周期内进行两次读/写操作，即在时钟的上升沿和下降沿分别执行一次读/写操作。
DiffThd	Difference Threshold，误差阈值。
DSL	Domain-Specific Language，基于特性域语言。算子开发方式之一，用户仅需要使用DSL接口完成计算过程的表达，后续的算子调度、算子优化及编译都可通过已有的接口一键式完成。
DVPP	Digital Vision Pre-Processing，数字视觉预处理。提供对特定格式的视频和图像进行解码、缩放等预处理操作，以及对处理后的视频、图像进行编码再输出的能力。
单算子比对	精度比对工具里Tensor比对的一种方式。选择网络模型中一个或多个参与计算的算子进行精度比对。

F-J

表2
术语/缩略语	含义
F
FP Point	Forward Propagation Point，训练网络迭代轨迹正向算子的开始位置。
FpDiff	Floating-point Difference，浮点误差。
FLOPS	Floating-Point Operations Per Second，每秒所执行的浮点运算次数。常被用来估算电脑的执行效能，尤其是在使用到大量浮点运算的科学计算领域中。正因为FLOPS字尾的那个S，代表秒，而不是复数，所以不能省略掉。
G
GDB	GNU debugger，GNU调试器。 GNU操作系统的标准调试器。
GE	Graph Engine，图引擎。提供了Graph/Operator IR作为安全易用的构图接口集合，用户可以调用这些接口构建网络模型，设置模型所包含的图、图内的算子、以及模型和算子的属性。
GPU	Graphics Processing Unit，图形处理器。 GPU是一种专门在个人电脑、工作站、游戏机和一些移动设备（如平板电脑、智能手机等）上做图像和图形相关运算工作的微处理器。
Graph模式	MindSpore的静态图模式，将神经网络模型编译成一整张图，然后下发执行，性能高。
H
HCCL	Huawei Collective Communication Library，华为集合通信库。提供了深度学习训练场景中服务器间高性能集合通信的功能。
HCCS	High Confidence Computing Systems，高性能计算系统。提供多卡场景下的高性能片间（Device间）数据通信能力。
HPO	Hyperparameter Optimization，超参数优化。是指用自动化的算法来优化原机器学习/深度学习算法中无法通过训练来优化的超参数，如学习率、激活函数、优化器等。
HWTS	Hardware Task Scheduler，硬件任务调度。提供对AI Core任务的硬件调度能力，减少调度时延。
I
IR	Intermediate Representation，中间表示。 IR是一种数据结构，可将输入的资料建构为一个计算机程序，也可以将一部分或是所有输出的程式反推回输入资料。
J
JDK	Java Software Development Kit，Java软件开发包。基于Java的软件开发工具集合。

K-O

表3
术语/缩略语	含义
K
KullbackLeiblerDivergence	KL散度算法。精度比对算法之一，计算结果取值范围为0到无穷大。KL散度越小，真实分布与近似分布之间的匹配越好。
L
L2 Cache	Second Level Cache，二级缓存。在访问内存之前调用的共享第二级别缓存通常称为二级缓存。
LLC	Last Level Cache，最后一级缓存。在访问内存之前调用的共享最高级别缓存通常称为最后一级缓存（LLC）。
M
MaxAbsoluteError	最大绝对误差算法。精度比对算法之一，计算结果取值范围为0到无穷大，值越接近于0，表明越相近，值越大，表明差距越大。
MaxRelativeError	最大相对误差算法。精度比对算法之一，计算结果取值范围为0到无穷大，值越接近于0，表明越相近，值越大，表明差距越大。
MeanAbsoluteError	平均绝对误差算法。精度比对算法之一，计算结果取值范围为0到无穷大。 MeanAbsoluteError趋于0，RootMeanSquareError趋于0，说明测量值与真实值越近似。 MeanAbsoluteError趋于0，RootMeanSquareError越大，说明存在局部过大的异常值。 MeanAbsoluteError越大，RootMeanSquareError等于或近似MeanAbsoluteError，说明整体偏差越集中。 MeanAbsoluteError越大，RootMeanSquareError越大于MeanAbsoluteError，说明存在整体偏差，且整体偏差分布分散。不存在以上情况的例外情况，因为RMSE ≥ MAE恒成立。
MeanRelativeError	平均相对误差算法。精度比对算法之一，计算结果取值范围为0到无穷大，值越接近于0，表明越相近，值越大，表明差距越大。
msproftx	msprof tool extension，MindStudio系统调优工具扩展。
MTE1	Memory Transfer Engine 1，内存传输引擎1。从L1 Buffer拷贝内存。
MTE2	Memory Transfer Engine 2，内存传输引擎2。从DDR或者L2 Buffer拷贝内存。
MTE3	Memory Transfer Engine 3，内存传输引擎3。从UB拷贝内存。
N
NAS	Neural Architecture Search，神经架构搜索。一种自动设计神经网络的技术，可以通过算法根据样本集自动设计出高性能的网络结构，可以有效的降低神经网络的使用和实现成本。
NIC	Network Interface Controller，网络接口控制器。也称为网络接口卡、网络适配器、LAN适配器以及类似术语。是将计算机连接到计算机网络的计算机硬件组件。
NPU	Neural-Network Processing Unit，神经网络处理器单元。采用“数据驱动并行计算”的架构，特别擅长处理视频、图像类的海量多媒体业数据，专门用于处理人工智能应用中的大量计算任务。
O
OP	Operator，算子。操作运算，比如AI的ReLU、Conv、Pooling、Scale、Softmax等。
OPP	Operator Package，算子库。
OS	Operating System，操作系统。

P-T

表4
术语/缩略语	含义
P
PCIe	Peripheral Component Interconnect Express，快捷外围部件互连标准。 PCIe属于高速串行点对点双通道高带宽传输。所连接的设备分配独享通道带宽，不共享总线带宽。主要支持主动电源管理、错误报告、端对端的可靠性传输、热插拔以及服务质量（QOS）等功能。
PctRlt	Percent Result，实际百分比。
PctThd	Percent Threshold，百分比阈值。
PyNative模式	MindSpore的动态图模式，将神经网络中的各个算子逐一下发执行，方便用户编写和调试神经网络模型。
PTQ	训练后量化PTQ（Post-Training Quantization）即训练后量化，训练后量化会量化预训练的浮点模型和使用部分训练数据来校准模型。包含Data-Free和Label-Free算法，这两种训练后量化算法可在昇腾推理平台进行，同时支持有/无校准数据集的PTQ量化场景，可将Float浮点模型转换为定点INT8模型，达到模型压缩、减少计算量、缩短推理时延的目的。 Data-Free量化：无需获取输入数据集，即可对模型进行量化。通过翻转优化权重，多尺度渐进迭代优化的方法在无数据场景实现了有效量化。 Label-Free量化：用户需要提供少量数据集做矫正，相比于无数据量化，Label-Free量化的输入数据符合原数据分布，量化精度会更高。
Q
QAT	量化感知训练QAT（Quantization Aware Training ）即量化感知训练，是在模型中插入伪量化模块（quantizer）模拟量化模型在推理过程中进行的舍入（rounding）和钳位（clamping）操作，从而在训练过程中提高模型对量化效应的适应能力，获得更高的量化模型精度。在这个过程中，所有计算（包括模型正反向传播计算和伪量化节点计算）都是以浮点计算实现的，在训练完成后才量化为真正的INT8模型。
R
RateDiff	Rate Difference，误差比。
RelativeEuclideanDistance	欧氏相对距离算法。精度比对算法之一，计算结果取值范围为0到无穷大，值越接近于0，表明越相近，值越大，表明差距越大。
RoCE	RDMA over Converged Ethernet，部署在以太网上RDMA的网络协议。 RDMA是一种远程内存管理能力，允许不同服务器上应用的内存直接移动数据，不需要CPU的干预。RoCE是一种机制，提供了通信接口带宽数据。
RootMeanSquareError	均方根误差算法。精度比对算法之一，计算结果取值范围为0到无穷大。 MeanAbsoluteError趋于0，RootMeanSquareError趋于0，说明测量值与真实值越近似。 MeanAbsoluteError趋于0，RootMeanSquareError越大，说明存在局部过大的异常值。 MeanAbsoluteError越大，RootMeanSquareError等于或近似MeanAbsoluteError，说明整体偏差越集中。 MeanAbsoluteError越大，RootMeanSquareError越大于MeanAbsoluteError，说明存在整体偏差，且整体偏差分布分散。不存在以上情况的例外情况，因为RMSE ≥ MAE恒成立。
RUNTIME	Runtime运行于APP进程空间，为APP提供了针对昇腾AI处理器的Memory管理、Device管理、Stream管理、Event管理和Kernel执行等功能。
RDMA	Remote Direct Memory Access，远程直接数据存取。使一台计算机可以直接将数据通过网络传送到另一台计算机内存中的功能。
S
Sample-based	Profiling的AICore数据以固定的时间周期（AI Core-Sampling Interval）进行性能数据采集。
SDK	software development kit，软件开发工具包。一般都是一些软件工程师为特定的软件包、软件框架、硬件平台、操作系统等建立应用软件时的开发工具的集合。
StandardDeviation	标准差算法。精度比对算法之一，计算结果取值范围为0到无穷大。标准差越小，离散度越小，表明越接近平均值。该列显示My Output和Ground Truth两组数据的均值和标准差，第一组展示My Output模型dump数据的数值(均值;标准差)，第二组展示Ground Truth模型dump数据的数值（均值;标准差）。
Step Trace	迭代轨迹。包含迭代的正、反向计算开始结束时间、梯度更新以及数据增强拖尾阶段。
ST	System Test，系统测试。系统测试是针对整个产品系统进行的测试，目的是验证系统是否满足了需求规格的定义。
SDMA	System Direct Memory Access，直接存储器访问。 SDMA是一种外设，允许其他外设和内存间直接传输数据，而不依赖系统处理器，释放CPU资源，提高数据传输效率。一个SDMA类型的task只会在一个SDMA channel上执行，HWTS底下管理8个SDMA channel。
T
Task-based	Profiling的AICore数据以task为粒度进行性能数据采集。
TBE	Tensor Boost Engine，张量加速引擎。提供通过Python语言实现算子的接口，能够编译生成CCE算子。
Tensor	张量。 TensorFlow程序中的主要数据结构。张量是N维（其中N可能非常大）数据结构，最常见的是标量、向量或矩阵。张量的元素可以包含整数值、浮点值或字符串值。
Tensor比对	张量比对。两个张量之间进行不同算法评价指标的数据比对操作，支持整网比对和单算子比对。
TIK	Tensor Iterator Kernel，张量嵌套内核。算子开发方式之一，调用TIK提供的API基于Python语言编写自定义算子，TIK编译器会将其编译为适配昇腾AI处理器应用程序的二进制文件。
TransData	格式转换算子。
TS	Task Scheduler，任务调度。通过Task Schedule分发不同的kernel到AI CPU/AI Core执行。
图模式	MindSpore的静态图模式，将神经网络模型编译成一整张图，然后下发执行。该模式利用图优化等技术提高运行性能，同时有助于规模部署和跨平台运行。

U-Z

表5
术语/缩略语	含义
U
UT	Unit Test，单元测试。单元测试是在软件开发过程中要进行的最低级别的测试活动，在单元测试活动中，软件的独立单元将在与程序的其他部分相隔离的情况下进行测试。
V
VECTOR	向量运算。
Z
整网比对	精度比对工具里Tensor比对的一种方式。对网络模型中参与计算的所有算子进行精度比对。