模型概述

模型结构

decoder-only的架构在Bloom模型中被采用，论文中提到其效果优于encoder-decoder的架构，另两个比较重要的模型细节是ALiBi位置嵌入编码与嵌入式LayerNorm。嵌入层归一化。在嵌入层后添加了额外的层归一化层，显著提高了训练的稳定性。

点击放大

位置编码

相比于在embedding层添加位置信息，ALiBi直接基于keys和queries的距离来衰减注意力分数。具体来说，ALiBi根据keys和queries的相对距离来消减attention的分数。给定一个长度为 L的输入序列，那么每个注意力头的第i个query 针对前i个key K的注意力分数为点击放大。

在使用ALiBi时候不需要向网络中增加位置嵌入，仅需要在query-key点积中添加静态偏差即可。[-(i-1),...,-2,-1,0]其实就是与各个key的相对距离。Bloom多头注意力就是在标准多头注意力上添加ALiBi。

训练方式

bloom-7B在AscendSpeed仓上训练时使用的并行化技术比较丰富：

Tensor Parallelism、Pipeline Paralielism、Sequence Parallelism
ZeRO（零冗余优化）、重计算

AscendSpeed 实现了3D并行。

数据并行（Data Parallelism, DP），相同的setting ups 和模型被复制多份，每份每次通信不同的一份数据，处理并行完成，所有份在每个训练步骤结束后同步。
张量并行（Tensor Parallelism, TP），每个tensor被分片成多块，每一块被固定分配到对应的卡上，每一步中，每一份在各自的卡上并行处理
流水线并行（Pipeline Parallelism, PP），模型在多张卡上按layer拆分，因此只有一个或多个layer放置在单张卡上，每张卡并行处理流水线的不同阶段，并处理batch的一部分数据。具体的实现过程可以参照第二节分布式技术的讲解。

父主题： BLOOM模型