文档
注册

模型概述

模型结构

decoder-only的架构在Bloom模型中被采用,论文中提到其效果优于encoder-decoder的架构,另两个比较重要的模型细节是ALiBi位置嵌入编码与嵌入式LayerNorm。嵌入层归一化。在嵌入层后添加了额外的层归一化层,显著提高了训练的稳定性。

位置编码

相比于在embedding层添加位置信息,ALiBi直接基于keys和queries的距离来衰减注意力分数。具体来说,ALiBi根据keys和queries的相对距离来消减attention的分数。给定一个长度为 L的输入序列,那么每个注意力头的第i个query 针对前i个key K的注意力分数为

在使用ALiBi时候不需要向网络中增加位置嵌入,仅需要在query-key点积中添加静态偏差即可。[-(i-1),...,-2,-1,0]其实就是与各个key的相对距离。Bloom多头注意力就是在标准多头注意力上添加ALiBi。

训练方式

bloom-7B在AscendSpeed仓上训练时使用的并行化技术比较丰富:

  • Tensor Parallelism、Pipeline Paralielism、Sequence Parallelism
  • ZeRO(零冗余优化)、重计算

AscendSpeed 实现了3D并行。

  • 数据并行(Data Parallelism, DP),相同的setting ups 和模型被复制多份,每份每次通信不同的一份数据,处理并行完成,所有份在每个训练步骤结束后同步。
  • 张量并行(Tensor Parallelism, TP),每个tensor被分片成多块,每一块被固定分配到对应的卡上,每一步中,每一份在各自的卡上并行处理
  • 流水线并行(Pipeline Parallelism, PP),模型在多张卡上按layer拆分,因此只有一个或多个layer放置在单张卡上,每张卡并行处理流水线的不同阶段,并处理batch的一部分数据。具体的实现过程可以参照第二节分布式技术的讲解。

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词