算法介绍

Adapter结构本质是一个Bottleneck层，包含降维全连接层（adapter_down_proj）、激活层（adapter_non_linear）、升维全连接层（adapter_up_proj）、以及残差连接。

具体来说，对每个Transformer Layer，在多头注意力模块后的Feed-forward Layer以及两个Feed-forward Layer的后面，添加Adapter结构，然后冻结预训练模型的参数只更新Adapter结构参数。

实验结果表明，添加了Adapter结构的Transformer模型，在仅训练少数参数情况下，微调后精度近似全参微调。

算法原理如图1所示，算法具体细节可参考相关论文Parameter-Efficient Transfer Learning for NLP。

图1 算法原理

Adapter结构算法原理图：在Feed-forward Layer后接一个Adapter结构，该结构包含降维全连接层、激活层、升维全连接层以及残差连接。

父主题： Adapter算法