文档
注册

算法介绍

Adapter结构本质是一个Bottleneck层,包含降维全连接层(adapter_down_proj)、激活层(adapter_non_linear)、升维全连接层(adapter_up_proj)、以及残差连接。

具体来说,对每个Transformer Layer,在多头注意力模块后的Feed-forward Layer以及两个Feed-forward Layer的后面,添加Adapter结构,然后冻结预训练模型的参数 只更新Adapter结构参数。

实验结果表明,添加了Adapter结构的Transformer模型,在仅训练少数参数情况下,微调后精度近似全参微调。

算法原理如图1所示,算法具体细节可参考相关论文Parameter-Efficient Transfer Learning for NLP

图1 算法原理

Adapter结构算法原理图:在Feed-forward Layer后接一个Adapter结构,该结构包含降维全连接层、激活层、升维全连接层以及残差连接。

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词