在深度学习领域,Transformer模型因其卓越的性能而广泛应用于自然语言处理、语音识别和计算机视觉等多个领域。然而,当处理长序列数据时,其 SelfAttention 机制的时间与空间复杂度随序列长度呈平方增长,导致计算时间和内存消耗显著增加,成为 Transformer 模型进一步演进的桎梏。为此,近似注意力方法应运而生,旨在通过削减计算量与内存使用以提速模型处理,却潜藏降低模型质量的风险。此类方法常通过牺牲 SelfAttention 计算精度、实施稀疏注意力机制或引入替代注意力模式以减小复杂度,但伴随而来的是模型效能的潜在折损,尤其在细节敏感任务中影响更为显著。
为了克服上述挑战,引入了Flash Attention技术。Flash Attention是一种高效的注意力机制,旨在在保持模型性能的同时,显著降低Transformer模型在处理长序列时的计算时间和内存开销。加速注意力的关键在于优化IO访存,即降低片上内存的读/写次数。
关于Flash Attention更多信息可参考FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness。
本方法适用于self-attention相关模型,尤其适用于长序列输入场景。
设置如下参数即可调用该算法:
--use-flash-attn
在模型训练时间、模型质量等方面可以提升性能。