causal Encoder-Only,Transformer架构,位置编码、激活函数与归一化技术同LLAMA1,使用的依旧是RoPE、SwiGLU与RMSNorm。但是在与 LLaMA1 进行对比时,主要的差异在于上下文长度与加入了分组查询注意力(GQA):
- LLAMA2 的上下文长度窗口从2048个标记扩展到了4096个字符。当上下文窗口越长时,模型处理的信息就会越多,在聊天场景中就能处理越长的记录、理解更长的文档。
- 自回归模型生成回答时,需要前面生成的KV缓存起来,来加速计算。多头注意力机制(MHA)需要的缓存量很大,Multi-Query Attention指出多个头之间可以共享KV对。Group Query Attention没有像MQA一样极端,将query分组,组内共享KV,效果接近MQA,速度上与MQA可比较。GQA算是MHA与MQA的折中方式,既能保证性能又能保证共享KV带来的速度提升。
