causal Encoder-Only，Transformer架构，位置编码、激活函数与归一化技术同LLAMA1，使用的依旧是RoPE、SwiGLU与RMSNorm。但是在与 LLaMA1 进行对比时，主要的差异在于上下文长度与加入了分组查询注意力（GQA）：

LLAMA2 的上下文长度窗口从2048个标记扩展到了4096个字符。当上下文窗口越长时，模型处理的信息就会越多，在聊天场景中就能处理越长的记录、理解更长的文档。
自回归模型生成回答时，需要前面生成的KV缓存起来，来加速计算。多头注意力机制(MHA)需要的缓存量很大，Multi-Query Attention指出多个头之间可以共享KV对。Group Query Attention没有像MQA一样极端，将query分组，组内共享KV，效果接近MQA，速度上与MQA可比较。GQA算是MHA与MQA的折中方式，既能保证性能又能保证共享KV带来的速度提升。

模型概述