模型概述

causal Encoder-Only,Transformer架构,位置编码、激活函数与归一化技术同LLAMA1,使用的依旧是RoPE、SwiGLU与RMSNorm。但是在与 LLaMA1 进行对比时,主要的差异在于上下文长度与加入了分组查询注意力(GQA):