术语&缩略语
术语/缩略语 |
含义 |
---|---|
num_tokens |
为batch个seqLen的和。 |
batch |
|
mask |
mask掩码是一种关键机制,用于控制哪些输入元素或位置可以被模型注意到,保证模型生成的每个词只依赖于它之前的词。 |
maxSeqLen |
seqlen的最大值。 |
seqLen |
是 sequence length(序列长度) 的缩写,表示输入或输出序列中包含的token的数量。 例如,对于 "Hello world" 的输入,分词后可能得到一个长度为 2 的序列。 |
hiddenSize |
为多头注意力的头数head_num 乘以 head_size。 |
block_size |
指PagedAttention在注意力计算中划分的每个子块的长度或大小。 |
blockTables |
包含token索引和block索引的映射关系,用于PagedAttention高效地管理序列在分块后的kvcache数据,方便在注意力计算中快速定位和操作这些块。 |
head_size |
指每个注意力头中qkv向量的维度大小。 |
headDim |
就是head_size。 |