术语&缩略语

术语/缩略语	含义
num_tokens	为batch个seqLen的和。
batch	单样本推理：如果每次推理只传入一个样本，这种方式称为单样本推理（单独处理输入）。示例：输入一张图片或一个句子，让模型预测结果。批量推理：如果一次传入多个样本组成的批量（batch），模型会同时对多个样本进行推理。示例：输入 32 张图片或 32 个句子，让模型并行预测所有结果。
mask	mask掩码是一种关键机制，用于控制哪些输入元素或位置可以被模型注意到，保证模型生成的每个词只依赖于它之前的词。
maxSeqLen	seqlen的最大值。
seqLen	是 sequence length（序列长度）的缩写，表示输入或输出序列中包含的token的数量。例如，对于 "Hello world" 的输入，分词后可能得到一个长度为 2 的序列。
hiddenSize	为多头注意力的头数head_num 乘以 head_size。
block_size	指PagedAttention在注意力计算中划分的每个子块的长度或大小。
blockTables	包含token索引和block索引的映射关系，用于PagedAttention高效地管理序列在分块后的kvcache数据，方便在注意力计算中快速定位和操作这些块。
head_size	指每个注意力头中qkv向量的维度大小。
headDim	就是head_size。