下载
中文
注册

术语&缩略语

术语/缩略语

含义

num_tokens

为batch个seqLen的和。

batch

  • 单样本推理: 如果每次推理只传入一个样本,这种方式称为单样本推理(单独处理输入)。

    示例:输入一张图片或一个句子,让模型预测结果。

  • 批量推理: 如果一次传入多个样本组成的批量(batch),模型会同时对多个样本进行推理。

    示例:输入 32 张图片或 32 个句子,让模型并行预测所有结果。

mask

mask掩码是一种关键机制,用于控制哪些输入元素或位置可以被模型注意到,保证模型生成的每个词只依赖于它之前的词。

maxSeqLen

seqlen的最大值。

seqLen

是 sequence length(序列长度) 的缩写,表示输入或输出序列中包含的token的数量。

例如,对于 "Hello world" 的输入,分词后可能得到一个长度为 2 的序列。

hiddenSize

为多头注意力的头数head_num 乘以 head_size。

block_size

指PagedAttention在注意力计算中划分的每个子块的长度或大小。

blockTables

包含token索引和block索引的映射关系,用于PagedAttention高效地管理序列在分块后的kvcache数据,方便在注意力计算中快速定位和操作这些块。

head_size

指每个注意力头中qkv向量的维度大小。

headDim

就是head_size。