规格约束
- 因硬件限制,block_size %16 == 0,推荐 block_size = 128。
- 开启并行解码功能时,blockSize <= 128。
- blockTables中元素的值须在[0, num_blocks)之间。
- head_size 范围(0, 256]。
- query、keyCache、valueCache、maskTensor 四个入参在
Atlas 推理系列产品 上 只支持float16。 Atlas 推理系列产品 上 0<batch<=2000。- 并行解码场景、量化场景、以及
Atlas 推理系列产品 上,keyCache,valueCache的headsize等长,范围为(0, 256],且block_size * head_size ≤ 128 * 128,否则keyCache,valueCache的head_size可以不相同,范围为(0, 576],当keyCache或valueCache的head_size > 256时,block_size小于等于128。 - 针对mask类型,如果原模型非alibi,且mask没有做padding,可选择“maskType”为UNDEFINED,即不传mask;其他情况则依据原生模型的配置,选择“maskType”是MASK_TYPE_NORM或MASK_TYPE_ALIBI。
- BNSD不支持PA_ENCODER。