下载
中文
注册

规格约束

  • 因硬件限制,block_size %16 == 0,推荐 block_size = 128。
  • 开启并行解码功能时,blockSize <= 128。
  • blockTables中元素的值须在[0, num_blocks)之间。
  • head_size 范围(0, 256]。
  • query、keyCache、valueCache、maskTensor 四个入参在Atlas 推理系列产品上 只支持float16。
  • Atlas 推理系列产品上 0<batch<=2000。
  • 并行解码场景、量化场景、以及Atlas 推理系列产品上,keyCache,valueCache的headsize等长,范围为(0, 256],且block_size * head_size ≤ 128 * 128,否则keyCache,valueCache的head_size可以不相同,范围为(0, 576],当keyCache或valueCache的head_size > 256时,block_size小于等于128。
  • 针对mask类型,如果原模型非alibi,且mask没有做padding,可选择“maskType”为UNDEFINED,即不传mask;其他情况则依据原生模型的配置,选择“maskType”是MASK_TYPE_NORM或MASK_TYPE_ALIBI。
  • BNSD不支持PA_ENCODER。