下载
中文
注册

文本推理样例

带后处理性能测试样例

# Engine模式 文本推理
SMPL_PARAM='{\"temperature\":0.5,\"top_k\":10,\"top_p\":0.9,\"typical_p\":0.9,\"seed\":1234,\"repetition_penalty\":1,\"watermark\":true}'
benchmark \
--DatasetPath "/{数据集路径}/GSM8K/" \
--DatasetType "gsm8k" \
--ModelName llama2-7b \
--ModelPath "/{模型权重路径}/LLaMA3-8B/" \
--TestType engine \
--Tokenizer True \
--Concurrency 128 \
--MaxOutputLen 512 \
--DoSampling True \
--SamplingParams=$SMPL_PARAM

Engine文本推理模式输出结果如图1所示:

图1 Engine文本推理模式

不带后处理性能测试样例

# Engine模式 文本推理
benchmark \
--DatasetPath "/{数据集路径}/CEval" \
--DatasetType "ceval" \
--ModelName "baichuan2_13b" \
--ModelPath "/{模型权重路径}/baichuan2-13b" \
--TestType engine \
--Concurrency 50 \
--MaxOutputLen 512 \
--Tokenizer True

精度测试样例

  • 使用CEval或MMLU数据集计算精度时,MaxOutputLen的值不应设置太大,比如设置为20即可。
  • MindIE Server的config.json配置文件中maxSeqLen参数的值一般根据数据序列长度设置。
    • 对于CEval数据集,maxSeqLen的参考值为3072;
    • 对于MMLU数据集,maxSeqLen的参考值为3600,该数据集中有约为1.4w条数据,推理耗时会比较长。

样例如下所示:

benchmark \
--DatasetPath "/{数据集路径}/CEval" \
--DatasetType "ceval" \
--ModelName "baichuan2_13b" \
--ModelPath "/{模型权重路径}/baichuan2-13b" \
--TestType engine \
--Concurrency 1 \
--MaxOutputLen 20 \
--Tokenizer True \
--TestAccuracy True