总体说明

Client推理模式在运行前，需要启动MindIE Server的服务。

使用以下命令启动MindIE Server服务。

cd $MIES_INSTALL_PATH/
./bin/mindieservice_daemon

显示如下则说明启动成功。

Daemon start success!

Client推理模式运行时，会调用MindIE Client相应的接口向MindIE Server Endpoint发送推理请求并进行打点统计。

支持开启或关闭--DoSampling两种模式，开启DoSampling时，需要配合--SamplingParams传入采样参数，否则使用如下默认采样参数：

DEFAULT_SMPL_PARAM = {   
      "temperature": 0.5,      
      "top_k": 10,             
      "top_p": 0.9,               
      "typical_p": 0.9,           
      "seed": 1,                  
      "repetition_penalty": 1,   
      "watermark": True,          
      "truncate": 5 
}

client模式下，并发数为影响性能（吞吐量及平均Decode时间）的关键指标，根据用户的不同需求，初步选取标准如下：

提高系统吞吐量（QPS）：适当提高并发数可以提高。
提高系统的平均非首token时间：随着并发数增大，非首token的Decode时间会增加，卡非首token时间时可以设定一个较小的并发数，baichuan2-13b并发数参考设定为64或更小的数值（卡50ms平均Decode时间），llama-65b及类似大小模型的参考并发数为16/32。

此外，Endpoint启动前还需要根据模型权重计算合适的npuMemsize以获得最佳性能，具体配置方法请参见性能调优流程。

Client推理模式输出结果如图1所示：

图1 Client文本流式推理模式

MindIE Benchmark的Client推理模式输出参数说明请参见表1和表2。

父主题： Client推理模式