总体说明
Client推理模式在运行前,需要启动MindIE Server的服务。
使用以下命令启动MindIE Server服务。
cd $MIES_INSTALL_PATH/ ./bin/mindieservice_daemon
显示如下则说明启动成功。
Daemon start success!
Client推理模式运行时,会调用MindIE Client相应的接口向MindIE Server Endpoint发送推理请求并进行打点统计。
支持开启或关闭--DoSampling两种模式,开启DoSampling时,需要配合--SamplingParams传入采样参数,否则使用如下默认采样参数:
DEFAULT_SMPL_PARAM = { "temperature": 0.5, "top_k": 10, "top_p": 0.9, "typical_p": 0.9, "seed": 1, "repetition_penalty": 1, "watermark": True, "truncate": 5 }
client模式下,并发数为影响性能(吞吐量及平均Decode时间)的关键指标,根据用户的不同需求,初步选取标准如下:
- 提高系统吞吐量(QPS):适当提高并发数可以提高。
- 提高系统的平均非首token时间:随着并发数增大,非首token的Decode时间会增加,卡非首token时间时可以设定一个较小的并发数,baichuan2-13b并发数参考设定为64或更小的数值(卡50ms平均Decode时间),llama-65b及类似大小模型的参考并发数为16/32。
此外,Endpoint启动前还需要根据模型权重计算合适的npuMemsize以获得最佳性能,具体配置方法请参见性能调优流程。
Client推理模式输出结果如图1所示:
父主题: Client推理模式