使用样例

限制与约束

仅 Atlas 800I A2 推理产品支持此特性。
LLaMa3.1-70b浮点模型和Qwen2-72B 浮点模型支持对接此特性。
暂不支持与LoRA特性配合。
该特性不能和PD分离特性同时使用。

操作步骤

本章节简单介绍如何使用Splitfuse功能。

配置MindIE Server的config.json配置文件，参数解释请参见配置说明。
```
cd ${mindie-service安装路径}
vi conf/config.json
```
SplitFuse特性必须额外配置的参数如下：
- 在ModelDeployConfig中的“ModelConfig”下添加：
```
"plugin_params": "{\"plugin_type\":\"splitfuse\"}"
```
- 在ScheduleConfig中修改“templateType”参数为Mix：
```
"templateType": "Mix",
```
- 在ScheduleConfig中设置“policyType”参数，详细策略请参见配置说明。
```
"policyType": 0,
```
- 在ScheduleConfig中添加SplitFuse相关的关键参数：
```
"enableSplit": true,
"splitType": false,
"splitStartType": false,
"splitChunkTokens": 512,
"splitStartBatchSize": 16
```
保存修改后的配置并启动服务化：
```
./bin/mindieservice_daemon
```

使用以下样例启动Benchmark。

benchmark \
--DatasetPath "/{数据集路径}/GSM8K" \
--DatasetType "gsm8k" \
--ModelName "baichuan2_13b" \
--ModelPath "/{模型路径}/baichuan2-13b" \
--TestType client \
--Http https://{ipAddress}:{port} \
--ManagementHttp https://{managementIpAddress}:{managementPort} \
--MaxOutputLen 512

Benchmark输出结果如下所示：

父主题： Splitfuse