下载
中文
注册

使用样例

限制与约束

  • Atlas 800I A2 推理产品 支持此特性。
  • LLaMa3.1-70b浮点模型 和Qwen2-72B 浮点模型支持对接此特性。
  • 暂不支持与LoRA特性配合。
  • 该特性不能和PD分离特性同时使用。

操作步骤

本章节简单介绍如何使用Splitfuse功能。

  1. 配置MindIE Server的config.json配置文件,参数解释请参见配置说明
    cd ${mindie-service安装路径}
    vi conf/config.json

    SplitFuse特性必须额外配置的参数如下:

    • 在ModelDeployConfig中的“ModelConfig”下添加:
      "plugin_params": "{\"plugin_type\":\"splitfuse\"}"
    • 在ScheduleConfig中修改“templateType”参数为Mix:
      "templateType": "Mix",
    • 在ScheduleConfig中设置“policyType”参数,详细策略请参见配置说明
      "policyType": 0,
    • 在ScheduleConfig中添加SplitFuse相关的关键参数:
      "enableSplit": true,
      "splitType": false,
      "splitStartType": false,
      "splitChunkTokens": 512,
      "splitStartBatchSize": 16

    保存修改后的配置并启动服务化:

    ./bin/mindieservice_daemon
  2. 使用以下样例启动Benchmark。
    benchmark \
    --DatasetPath "/{数据集路径}/GSM8K" \
    --DatasetType "gsm8k" \
    --ModelName "baichuan2_13b" \
    --ModelPath "/{模型路径}/baichuan2-13b" \
    --TestType client \
    --Http https://{ipAddress}:{port} \
    --ManagementHttp https://{managementIpAddress}:{managementPort} \
    --MaxOutputLen 512

    Benchmark输出结果如下所示: