下载
中文
注册

Slot统计接口

接口功能

参考Triton格式,自定义的slot统计信息查询接口。

接口格式

操作类型:GET

URL:https://{ip}:{port}/v2/models/${MODEL_NAME}[/versions/${MODEL_VERSION}]/getSlotCount

  • {ip}字段优先读取环境变量值MIES_CONTAINER_MANAGEMENT_IP;如果没有该环境变量,则取配置文件的“managementIpAddress”参数;如果配置文件中没有“managementIpAddress”参数,则取配置文件的“ipAddress”参数。
  • {port}字段优先读取配置文件的“managementPort”参数;如果配置文件中没有“managementPort”参数,则取配置文件的“port”参数。
  • ${MODEL_NAME}字段指定需要查询的模型名称。
  • [/versions/${MODEL_VERSION}]字段暂不支持,不传递。

请求参数

使用样例

请求样例:

GET https://{ip}:{port}/v2/models/llama_65b/getSlotCount

响应样例:

{
    "total_slots": 50,
    "free_slots": 50,
    "available_tokens_length": 30720
}

响应状态码:200

输出说明

返回值

类型

说明

total_slots

int

推理服务支持的最大batch_size,取值为配置文件中maxBatchSize字段。

free_slots

int

当前剩余slots字段,通过调度模块管理的参数获取。

available_tokens_length

int

KV Cache剩余的可放token数。