下载
中文
注册

查询模型配置数据

接口功能

查询模型配置数据信息。

接口格式

操作类型:GET

URL:https://{ip}:{port}/v2/models/${MODEL_NAME}[/versions/${MODEL_VERSION}]/config

  • {ip}{port}请使用业务面的IP地址和端口号,即“ipAddress”“port”
  • ${MODEL_NAME}字段指定需要查询的模型名称。
  • [/versions/${MODEL_VERSION}]字段暂不支持,不传递。

请求参数

使用样例

请求样例:

GET https://{ip}:{port}/v2/models/llama_65b/config

响应样例:

{
    "model_name": "llama_65b",
    "input_datatype": "INT64",
    "output_datatype": "INT64",
    "max_seq_len": 2560,
    "npu_mem_size": 8,
    "cpu_mem_size": 5,
    "world_size": 8,
    "model_weight_path": "llama1-65b-safetensors",
    "model_instance_type": "Standard"
}

响应状态码:200

输出说明

参数

类型

说明

model_name

string

推理选取的模型名字。

input_datatype

string

输入的数据类型。

output_datatype

string

输出的数据类型。

max_seq_len

int

最大序列长度。

npu_mem_size

int

NPU中可以用来申请KV Cache的size上限。

cpu_mem_size

int

CPU中可以用来申请KV Cache的size上限。

world_size

int

使用几张卡进行推理。

model_weight_path

string

模型权重文件路径的最后一层级目录名称。

model_instance_type

string

模型类型。