查询模型配置数据

接口功能

查询模型配置数据信息。

接口格式

操作类型:GET

URL:https://{ip}:{port}/v2/models/${MODEL_NAME}[/versions/${MODEL_VERSION}]/config

请求参数

URL中${MODEL_NAME}字段指定需要查询的模型名称。

[/versions/${MODEL_VERSION}]字段暂不支持,不传递。

使用样例

请求样例:

GET https://<ip>:<port>/v2/models/llama_65b/config

响应样例:

{
 "model_name": "llama_65b",
 "input_datatype": "INT64",
 "output_datatype": "INT64",
 "max_seq_len": 2560,
 "eos_token_id": "2",
 "npu_mem_size": 8,
 "cpu_mem_size": 5,
 "world_size": 8,
 "model_weight_path": "/home/data/llama1-65b-safetensors",
 "model_instance_type": "Target_model"
}

响应状态码:200

输出说明

参数

类型

说明

model_name

string

推理选取的模型名字。

input_datatype

string

输入的数据类型。

output_datatype

string

输出的数据类型。

max_seq_len

int

最大序列长度。

eos_token_id

string

序列结束token。

npu_mem_size

int

NPU中可以用来申请kv cache的size上限。

cpu_mem_size

int

CPU中可以用来申请kv cache的size上限。

world_size

int

使用几张卡进行推理。

model_weight_path

string

模型权重路径。

model_instance_type

string

模型类型。