查询模型配置数据

接口功能

查询模型配置数据信息。

接口格式

操作类型：GET

URL：https://{ip}:{port}/v2/models/${MODEL_NAME}[/versions/${MODEL_VERSION}]/config

{ip}和{port}请使用业务面的IP地址和端口号，即“ipAddress”和“port”。
${MODEL_NAME}字段指定需要查询的模型名称。
[/versions/${MODEL_VERSION}]字段暂不支持，不传递。

请求参数

无

使用样例

请求样例：

GET https://{ip}:{port}/v2/models/llama_65b/config

响应样例：

{
    "model_name": "llama_65b",
    "input_datatype": "INT64",
    "output_datatype": "INT64",
    "max_seq_len": 2560,
    "npu_mem_size": 8,
    "cpu_mem_size": 5,
    "world_size": 8,
    "model_weight_path": "llama1-65b-safetensors",
    "model_instance_type": "Standard"
}

响应状态码：200

输出说明

参数	类型	说明
model_name	string	推理选取的模型名字。
input_datatype	string	输入的数据类型。
output_datatype	string	输出的数据类型。
max_seq_len	int	最大序列长度。
npu_mem_size	int	NPU中可以用来申请KV Cache的size上限。
cpu_mem_size	int	CPU中可以用来申请KV Cache的size上限。
world_size	int	使用几张卡进行推理。
model_weight_path	string	模型权重文件路径的最后一层级目录名称。
model_instance_type	string	模型类型。

父主题： 兼容Triton接口