查询模型配置数据
接口功能
查询模型配置数据信息。
接口格式
操作类型:GET
URL:https://{ip}:{port}/v2/models/${MODEL_NAME}[/versions/${MODEL_VERSION}]/config

- {ip}和{port}请使用业务面的IP地址和端口号,即“ipAddress”和“port”。
- ${MODEL_NAME}字段指定需要查询的模型名称。
- [/versions/${MODEL_VERSION}]字段暂不支持,不传递。
请求参数
无
使用样例
请求样例:
GET https://{ip}:{port}/v2/models/llama_65b/config
响应样例:
{ "model_name": "llama_65b", "input_datatype": "INT64", "output_datatype": "INT64", "max_seq_len": 2560, "npu_mem_size": 8, "cpu_mem_size": 5, "world_size": 8, "model_weight_path": "llama1-65b-safetensors", "model_instance_type": "Standard" }
响应状态码:200
输出说明
参数 |
类型 |
说明 |
---|---|---|
model_name |
string |
推理选取的模型名字。 |
input_datatype |
string |
输入的数据类型。 |
output_datatype |
string |
输出的数据类型。 |
max_seq_len |
int |
最大序列长度。 |
npu_mem_size |
int |
NPU中可以用来申请KV Cache的size上限。 |
cpu_mem_size |
int |
CPU中可以用来申请KV Cache的size上限。 |
world_size |
int |
使用几张卡进行推理。 |
model_weight_path |
string |
模型权重文件路径的最后一层级目录名称。 |
model_instance_type |
string |
模型类型。 |
父主题: 兼容Triton接口