查询模型配置数据信息。
操作类型:GET
URL:https://{ip}:{port}/v2/models/${MODEL_NAME}[/versions/${MODEL_VERSION}]/config
无
请求样例:
GET https://{ip}:{port}/v2/models/llama_65b/config
响应样例:
{ "model_name": "llama_65b", "input_datatype": "INT64", "output_datatype": "INT64", "max_seq_len": 2560, "npu_mem_size": 8, "cpu_mem_size": 5, "world_size": 8, "model_weight_path": "llama1-65b-safetensors", "model_instance_type": "Standard" }
响应状态码:200
参数 |
类型 |
说明 |
---|---|---|
model_name |
string |
推理选取的模型名字。 |
input_datatype |
string |
输入的数据类型。 |
output_datatype |
string |
输出的数据类型。 |
max_seq_len |
int |
最大序列长度。 |
npu_mem_size |
int |
单个NPU中可以用来申请KV Cache的size上限,单位GB。 |
cpu_mem_size |
int |
单个CPU中可以用来申请KV Cache的size上限,单位GB。 |
world_size |
int |
使用几张卡进行推理。 |
model_weight_path |
string |
模型权重文件路径的最后一层级目录名称。 |
model_instance_type |
string |
模型类型。 |