采集静态配置。
操作类型:GET
URL:https://{ip}:{port}/v1/config
无
请求样例:
GET https://{ip}:{port}/v1/config
{ "modelName": "llama_65b", "maxSeqLen": 2560, "npuMemSize": 8, "cpuMemSize": 5, "worldSize": 8, "maxOutputLen": 512, "cacheBlockSize": 128 }
参数 |
类型 |
说明 |
---|---|---|
modelName |
string |
推理选取的模型名字。 |
maxSeqLen |
uint32_t |
最大序列长度。 |
npuMemSize |
uint32_t |
单个NPU中可以用来申请KV Cache的size上限。 |
cpuMemSize |
uint32_t |
CPU中可以用来申请KV Cache的size上限。 |
worldSize |
uint32_t |
使用几张卡进行推理。 |
maxOutputLen |
uint32_t |
最大输出长度。 |
cacheBlockSize |
uint32_t |
KV Cache block的size大小。 |