提供Token推理处理功能。
操作类型:POST
URL:https://{ip}:{port}/v2/models/${MODEL_NAME}[/versions/${MODEL_VERSION}]/infer
参数 |
是否必选 |
说明 |
取值范围 |
---|---|---|---|
id |
可选 |
推理请求id。 |
字符串。 |
inputs |
必选 |
只有一个元素的数组。 |
- |
outputs |
必选 |
推理结果输出结构。 |
object。 |
参数 |
是否必选 |
说明 |
取值范围 |
---|---|---|---|
name |
必选 |
输入名称,固定"input0"。 |
"input0"。 |
shape |
必选 |
参数维度,1行,n列,和data长度相关。 |
(0, len(data)]。 |
dataType |
必选 |
data数据类型,目前场景仅支持UINT32,传递tokenid。 |
“UINT32”。 |
seed |
可选 |
用于指定推理过程的随机种子,相同的seed值可以确保推理结果的可重现性,不同的seed值会提升推理结果的随机性。 |
uint_64类型,取值范围,(0, 18446744073709551615],不传递该参数,系统会产生一个随机seed值。 |
temperature |
可选 |
控制生成的随机性,较高的值会产生更多样化的输出。 |
float类型,大于0,默认值1.0。
|
top_k |
可选 |
控制模型生成过程中考虑的词汇范围,只从概率最高的k个候选词中选择。使用限制请参见使用限制。 |
int类型,取值范围[0, 2147483647]&&[0, vocabSize)默认值0。 vocabSize是从modelWeightPath路径下的config.json文件中读取的vocab_size值,若不存在则vocabSize取默认值0。 |
top_p |
可选 |
控制模型生成过程中考虑的词汇范围,使用累计概率选择候选词,直到累计概率超过给定的阈值。该参数也可以控制生成结果的多样性,它基于累积概率选择候选词,直到累计概率超过给定的阈值为止。 |
float类型,取值范围(0, 1],默认值1.0。 |
do_sample |
可选 |
是否做sampling。 |
bool类型,默认值false。 |
repetition_penalty |
可选 |
重复惩罚用于减少在文本生成过程中出现重复片段的概率。它对之前已经生成的文本进行惩罚,使得模型更倾向于选择新的、不重复的内容。 |
float类型,大于0,默认值1.0。
|
max_new_tokens |
可选 |
允许的最大新标记数目。控制从模型生成的文本中添加到最终输出中的最大词汇数量。该字段受到GIMIS配置文件maxIterTimes参数影响,推理token输出长度<=maxIterTimes。 |
int类型,取值范围(0, maxIterTimes]。默认值20。 |
参数 |
是否必选 |
说明 |
取值范围 |
---|---|---|---|
name |
必选 |
推理结果输出名。 |
只支持"output0"。 |
[/versions/${MODEL_VERSION}]字段暂不支持,不传递。
请求样例:
POST https://<ip>:<port>/v2/models/llama_65b/infer
请求消息体:
{ "id": "42", "inputs": [{ "name": "input0", "shape": [ 1, 10 ], "datatype": "UINT32", "data": [ 396, 319, 13996, 29877, 29901, 29907, 3333, 20718, 316, 23924 ], "parameters": { "temperature": 0.5, "top_k": 10, "top_p": 0.95, "do_sample": true, "seed": null, "repetition_penalty": 1.03, "max_new_tokens": 512 } }], "outputs": [{ "name": "output0" }] }
响应样例:
{ "id": "42", "outputs": [{ "name": "output0", "shape": [1, 512], "datatype": "UINT32", "data": [1, 396, 319, 13996, 29877, 29901, 29907, 3333, 20718, 316, 23924, 562, 2142, 1702, 425, 14015, 16060, 316, 383, 19498, 316, 29871, 29896, 29929, 29929, 29900, 13, 13, 5661, 22215, 20718, 316, 23924, 562, 2142, 1702, 425, 14015, 16060, 316, 383, 19498, 316, 29871, 29896, 29929, 29929, 29900, 3576, 560, 23300, 712, 11806, 29980, 263, 1232, 22215, 928, 2255, 1277, 3810, 316, 425, 10811, 287, 1572, 1290, 316, 383, 19498, 316, 21035, 29892, 18726, 314, 10820, 343, 560, 1704, 18673, 313, 1168, 29883, 562, 2142, 29897, 263, 425, 14015, 16060, 316, 383, 19498, 316, 29871, 29896, 29929, 29929, 29900, 29892, 712, 409, 25001, 29980, 427, 12201, 29889, 13, 13, 2525, 3001, 316, 29871, 29896, 29953, 16954, 14980, 12306, 267, 316, 29345, 316, 19537, 628, 21035, 29892, 19537, 8068, 343, 560, 1704, 18673, 752, 277, 10243, 1277, 3248, 2174, 16095, 1513, 294, 1702, 560, 28743, 316, 29345, 29889, 1260, 23300, 27712, 560, 29871, 29941, 316, 9019, 316, 29871, 29896, 29929, 29947, 29947, 343, 2186, 466, 29980, 560, 29871, 29906, 29945, 316, 9350, 316, 29871, 29896, 29929, 29947, 29929, 29889, 13, 13, 2277, 317, 28474, 316, 5100, 6396, 13, 13, 6489, 23300, 1040, 29980, 316, 9941, 24627, 294, 29889, 1174, 425, 8633, 364, 14287, 29892, 1869, 29871, 29896, 29953, 16954, 14980, 5221, 3794, 12004, 25227, 8817, 427, 19545, 26161, 29892, 3248, 316, 21135, 316, 19545, 7462, 359, 343, 1232, 11929, 3248, 316, 9941, 29889, 4602, 3248, 27141, 7245, 5114, 316, 9747, 12249, 1029, 4096, 5022, 263, 425, 17329, 364, 14287, 29892, 8334, 1232, 29871, 29947, 7462, 359, 5221, 3794, 12004, 25227, 4396, 427, 3248, 26161, 316, 19545, 29889, 4602, 3248, 27141, 316, 9747, 12249, 1029, 4096, 5022, 263, 425, 1935, 23322, 364, 14287, 29892, 8334, 1232, 29871, 29946, 7462, 359, 5221, 3794, 12004, 25227, 4396, 427, 443, 6651, 12249, 29889, 4602, 3248, 27141, 22215, 928, 5022, 263, 425, 14015, 16060, 316, 383, 19498, 316, 29871, 29896, 29929, 29929, 29900, 29889, 13, 13, 2277, 11243, 666, 359, 5221, 3794, 13, 13, 2369, 18580, 4244, 29892, 1232, 7462, 359, 9512, 3794, 29889, 13, 13, 2277, 22915, 364, 14287, 13, 13, 2277, 29937, 5430, 1129, 29871, 29896, 13, 13, 29286, 28122, 409, 8740, 5022, 427, 1605, 262, 2368, 343, 22354, 4425, 29889, 13, 13, 2277, 29937, 5430, 1129, 29871, 29906, 13, 13, 29286, 28122, 409, 8740, 5022, 427, 21810, 26421, 29889, 13, 13, 2277, 29937, 5430, 1129, 29871, 29941, 13, 13, 29286, 28122, 409, 8740, 5022, 427, 9145, 29976, 29889, 13, 13, 2277, 29937, 5430, 1129, 29871, 29946, 13, 13, 29286, 28122, 409, 8740, 5022, 427, 14756, 29889, 13, 13, 2277, 24153, 364, 14287, 13, 13, 2277, 29937, 5430, 1129, 29871, 29896, 13, 13, 29286, 28122, 409, 8740, 5022, 427, 9702, 9726, 29889, 13, 13, 2277, 29937, 5430, 1129, 29871, 29906, 13, 13, 29286, 28122, 409, 8740, 5022, 427, 379, 898, 10939, 29889, 13, 13, 2277, 5061, 23322, 364, 14287, 13, 13, 29286, 28122, 409, 8740, 5022, 427, 9702, 9726, 29889, 13, 13, 2277, 8867, 8795, 13, 13, 29930, 21581, 29889, 510, 448, 2233, 294, 928, 1061, 423, 316, 23924, 562, 2142, 1702, 425, 14015, 16060, 316] }] }
返回值 |
类型 |
说明 |
---|---|---|
id |
string |
请求id。 |
outputs |
list |
推理结果列表。 |
name |
string |
默认"output0"。 |
shape |
list |
结构为[1, n],1表示1维数组,n表示data字段中token结果长度。 |
datatype |
string |
"UINT32"。 |
data |
list |
推理后生成的token id集合。 |