输出参数的统计指标如表1和表2所示,部分统计指标解释如下所示:
参数 |
说明(average) |
说明(max) |
说明(min) |
说明(P75) |
说明(P90) |
说明(SLO_P90) |
说明(P99) |
说明(N) |
---|---|---|---|---|---|---|---|---|
FirstTokenTime |
首个token平均时延,单位(ms) |
首个token最大时延,单位(ms) |
首个token最小时延,单位(ms) |
首个token75分位时延,单位(ms) |
首个token90分位时延,单位(ms) |
首个token90分位时延,单位(ms) |
首个token99分位时延,单位(ms) |
测试数据量,来源于输入参数 |
DecodeTime |
Decode阶段平均时延,单位(ms) |
最大Decode阶段时延,单位(ms) |
最小Decode阶段时延,单位(ms) |
75分位Decode阶段时延,单位(ms) |
90分位Decode阶段时延,单位(ms) |
90分位每条请求Decode阶段平均时延,单位(ms) |
99分位Decode阶段时延,单位(ms) |
测试数据量,来源于输入参数 |
LastDecodeTime |
最后一个token平均时延,单位(ms) |
最后一个token最大时延,单位(ms) |
最后一个token最小时延,单位(ms) |
最后一个token75分位时延,单位(ms) |
最后一个token90分位时延,单位(ms) |
最后一个token90分位时延,单位(ms) |
最后一个token99分位时延,单位(ms) |
测试数据量,来源于输入参数 |
MaxDecodeTime |
所有请求最大Decode阶段平均时延,单位(ms) |
所有请求最大Decode阶段时延,单位(ms) |
所有请求最小Decode阶段时延,单位(ms) |
所有请求75分位Decode阶段时延,单位(ms) |
所有请求90分位Decode阶段时延,单位(ms) |
所有请求90分位Decode阶段时延,单位(ms) |
所有请求99分位Decode阶段时延,单位(ms) |
测试数据量,来源于输入参数 |
GenerateTime |
请求推理平均时延,单位(ms) |
最大请求推理时延,单位(ms) |
最小请求推理时延,单位(ms) |
75分位请求推理时延,单位(ms) |
90分位请求推理时延,单位(ms) |
90分位请求推理时延,单位(ms) |
99分位请求推理时延,单位(ms) |
测试数据量,来源于输入参数 |
InputTokens |
输入token平均长度 |
最大输入token长度 |
最小输入token长度 |
75分位输入token长度 |
90分位输入token长度 |
90分位输入token长度 |
99分位输入token长度 |
测试数据量,来源于输入参数 |
GeneratedTokens |
生成token平均长度 |
最大生成token长度 |
最小生成token长度 |
75分位生成token长度 |
90分位生成token长度 |
90分位生成token长度 |
99分位生成token长度 |
测试数据量,来源于输入参数 |
GeneratedTokenSpeed |
生成token平均速度,单位(token/s) |
最大生成token速度,单位(token/s) |
最小生成token速度,单位(token/s) |
75分位生成token速度,单位(token/s) |
90分位生成token速度,单位(token/s) |
90分位生成token速度,单位(token/s) |
99分位生成token速度,单位(token/s) |
测试数据量,来源于输入参数 |
GeneratedCharacters |
生成字符平均长度 |
最大生成字符长度 |
最小生成字符长度 |
75分位生成字符长度 |
90分位生成字符长度 |
90分位生成字符长度 |
99分位生成字符长度 |
测试数据量,来源于输入参数 |
Tokenizer |
tokenizer的平均时间,单位(ms) |
最大tokenizer时间,单位(ms) |
最小tokenizer时间,单位(ms) |
75分位tokenizer处理时间,单位(ms) |
90分位tokenizer处理时间,单位(ms) |
90分位tokenizer处理时间,单位(ms) |
99分位tokenizer时间,单位(ms) |
测试数据量,来源于输入参数 |
Detokenizer |
detokenizer的平均时间,单位(ms) |
最大detokenizer时间,单位(ms) |
最小detokenizer时间,单位(ms) |
75分位detokenizer处理时间,单位(ms) |
90分位detokenizer处理时间,单位(ms) |
90分位detokenizer处理时间,单位(ms) |
99分位detokenizer时间,单位(ms) |
测试数据量,来源于输入参数 |
CharactersPerToken |
每个token平均生成的字符数 |
- |
- |
- |
- |
- |
- |
测试数据量,来源于输入参数 |
PostProcessingTime |
所有token平均后处理时间,单位(ms) |
所有token最大后处理时间,单位(ms) |
所有token最小后处理时间,单位(ms) |
所有token 75分位后处理时间,单位(ms) |
所有token 90分位后处理时间,单位(ms) |
所有token 90分位后处理时间,单位(ms) |
所有token 99分位后处理时间,单位(ms) |
测试数据量,来源于输入参数 |
ForwardTime |
所有token平均模型推理时间,单位(ms) |
所有token最大模型推理时间,单位(ms) |
所有token最小模型推理时间,单位(ms) |
所有token 75分位模型推理时间,单位(ms) |
所有token 90分位模型推理时间,单位(ms) |
所有token 90分位模型推理时间,单位(ms) |
所有token 99分位模型推理时间,单位(ms) |
测试数据量,来源于输入参数 |
PrefillBatchsize |
Prefill阶段batchsize平均值 |
最大Prefill阶段batchsize |
最小Prefill阶段batchsize |
75分位Prefill阶段batchsize |
90分位Prefill阶段batchsize |
90分位Prefill阶段batchsize |
99分位Prefill阶段batchsize |
测试数据量,来源于输入参数 |
DecoderBatchsize |
Decode阶段batchsize平均值 |
最大Decode阶段batchsize |
最小Decode阶段batchsize |
75分位Decode阶段batchsize |
90分位Decode阶段batchsize |
- |
99分位Decode阶段batchsize |
测试数据量,来源于输入参数 |
QueueWaitTime |
队列等待时间平均值,单位(μs) |
最大队列等待时间,单位(μs) |
最小队列等待时间,单位(μs) |
75分位队列等待时间,单位(μs) |
90分位队列等待时间,单位(μs) |
- |
99分位队列等待时间,单位(μs) |
测试数据量,来源于输入参数 |
注:只有Client文本流式推理模式才能获取到PrefillBatchsize、DecoderBatchsize和QueueWaitTime参数。 |
参数 |
说明 |
---|---|
CurrentTime |
输出结果的当前时间点。 |
TimeElapsed |
测试总耗时。单位(s)。 |
DataSource |
测试数据集路径。 |
Failed |
失败请求数据量(包含空和未返回数据的响应)。 |
Returned |
返回请求总数据量(包含非空和空)。 |
Total |
测试数据量。 |
Concurrency |
测试并发数 |
ModelName |
模型名称。 |
lpct |
首token总时延/输入总token数。单位(ms)。 |
Throughput |
整体测试过程的每秒请求数,吞吐量指标。单位(req/s)。 |
GenerateSpeed |
整体测试并发下token的生成速度。单位(token/s)。 |
GenerateSpeedPerClient |
整体的token生成速度/测试并发数。单位(token/s)。 |
accuracy |
精度。 |