输出参数

输出参数的统计指标如表1表2所示,部分统计指标解释如下所示:

表1 单个推理请求性能输出结果

参数

说明(average)

说明(max)

说明(min)

说明(P75)

说明(P90)

说明(SLO_P90)

说明(P99)

说明(N)

FirstTokenTime

首个token平均时延,单位(ms)

首个token最大时延,单位(ms)

首个token最小时延,单位(ms)

首个token75分位时延,单位(ms)

首个token90分位时延,单位(ms)

首个token90分位时延,单位(ms)

首个token99分位时延,单位(ms)

测试数据量,来源于输入参数

DecodeTime

Decode阶段平均时延,单位(ms)

最大Decode阶段时延,单位(ms)

最小Decode阶段时延,单位(ms)

75分位Decode阶段时延,单位(ms)

90分位Decode阶段时延,单位(ms)

90分位每条请求Decode阶段平均时延,单位(ms)

99分位Decode阶段时延,单位(ms)

测试数据量,来源于输入参数

LastDecodeTime

最后一个token平均时延,单位(ms)

最后一个token最大时延,单位(ms)

最后一个token最小时延,单位(ms)

最后一个token75分位时延,单位(ms)

最后一个token90分位时延,单位(ms)

最后一个token90分位时延,单位(ms)

最后一个token99分位时延,单位(ms)

测试数据量,来源于输入参数

MaxDecodeTime

所有请求最大Decode阶段平均时延,单位(ms)

所有请求最大Decode阶段时延,单位(ms)

所有请求最小Decode阶段时延,单位(ms)

所有请求75分位Decode阶段时延,单位(ms)

所有请求90分位Decode阶段时延,单位(ms)

所有请求90分位Decode阶段时延,单位(ms)

所有请求99分位Decode阶段时延,单位(ms)

测试数据量,来源于输入参数

GenerateTime

请求推理平均时延,单位(ms)

最大请求推理时延,单位(ms)

最小请求推理时延,单位(ms)

75分位请求推理时延,单位(ms)

90分位请求推理时延,单位(ms)

90分位请求推理时延,单位(ms)

99分位请求推理时延,单位(ms)

测试数据量,来源于输入参数

InputTokens

输入token平均长度

最大输入token长度

最小输入token长度

75分位输入token长度

90分位输入token长度

90分位输入token长度

99分位输入token长度

测试数据量,来源于输入参数

GeneratedTokens

生成token平均长度

最大生成token长度

最小生成token长度

75分位生成token长度

90分位生成token长度

90分位生成token长度

99分位生成token长度

测试数据量,来源于输入参数

GeneratedTokenSpeed

生成token平均速度,单位(token/s)

最大生成token速度,单位(token/s)

最小生成token速度,单位(token/s)

75分位生成token速度,单位(token/s)

90分位生成token速度,单位(token/s)

90分位生成token速度,单位(token/s)

99分位生成token速度,单位(token/s)

测试数据量,来源于输入参数

GeneratedCharacters

生成字符平均长度

最大生成字符长度

最小生成字符长度

75分位生成字符长度

90分位生成字符长度

90分位生成字符长度

99分位生成字符长度

测试数据量,来源于输入参数

Tokenizer

tokenizer的平均时间,单位(ms)

最大tokenizer时间,单位(ms)

最小tokenizer时间,单位(ms)

75分位tokenizer处理时间,单位(ms)

90分位tokenizer处理时间,单位(ms)

90分位tokenizer处理时间,单位(ms)

99分位tokenizer时间,单位(ms)

测试数据量,来源于输入参数

Detokenizer

detokenizer的平均时间,单位(ms)

最大detokenizer时间,单位(ms)

最小detokenizer时间,单位(ms)

75分位detokenizer处理时间,单位(ms)

90分位detokenizer处理时间,单位(ms)

90分位detokenizer处理时间,单位(ms)

99分位detokenizer时间,单位(ms)

测试数据量,来源于输入参数

CharactersPerToken

每个token平均生成的字符数

-

-

-

-

-

-

测试数据量,来源于输入参数

PostProcessingTime

所有token平均后处理时间,单位(ms)

所有token最大后处理时间,单位(ms)

所有token最小后处理时间,单位(ms)

所有token 75分位后处理时间,单位(ms)

所有token 90分位后处理时间,单位(ms)

所有token 90分位后处理时间,单位(ms)

所有token 99分位后处理时间,单位(ms)

测试数据量,来源于输入参数

ForwardTime

所有token平均模型推理时间,单位(ms)

所有token最大模型推理时间,单位(ms)

所有token最小模型推理时间,单位(ms)

所有token 75分位模型推理时间,单位(ms)

所有token 90分位模型推理时间,单位(ms)

所有token 90分位模型推理时间,单位(ms)

所有token 99分位模型推理时间,单位(ms)

测试数据量,来源于输入参数

PrefillBatchsize

Prefill阶段batchsize平均值

最大Prefill阶段batchsize

最小Prefill阶段batchsize

75分位Prefill阶段batchsize

90分位Prefill阶段batchsize

90分位Prefill阶段batchsize

99分位Prefill阶段batchsize

测试数据量,来源于输入参数

DecoderBatchsize

Decode阶段batchsize平均值

最大Decode阶段batchsize

最小Decode阶段batchsize

75分位Decode阶段batchsize

90分位Decode阶段batchsize

-

99分位Decode阶段batchsize

测试数据量,来源于输入参数

QueueWaitTime

队列等待时间平均值,单位(μs)

最大队列等待时间,单位(μs)

最小队列等待时间,单位(μs)

75分位队列等待时间,单位(μs)

90分位队列等待时间,单位(μs)

-

99分位队列等待时间,单位(μs)

测试数据量,来源于输入参数

注:只有Client文本流式推理模式才能获取到PrefillBatchsize、DecoderBatchsize和QueueWaitTime参数。

表2 端到端性能输出结果

参数

说明

CurrentTime

输出结果的当前时间点。

TimeElapsed

测试总耗时。单位(s)。

DataSource

测试数据集路径。

Failed

失败请求数据量(包含空和未返回数据的响应)。

Returned

返回请求总数据量(包含非空和空)。

Total

测试数据量。

Concurrency

测试并发数

ModelName

模型名称。

lpct

首token总时延/输入总token数。单位(ms)。

Throughput

整体测试过程的每秒请求数,吞吐量指标。单位(req/s)。

GenerateSpeed

整体测试并发下token的生成速度。单位(token/s)。

GenerateSpeedPerClient

整体的token生成速度/测试并发数。单位(token/s)。

accuracy

精度。