输出参数的统计指标如表1和表2所示，部分统计指标解释如下所示：

P75：统计的颗粒度以token为单位，以DecodeTime为例，所有请求的DecodeTime的75分位。
P90：统计的颗粒度以token为单位，以DecodeTime为例，所有请求的DecodeTime的90分位。
P99：统计的颗粒度以token为单位，以DecodeTime为例，所有请求的DecodeTime的99分位。
SLO_P90：统计的颗粒度以请求为单位，以DecodeTime为例，首先每个请求的所有DecodeTime取平均值，然后对所有请求的平均DecodeTime取90分位。

表1 单个推理请求性能输出结果
参数	说明（average）	说明（max）	说明（min）	说明（P75）	说明（P90）	说明（SLO_P90）	说明（P99）	说明（N）
FirstTokenTime	首个token平均时延，单位（ms）	首个token最大时延，单位（ms）	首个token最小时延，单位（ms）	首个token75分位时延，单位（ms）	首个token90分位时延，单位（ms）	首个token90分位时延，单位（ms）	首个token99分位时延，单位（ms）	测试数据量，来源于输入参数
DecodeTime	Decode阶段平均时延，单位（ms）	最大Decode阶段时延，单位（ms）	最小Decode阶段时延，单位（ms）	75分位Decode阶段时延，单位（ms）	90分位Decode阶段时延，单位（ms）	90分位每条请求Decode阶段平均时延，单位（ms）	99分位Decode阶段时延，单位（ms）	测试数据量，来源于输入参数
LastDecodeTime	最后一个token平均时延，单位（ms）	最后一个token最大时延，单位（ms）	最后一个token最小时延，单位（ms）	最后一个token75分位时延，单位（ms）	最后一个token90分位时延，单位（ms）	最后一个token90分位时延，单位（ms）	最后一个token99分位时延，单位（ms）	测试数据量，来源于输入参数
MaxDecodeTime	所有请求最大Decode阶段平均时延，单位（ms）	所有请求最大Decode阶段时延，单位（ms）	所有请求最小Decode阶段时延，单位（ms）	所有请求75分位Decode阶段时延，单位（ms）	所有请求90分位Decode阶段时延，单位（ms）	所有请求90分位Decode阶段时延，单位（ms）	所有请求99分位Decode阶段时延，单位（ms）	测试数据量，来源于输入参数
GenerateTime	请求推理平均时延，单位（ms）	最大请求推理时延，单位（ms）	最小请求推理时延，单位（ms）	75分位请求推理时延，单位（ms）	90分位请求推理时延，单位（ms）	90分位请求推理时延，单位（ms）	99分位请求推理时延，单位（ms）	测试数据量，来源于输入参数
InputTokens	输入token平均长度	最大输入token长度	最小输入token长度	75分位输入token长度	90分位输入token长度	90分位输入token长度	99分位输入token长度	测试数据量，来源于输入参数
GeneratedTokens	生成token平均长度	最大生成token长度	最小生成token长度	75分位生成token长度	90分位生成token长度	90分位生成token长度	99分位生成token长度	测试数据量，来源于输入参数
GeneratedTokenSpeed	生成token平均速度，单位（token/s）	最大生成token速度，单位（token/s）	最小生成token速度，单位（token/s）	75分位生成token速度，单位（token/s）	90分位生成token速度，单位（token/s）	90分位生成token速度，单位（token/s）	99分位生成token速度，单位（token/s）	测试数据量，来源于输入参数
GeneratedCharacters	生成字符平均长度	最大生成字符长度	最小生成字符长度	75分位生成字符长度	90分位生成字符长度	90分位生成字符长度	99分位生成字符长度	测试数据量，来源于输入参数
Tokenizer	tokenizer的平均时间，单位（ms）	最大tokenizer时间，单位（ms）	最小tokenizer时间，单位（ms）	75分位tokenizer处理时间，单位（ms）	90分位tokenizer处理时间，单位（ms）	90分位tokenizer处理时间，单位（ms）	99分位tokenizer时间，单位（ms）	测试数据量，来源于输入参数
Detokenizer	detokenizer的平均时间，单位（ms）	最大detokenizer时间，单位（ms）	最小detokenizer时间，单位（ms）	75分位detokenizer处理时间，单位（ms）	90分位detokenizer处理时间，单位（ms）	90分位detokenizer处理时间，单位（ms）	99分位detokenizer时间，单位（ms）	测试数据量，来源于输入参数
CharactersPerToken	每个token平均生成的字符数	-	-	-	-	-	-	测试数据量，来源于输入参数
PostProcessingTime	所有token平均后处理时间，单位（ms）	所有token最大后处理时间，单位（ms）	所有token最小后处理时间，单位（ms）	所有token 75分位后处理时间，单位（ms）	所有token 90分位后处理时间，单位（ms）	所有token 90分位后处理时间，单位（ms）	所有token 99分位后处理时间，单位（ms）	测试数据量，来源于输入参数
ForwardTime	所有token平均模型推理时间，单位（ms）	所有token最大模型推理时间，单位（ms）	所有token最小模型推理时间，单位（ms）	所有token 75分位模型推理时间，单位（ms）	所有token 90分位模型推理时间，单位（ms）	所有token 90分位模型推理时间，单位（ms）	所有token 99分位模型推理时间，单位（ms）	测试数据量，来源于输入参数
PrefillBatchsize	Prefill阶段batchsize平均值	最大Prefill阶段batchsize	最小Prefill阶段batchsize	75分位Prefill阶段batchsize	90分位Prefill阶段batchsize	90分位Prefill阶段batchsize	99分位Prefill阶段batchsize	测试数据量，来源于输入参数
DecoderBatchsize	Decode阶段batchsize平均值	最大Decode阶段batchsize	最小Decode阶段batchsize	75分位Decode阶段batchsize	90分位Decode阶段batchsize	-	99分位Decode阶段batchsize	测试数据量，来源于输入参数
QueueWaitTime	队列等待时间平均值，单位（μs）	最大队列等待时间，单位（μs）	最小队列等待时间，单位（μs）	75分位队列等待时间，单位（μs）	90分位队列等待时间，单位（μs）	-	99分位队列等待时间，单位（μs）	测试数据量，来源于输入参数
注：只有Client文本流式推理模式才能获取到PrefillBatchsize、DecoderBatchsize和QueueWaitTime参数。

表2 端到端性能输出结果
参数	说明
CurrentTime	输出结果的当前时间点。
TimeElapsed	测试总耗时。单位（s）。
DataSource	测试数据集路径。
Failed	失败请求数据量（包含空和未返回数据的响应）。
Returned	返回请求总数据量（包含非空和空）。
Total	测试数据量。
Concurrency	测试并发数
ModelName	模型名称。
lpct	首token总时延/输入总token数。单位（ms）。
Throughput	整体测试过程的每秒请求数，吞吐量指标。单位（req/s）。
GenerateSpeed	整体测试并发下token的生成速度。单位（token/s）。
GenerateSpeedPerClient	整体的token生成速度/测试并发数。单位（token/s）。
accuracy	精度。