线性度指标

设置线性度为单卡训练扩展到多卡,单机扩展到集群的效率度量指标,又名加速比(speed up),计算方式如下:

单机多卡总吞吐率,NLP在LLM语言大模型中以tokens/s为基本单位,在CV大模型中以samples/s为基本单位。

上述公式变换后可推出:

线性度的取值范围为0~1,数值越接近于1,其性能指标越好。

如果机器本身是多卡或多机的加速比接近高线性度(即线性度接近于1),说明在扩展时通信不是瓶颈,则通过改变或者增加通信带宽的性能提升,对于整体AI深度学习大模型训练的性能提升在通信问题中空间就会比较小。

当线性度不高(例如小于0.8)时,排除数据IO和CPU的本身因素影响后,可以判断此时分布式通信存在瓶颈。