下载
中文
注册

特性介绍

在深度学习领域,大语言模型LLM的权重参数快速增长,参数量早已迈向千亿、甚至万亿级别,占用显存量巨大。例如,1.4万亿参数的模型,仅参数(FP16)本身就会占用将近2.8TB的显存,单台推理机(通常8个NPU,每个NPU卡不到100GB显存)显存有限,无法容纳整个模型权重参数,因此需要多台推理机协同工作,共同完成整个模型的推理,即分布式多机推理。