通信基础概述

HCCL(Huawei Collective Communication Library,华为集合通信库)是基于昇腾AI处理器的高性能集合通信库,提供单机多卡、多机多卡集合通信原语,在PCIE、HCCS和RoCE高速链路实现集合通信功能,实现分布式训练。
图1 软件架构图

图2 硬件架构图(8p)

在硬件中,通过HCCS实现两两互联(Fullmesh),NPU和CPU之间通过PCIE连接。

Fullmesh是指在一个网络拓扑中,每个节点都直接连接到其他节点,形成一个完全互联的网络结构。在Fullmesh网络中,任何两个节点之间都可以直接通信,这种网络结构通常用于需要高度可靠性和高带宽的应用场景,如数据中心、高性能计算和金融交易等。
图3 硬件架构图(16p)