计算与通信并行功能
功能简介
大模型切分部署场景中,通过对网络中的AllReduce通信算子以及上下文中可以连续切分的算子切分,使能通信和计算并行运行,从而达到加速分布式推理的作用。
使用方法
该功能通过torchair.get_npu_backend中compiler_config参数配置,配置示例如下,参数说明参见表1。
1 2 3 4 5 | import torch_npu, torchair config = torchair.CompilerConfig() # 计算通信并行功能开关 config.experimental_config.cc_parallel_enable = True npu_backend = torchair.get_npu_backend(compiler_config=config) |
父主题: 更多功能