Megatron MoE AllGather Dispatcher性能优化

背景与挑战

解决方案

使用场景

本优化策略适用于部署了Mcore MoE(Mixture of Experts)架构的深度学习模型,并且已经在系统配置中启用了--moe-token-dispatcher-type allgather参数。

使用方法

设置如下参数即开启AllGather Dispatcher并行优化。

--moe-permutation-async-comm

使用效果

根据实际测试数据显示,类DeepSeekV2十亿参数级别的MoE模型,采用上述优化措施后,端到端训练过程中的性能提升了约10%。这意味着不仅加快了模型收敛速度,同时也降低了达到相同精度水平所需的计算资源消耗。