混合专家模型（MoE）

将MindSpeed目录下的tests_extend文件夹复制到Megatron-LM目录下。

# {PATH_TO_MEGATRON_LM}: the root path of `Megatron-LM`
cp -r MindSpeed/tests_extend {PATH_TO_MEGATRON_LM}

进入Megatron-LM目录，执行预训练脚本。

cd {PATH_TO_MEGATRON_LM}
bash tests_extend/system_tests/gpt/pretrain_gpt_megatron_moe_8k.sh

上述脚本pretrain_gpt_megatron_moe_8k.sh，包括但不限于以下并行与优化特性：

并行配置

--tensor-model-parallel-size      # 张量并行
--pipeline-model-parallel-size    # 流水线并行
--sequence-parallel               # 序列并行

融合算子

--use-flash-attn                  # Flash Attention融合算子
--position-embedding-type rope    # RoPE位置嵌入
--use-fused-rotary-pos-emb        # RoPE融合算子

MoE特性

--moe-model-type megatron_moe    # 使用megatron moe模型
--num_experts  4                 # 专家数量
--expert-model-parallel-size     # 专家并行

父主题： 特性使用案例