cd {PATH_TO_MEGATRON_LM} bash tests_extend/system_tests/llama2/pretrain_llama_tp4_ep2_dp2.sh
上述脚本pretrain_llama_tp4_ep2_dp2.sh,包括但不限于以下并行与优化特性:
--tensor-model-parallel-size # 张量并行 --pipeline-model-parallel-size # 流水线并行 --sequence-parallel # 序列并行 --expert-model-parallel-size # 专家并行
--use-flash-attn # Flash Attention融合算子 --normalization RMSNorm # RMSNorm归一化 --use-fused-rmsnorm # RMSNorm融合算子 --swiglu # SwiGLU激活函数 --use-fused-swiglu # SwiGLU融合算子
--enable-token-rearrange-opt # MoE Token重排性能优化