在大模型训练过程中，特性的配置是实现加速训练和优化性能的关键。这些特性被分类为三个层级：核心特性、基础特性和高阶特性，以适应不同用户的需求。

下面表格中包括了使能效果、属性、特性名称和说明等列，以详细展示各项特性的支持情况、所属类别、具体名称以及它们的功能描述

表1 特性推荐配置
使能效果	属性	特性名称	说明
并行加速	核心特性	Megatron数据并行	大模型训练常用的基本并行算法，通过分布式训练策略实现更大规模的模型训练。
		Megatron张量并行
		Megatron序列并行
		流水线并行
性能提升	基础特性	虚拟流水并行	相对独立的性能优化特性，与核心特性兼容性较好，在对应的场景中较为常用。
		Ulysses长序列并行
		Ring Attention长序列并行
		Megatron异步DDP
		DropoutAddLayerNorm融合优化
		Flash Attention融合优化
		RMSNorm融合优化
		SwiGLU融合优化
		RoPE融合优化
		MoE Token重排性能优化
	高阶特性	Nano-Pipe流水线并行	高阶优化特性，通常仅针对某个特点场景进行深度优化，具备一定的局限性，具体可参考各个特性的详细介绍。
		Megatron权重更新通信隐藏
		计算通信并行优化
		TP重计算通信优化
		Ampipe流水通信隐藏
		MLP通信隐藏
内存节省	基础特性	Megatron重计算	较为常用的内存优化特性，兼容性较好。
		参数副本复用
		激活函数重计算
		内存碎片优化
		Megatron分布式优化器
	高阶特性	自适应选择重计算	针对特定场景的内存深度优化，具备一定的局限性，具体可参考各个特性的详细介绍。
	高阶特性	重计算流水独立调度	针对特定场景的内存深度优化，具备一定的局限性，具体可参考各个特性的详细介绍。

特性推荐配置