变更声明
本章节的接口变更说明包括新增、修改、删除和退出声明。接口变更只体现代码层面的修改,不包含文档本身在语言、格式、链接等方面的优化改进。
- 新增:表示此次版本新增的接口。
- 修改:表示本接口相比于上个版本有修改。
- 删除:表示该接口在此次版本已经删除。
- 退出声明:表示该接口自作出退出声明的版本起停止演进,且在后续版本退出并删除。
新增特性
类名/API原型 |
变更说明 |
---|---|
GatingOperation/Gating算子 |
实现token->专家s的映射到专家->tokens映射的转换,该算子仅支持Atlas 800I A2推理产品。 |
ElewiseOperation/Elewise-Tanh算子 |
Tanh解决了Sigmoid函数的不以0为中心输出问题。 |
LinearOperation/outDataType参数 |
浮点和量化Linear合一后,该参数主要用于指定量化Linear输出tensor的数据类型。 |
支持DynamicQuant量化算子以及与Norm的融合算子 |
Per-Token量化对量化精度有较大提升,提升量化场景的竞争力。 |
修改特性
类名/API原型 |
变更说明 |
---|---|
FlashAttention |
参数isEncoder、CoderType、isSupportAlibi、isClamp通过参数calcType、kernelType、clampType、maskType表示。参数表示优化。 |
LinearOperation |
算子的transposeB参数含义修改为是否转置B矩阵。默认值效果与原效果一致。 |
LinearParallelOperation |
|
删除特性
类名/API原型 |
变更说明 |
---|---|
LinearActivation |
可以通过加速库Linear算子+Activation算子组图方式实现。 |
LinearActivationQuant |
可以通过加速库Linear算子+Activation算子组图方式实现。 |
LinearQuant |
原LinearQuant算子的功能并入Linear,通过参数实现功能分支。 |
LayerNorm/RmsNorm的量化参数 |
原量化参数使用tensor输入。 |
SelfAttention |
算子的headDim参数废弃。 |
退出特性
类名/API原型 |
变更说明 |
---|---|
FfnParam |
预留接口移除。 |
FfnQuantParam |
预留接口移除。 |