下载
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助
昇腾小AI

变更声明

本章节的接口变更说明包括新增、修改、删除和退出声明。接口变更只体现代码层面的修改,不包含文档本身在语言、格式、链接等方面的优化改进。

  • 新增:表示此次版本新增的接口。
  • 修改:表示本接口相比于上个版本有修改。
  • 删除:表示该接口在此次版本已经删除。
  • 退出声明:表示该接口自作出退出声明的版本起停止演进,且在后续版本退出并删除。

新增特性

类名/API原型

变更说明

GatingOperation/Gating算子

实现token->专家s的映射到专家->tokens映射的转换,该算子仅支持Atlas 800I A2推理产品

ElewiseOperation/Elewise-Tanh算子

Tanh解决了Sigmoid函数的不以0为中心输出问题

LinearOperation/outDataType参数

浮点和量化Linear合一后,该参数主要用于指定量化Linear输出tensor的数据类型。

支持DynamicQuant量化算子以及与Norm的融合算子

Per-Token量化对量化精度有较大提升,提升量化场景的竞争力

修改特性

类名/API原型

变更说明

FlashAttention

参数isEncoder、CoderType、isSupportAlibi、isClamp通过参数calcType、kernelType、clampType、maskType表示。参数表示优化。

LinearOperation

算子的transposeB参数含义修改为是否转置B矩阵。默认值效果与原效果一致。

LinearParallelOperation

  • 算子的transWeight参数含义修改为是否转置权重。默认值效果与原效果一致。
  • 算子的bias参数修改为hasResidual,由字符串类型变更为bool类型。含义由是否叠加偏置变更为是否叠加残差。

删除特性

类名/API原型

变更说明

LinearActivation

可以通过加速库Linear算子+Activation算子组图方式实现。

LinearActivationQuant

可以通过加速库Linear算子+Activation算子组图方式实现。

LinearQuant

原LinearQuant算子的功能并入Linear,通过参数实现功能分支。

LayerNorm/RmsNorm的量化参数

原量化参数使用tensor输入。

SelfAttention

算子的headDim参数废弃。

退出特性

类名/API原型

变更说明

FfnParam

预留接口移除。

FfnQuantParam

预留接口移除。

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词