AttentionFusion
功能介绍 |
Attention是推荐模型中会使用的典型子结构,该结构由多个算子组成。在实际网络中会出现调度时延和额外内存操作,导致整网耗时较长。Rec SDK提供了AttentionFusion融合算子,针对序列较长、key张量shape尾轴32字节对齐场景进行性能优化。 |
---|---|
用法 |
使用步骤如下: |
约束说明 |
|
父主题: 算子介绍
功能介绍 |
Attention是推荐模型中会使用的典型子结构,该结构由多个算子组成。在实际网络中会出现调度时延和额外内存操作,导致整网耗时较长。Rec SDK提供了AttentionFusion融合算子,针对序列较长、key张量shape尾轴32字节对齐场景进行性能优化。 |
---|---|
用法 |
使用步骤如下: |
约束说明 |
|