内存优化 算子与高阶API共享临时Buffer 限制TilingData结构大小 通过K_MAX_SHAPE_DIM宏设置ShapeInfo维度为0,优化栈空间 UB Buffer融合 通过BT Buffer实现高效的bias计算 通过Fixpipe Buffer存放量化参数实现高效随路量化 通过L0C数据暂存实现高效的矩阵乘结果累加 矩阵长驻L1 父主题: 性能优化