为什么相同输入,组batch顺序不同,送入LLM模型推理输出不同 解决方案由于matmul算子在不同行上的累加顺序不完全相同,加之浮点精度没有加法交换律的特性,导致不同行上即使输入完全相同,计算结果也会存在一定的误差。可以通过设置环境变量export ATB_MATMUL_SHUFFLE_K_ENABLE=0将加速库Matmul的shuffle k功能关闭,关闭之后可以保证所有行上算子累加顺序一致,但matmul性能会下降10%左右 。 父主题: FAQ