为什么相同输入，组batch顺序不同，送入LLM模型推理输出不同

由于matmul算子在不同行上的累加顺序不完全相同，加之浮点精度没有加法交换律的特性，导致不同行上即使输入完全相同，计算结果也会存在一定的误差。
可以通过设置环境变量export ATB_MATMUL_SHUFFLE_K_ENABLE=0将加速库Matmul的shuffle k功能关闭，关闭之后可以保证所有行上算子累加顺序一致，但matmul性能会下降10%左右。

父主题： FAQ