有些大模型场景,部分二进制kernel替换成静态kernel后,性能更优。基于该背景,AOE新增了该参数支持静态kernel调优功能,根据输入的算子信息json文件,生成调优后的kernel,并保存到指定目录。
当前该功能仅支持Atlas A2训练系列产品。
该参数取值为static_kernel或者fast时,需要和--op_tune_file、--precision_mode=must_keep_origin_dtype同时使用。
取值如下。
--op_tune_file=/home/lxl/json --op_tune_mode=static_kernel --precision_mode=must_keep_origin_dtype --op_tune_kernel_path=/home/lxl/kernel