下载
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助
昇腾小AI

参数概览

本节介绍AOE调优引擎使用到的命令行参数。参数和参数取值之间可以是“=”,也可以是空格,本章节统一以“=”为例。

如果通过aoe --help命令查询出的参数未解释在表1,则说明该参数预留或适用于其他芯片版本,用户无需关注。

表1 AOE参数概览

参数名称

参数简述(具体说明见参数描述章节)

是否必选

默认值

--help 或 -h

显示帮助信息。

不涉及

--model 或 -m

原始模型文件路径与文件名。

不涉及

--model_path

原始模型文件路径,该路径下可以存放多个模型文件。

不涉及

--weight 或 -w

权重文件路径与文件名。

不涉及

--job_type 或 -j

调优模式。

不涉及

--framework 或 -f

原始框架类型。

不涉及

--input_format

输入数据格式。

Caffe和ONNX默认为NCHW

TensorFlow默认为NHWC

--input_shape

指定模型输入数据的shape。

不涉及

--dynamic_batch_size

设置动态Batch档位参数,适用于执行推理时,每次处理图片数量不固定的场景。

不涉及

--dynamic_image_size

设置输入图片的动态分辨率参数。适用于执行推理时,每次处理图片宽和高不固定的场景。

不涉及

--dynamic_dims

设置ND格式下动态维度的档位。适用于执行推理时,每次处理任意维度的场景。

不涉及

--reload

子图调优中断后重载。当前次流程被中断后,希望从上次的已有的调优阶段开始继续调优,使用--reload进入重载模式。

不涉及

--device

用于指定调优在运行环境上运行时使用的device。

不涉及

--progress_bar

用于开启或关闭调优时进度显示功能。

on

--singleop

通过配置算子描述文件,对指定的算子(一个或者多个)进行调优。

不涉及

--output

存放调优后的模型的路径以及文件名。

不涉及

--output_type

指定网络输出数据类型或指定某个输出节点的输出类型。

不涉及

--host_env_os

若模型编译环境的操作系统及其架构与模型运行环境不一致时,则需使用本参数设置模型运行环境的操作系统类型。

不涉及

--host_env_cpu

若模型编译环境的操作系统及其架构与模型运行环境不一致时,则需使用本参数设置模型运行环境的操作系统架构。

不涉及

--aicore_num

用于设置模型编译时使用的aicore数目。

默认值为最大值

--virtual_type

是否支持AOE调优在昇腾虚拟化实例生成的虚拟设备上运行。

当前该参数仅支持Atlas 推理系列产品

0

--out_nodes

指定输出节点。

不涉及

--input_fp16_nodes

指定输入数据类型为FP16的输入节点名称。

不涉及

--insert_op_conf

插入算子的配置文件路径与文件名。

不涉及

--op_name_map

扩展算子(非标准算子)映射配置文件路径和文件名。

不涉及

--is_input_adjust_hw_layout

用于指定网络输入数据类型是否为FP16,数据格式是否为NC1HWC0。

false

--is_output_adjust_hw_layout

用于指定网络输出的数据类型是否为FP16,数据格式是否为NC1HWC0。

false

--disable_reuse_memory

内存复用开关。

0

--fusion_switch_file

融合开关配置文件路径以及文件名。

不涉及

--enable_scope_fusion_passes

指定编译时需要生效的融合规则列表。

不涉及

--enable_single_stream

是否使能一个模型只能使用一条stream。

false

--enable_small_channel

是否使能small channel的优化,使能后在channel<=4的卷积层会有性能收益。

0

--compress_weight_conf

要压缩的node节点列表配置文件路径以及文件名。

不涉及

--compression_optimize_conf

模型压缩功能配置文件路径以及文件名,通过该参数使能配置文件中指定的模型压缩特性,从而提升网络性能。

不涉及

--buffer_optimize

是否开启buffer优化。

l2_optimize

--precision_mode

选择算子精度模式。

参数默认值如下:

  • 推理场景:force_fp16
  • 训练场景:allow_fp32_to_fp16
  • Atlas A2训练系列产品训练场景:must_keep_origin_dtype
  • Atlas A2训练系列产品推理场景:force_fp16
  • 其他训练场景:allow_fp32_to_fp16
  • 其他推理场景:force_fp16

--op_select_implmode

选择算子是高精度实现还是高性能实现。

high_performance

--optypelist_for_implmode

列举算子optype的列表。

不涉及

--op_debug_level

TBE算子编译debug功能开关。

0

--log

设置调优过程中日志的级别。

不涉及

--tune_ops_file

通过配置文件指定算子名称或者算子类型,对指定的算子进行调优。

不涉及

--op_precision_mode

设置具体某个算子的精度模式,通过该参数可以为多个算子设置不同的精度模式。

不涉及

--modify_mixlist

混合精度场景下,修改算子使用混合精度名单。

不涉及

--keep_dtype

保持原始网络模型编译时个别算子的计算精度不变。

不涉及

--customize_dtypes

模型编译时自定义某个或某些算子的计算精度。

不涉及

--tune_optimization_level

调优模式,通过该参数可配置不同模式调优,包括高性能模式和正常模式。

O2

--Fdeeper_opat

算子深度调优。

不涉及

--Fnonhomo_split

子图非均匀切分调优。

不涉及

--Fop_format

算子format调优。

不涉及

--sparsity

使能全局稀疏特性。

0

--op_tune_mode

使能静态kernel调优功能,根据输入的算子信息json文件,生成调优后的kernel,并保存到指定目录。

不涉及

--op_tune_file

指定算子json文件的存放路径。

不涉及

--op_tune_kernel_path

指定静态kernel的存放路径。

不涉及

--soc_version

指定昇腾AI处理器的版本。

不涉及

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词