使用前须知

请在dump数据前，完成模型对应的应用工程的编译、运行，确保工程正常。
每次推理都会产生dump数据，在循环次数较多的情况下，每次推理的dump数据量随之增大，建议dump数据时仅执行一次推理。同时对于大模型场景，通常dump数据量太大并且耗时长，可以通过dump_data开启算子统计功能，根据统计数据识别可能异常的算子后，再dump可能异常的算子。
Docker场景下，不支持将容器作为运行环境使用dump功能。
提供aclInit()接口和aclmdlSetDump()接口两种接口方式dump数据。
- aclInit()接口的详细使用方法请参见《AscendCL应用开发指南（C&C++）》中的“应用开发接口 > AscendCL API（C&C++） > 系统配置 > aclInit”。
- aclmdlSetDump()接口的详细使用方法请参见《AscendCL应用开发指南（C&C++）》中的“应用开发接口 > AscendCL API（C&C++） > 模型推理 > 模型执行 > aclmdlSetDump”。

dump数据

参考以下步骤进行离线模型dump操作：

打开aclInit()函数所在的推理应用工程代码文件，查看调用的aclInit()或aclmdlSetDump()函数，获取acl.json文件路径。

如果aclInit()或aclmdlSetDump()初始化为空，则需要修改该函数，补充步骤2创建的acl.json路径。这里的acl.json路径是相对工程编译生成的二进制文件的路径。

在查到的目录下修改acl.json文件（如不存在，则需要新建，建议放在工程编译后的out目录下），添加dump配置，格式如下所示。

模型推理场景下，开启Dump数据采集：

{                                                                                            
	"dump":{
		"dump_list":[                                                                        
			{	"model_name":"ResNet-101"
			},
			{                                                                                
				"model_name":"ResNet-50",
				"layer":[
				      "conv1conv1_relu",
				      "res2a_branch2ares2a_branch2a_relu",
				      "res2a_branch1",
				      "pool1"
				] 
			}  
		],  
		"dump_path":"$HOME/output",
                "dump_mode":"output",
		"dump_op_switch":"off",
                "dump_data":"tensor"
	}                                                                                        
}

单算子调用场景下，开启Dump数据采集：

{
    "dump":{
        "dump_path":"output",
        "dump_list":[], 
	"dump_op_switch":"on",
        "dump_data":"tensor"
    }
}

表1 acl.json文件格式说明

配置项

参数说明

dump_list

（必选）待dump数据的整网模型列表。

创建模型dump配置信息，当存在多个模型需要dump时，需要每个模型之间用英文逗号隔开。

在单算子调用场景（包括单算子模型执行和单算子API执行）下，dump_list为空。

model_name

模型名称，各个模型的model_name值须唯一。

模型加载方式为文件加载时，填入模型文件的名称，不需要带后缀名；也可以配置为ATC模型文件转换后的json文件里的最外层"name"字段对应值。
模型加载方式为内存加载时，配置为ATC模型文件转换后的json文件里的最外层"name"字段对应值。

layer

IO性能相对较差时，可能会出现由于数据量过大导致执行超时，所以不建议全量dump，请指定算子进行dump。通过该字段可以指定需要dump的算子名，支持指定为ATC模型转换后的算子名，也支持指定为转换前的原始算子名，配置时需注意：

需按格式配置，每行配置模型中的一个算子名，且每个算子之间用英文逗号隔开。
用户可以无需设置model_name，此时会默认dump所有model下的相应算子。如果配置了model_name，则dump对应model下的相应算子。
若指定的算子其输入涉及data算子，会同时将data算子信息dump出来；若需dump data算子，需要一并填写data节点算子的后继节点，才能dump出data节点算子数据。
当需要dump模型中所有算子时，不需要包含layer字段。

dump_path

（必选）dump数据文件存储到运行环境的目录，该目录需要提前创建且确保安装时配置的运行用户具有读写权限。

支持配置绝对路径或相对路径：

绝对路径配置以“/”开头，例如：/home/output。
相对路径配置直接以目录名开始，例如：output。

dump_mode

dump数据模式。

input：dump算子的输入数据。
output：dump算子的输出数据，默认取值output。
all：dump算子的输入、输出数据。
注意，配置为all时，由于部分算子在执行过程中会修改输入数据，例如集合通信类算子HcomAllGather、HcomAllReduce等，因此系统在进行dump时，会在算子执行前dump算子输入，在算子执行后dump算子输出，这样，针对同一个算子，算子输入、输出的dump数据是分开落盘，会出现多个dump文件，在解析dump文件后，用户可通过文件内容判断是输入还是输出。

dump_level

dump数据级别，取值：

op：按算子级别dump数据。
kernel：按kernel级别dump数据。
all：默认值，op和kernel级别的数据都dump。

默认配置下，dump数据文件会比较多，例如有一些aclnn开头的dump文件，若用户对dump性能有要求或内存资源有限时，则可以将该参数设置为op级别，以便提升dump性能、精简dump数据文件数量。

说明：

算子是一个运算逻辑的表示（如加减乘除运算），kernel是运算逻辑真正进行计算处理的实现，需要分配具体的计算设备完成计算。

dump_op_switch

单算子调用场景（包括单算子模型执行和单算子API执行）下，是否开启dump数据采集。

on：开启。
off：关闭，默认取值off。

dump_step

指定采集哪些迭代的Dump数据。推理场景无需配置。

不配置该参数，默认所有迭代都会产生dump数据，数据量比较大，建议按需指定迭代。

多个迭代用“|”分割，例如：0|5|10；也可以用“-”指定迭代范围，例如：0|3-5|10。

配置示例：

{
	"dump":{
		"dump_list":[     
			...... 
		],  
		"dump_path":"/home/output",
                "dump_mode":"output",
		"dump_op_switch":"off",
                "dump_step": "0|3-5|10"
	}  
}

说明：

训练场景下，若通过acl.json中的dump_step参数指定采集哪些迭代的Dump数据，又同时在GEInitialize接口中配置了ge.exec.dumpStep参数（该参数也用于指定采集哪些迭代的Dump数据），则以最后配置的参数为准。GEInitialize接口的详细介绍请参见《Ascend Graph开发指南》的“GEInitialize”。

dump_data

算子dump内容类型，取值：

tensor: dump算子数据，默认为tensor。
stats: dump算子统计数据，结果文件为csv格式，文件中包含算子名称、输入/输出的数据类型、最大值、最小值等。

通常dump数据量太大并且耗时长，可以先dump算子统计数据，根据统计数据识别可能异常的算子，然后再dump算子数据。

模型Dump场景下，会根据dump_mode处的配置统计算子输入或算子输出或算子输入&输出的信息。

dump_stats

仅当dump_data=stats时，可通过本参数设置收集统计数据中的哪一类数据，本参数取值如下：

Max：dump算子统计数据中的最大值。
Min：dump算子统计数据中的最小值。
Avg：dump算子统计数据中的平均值。
Nan：dump算子统计数据中未定义或不可表示的数值，仅针对浮点类型half、bfloat、float。
Negative Inf：dump算子统计数据中的负无穷值，仅针对浮点类型half、bfloat、float。
Positive Inf：dump算子统计数据中的正无穷值，仅针对浮点类型half、bfloat、float。
L2norm：dump算子统计数据的L2Norm值。

说明：

若不指定，默认采集Max、Min、Avg、Nan、Negative Inf、Positive Inf数据。

配置示例：

{
    "dump":{
	"dump_list":[     
		...... 
	],  
        "dump_path":"/home/output",
        "dump_mode":"output",
        "dump_data":"stats",
        "dump_stats":["Max", "Min"]
    }
}

运行应用程序，生成dump数据文件，生成的路径及格式说明如下。

dump数据文件路径为：{dump_path}/{time}/{deviceid}/{model_name}/{model_id}/{data_index}/{dump文件}

单算子模型dump时为{dump_path}/{time}/{deviceid}/{dump文件}

表2 dump数据文件路径说明
路径key	说明	备注
dump_path	acl.json中配置的dump数据文件存储目录。	dump数据文件命名格式为：{op_type}.{op_name}.{task_id}.{stream_id}.{timestamp}
time	dump数据文件落盘的时间。	格式为：YYYYMMDDHHMMSS
deviceid	Device设备ID号。	-
model_name	模型名称。	如果model_name出现了“.”、“/”、“\”、空格时，转换为下划线表示。
model_id	模型ID号。	-
data_index	针对每个Task ID执行的次数维护一个序号，从0开始计数，该Task每dump一次数据，序号递增1。	-

dump文件如果op_type、op_name出现了“.”、“/”、“\”、空格时，则会转换为下划线表示。
如果文件名称长度超过了OS文件名称长度限制（一般是255个字符），则会将该dump文件重命名为一串随机数字，映射关系可查看同目录下的mapping.csv。
图执行时，如下算子不会产生dump数据：
- 在图执行前，某些算子明确不会下发到Device侧执行，如条件类算子(if/while/for/case等)、数据类算子(Data/RefData/Const等)、数据流算子(StackPush/StackPop/Concat/Split等)。
- 在图优化过程中，GE会标识部分算子不下发到Device侧执行，这些算子的Dump图中attr的_no_task属性为true。
- 图中走不到最终执行分支的算子。

准备离线模型dump数据文件

使用前须知

dump数据