准备离线模型dump数据文件

前提条件

请在dump数据前，完成模型对应的应用工程的编译、运行，确保工程正常。

每次推理都会产生dump数据，在循环次数较多的情况下，每次推理的dump数据量随之增大，建议dump数据时仅执行一次推理。同时对于大模型场景，通常dump数据量太大并且耗时长，可以通过dump_data开启算子统计功能，根据统计数据识别可能异常的算子后，再dump可能异常的算子。
Docker场景下，不支持将容器作为运行环境使用dump功能。
提供aclInit()接口和aclmdlSetDump()接口两种接口方式dump数据。
- aclInit()接口的详细使用方法请参见《AscendCL应用软件开发指南 (C&C++)》中的“AscendCL API参考 > 系统配置”。
- aclmdlSetDump()接口的详细使用方法请参见《AscendCL应用软件开发指南 (C&C++)》中的“AscendCL API参考 >模型推理 > 模型执行”。

dump数据

参考以下步骤进行离线模型dump操作：

打开aclInit()函数所在的推理应用工程代码文件，查看调用的aclInit()或aclmdlSetDump()函数，获取acl.json文件路径。

如果aclInit()或aclmdlSetDump()初始化为空，则需要修改该函数，补充步骤2创建的acl.json路径。这里的acl.json路径是相对工程编译生成的二进制文件的路径。

在查出的目录下修改acl.json文件（如不存在，则需要新建，建议放在工程编译后的out目录下），添加dump配置，格式如下所示。

模型Dump配置示例：

{                                                                                            
	"dump":{
		"dump_list":[                                                                        
			{	"model_name":"ResNet-101"
			},
			{                                                                                
				"model_name":"ResNet-50",
				"layer":[
				      "conv1conv1_relu",
				      "res2a_branch2ares2a_branch2a_relu",
				      "res2a_branch1",
				      "pool1"
				] 
			}  
		],  
		"dump_path":"$HOME/output",
                "dump_mode":"output",
		"dump_op_switch":"off",
                "dump_data":"tensor"
	}                                                                                        
}

单算子Dump配置示例：

{
    "dump":{
        "dump_path":"output",
        "dump_list":[], 
	"dump_op_switch":"on",
        "dump_data":"tensor"
    }
}

表1 acl.json文件格式说明
配置项	参数说明
dump_list	（必选）待dump数据的整网模型列表。创建模型dump配置信息，当存在多个模型需要dump时，需要每个模型之间用英文逗号隔开。在单算子执行场景下，dump_list为空。
model_name	模型名称，各个模型的model_name值须唯一。模型加载方式为文件加载时，填入模型文件的名称，不需要带后缀名；也可以配置为ATC模型文件转换后的json文件里的最外层"name"字段对应值。模型加载方式为内存加载时，配置为ATC模型文件转换后的json文件里的最外层"name"字段对应值。
layer	IO性能相对较差时，可能会出现由于数据量过大导致执行超时，所以不建议全量dump，请指定算子进行dump。通过该字段可以指定需要dump的算子名，支持指定为ATC模型转换后的算子名，也支持指定为转换前的原始算子名，配置时需注意：需按格式配置，每行配置模型中的一个算子名，且每个算子之间用英文逗号隔开。用户可以无需设置model_name，此时会默认dump所有model下的相应算子。如果配置了model_name，则dump对应model下的相应算子。若指定的算子其输入涉及data算子，会同时将data算子信息dump出来；若需dump data算子，需要一并填写data节点算子的后继节点，才能dump出data节点算子数据。当需要dump模型中所有算子时，不需要包含layer字段。
dump_path	（必选）dump数据文件存储到运行环境的目录，该目录需要提前创建且确保安装时配置的运行用户具有读写权限。支持配置绝对路径或相对路径：绝对路径配置以“/”开头，例如：$HOME/output。相对路径配置直接以目录名开始，例如：output。
dump_mode	dump数据模式。 input：dump算子的输入数据。 output：dump算子的输出数据，默认取值output。 all：dump算子的输入、输出数据。
dump_level	dump数据级别，取值： op：按算子级别dump数据 kernel：按kernel级别dump数据 all：默认值，op和kernel级别的数据都dump。默认配置下，dump数据文件会比较多，例如有一些aclnn开头的dump文件，若用户对dump性能有要求或内存资源有限时，则可以将该参数设置为op级别，以便提升dump性能、精简dump数据文件数量。说明：算子是一个运算逻辑的表示（如加减乘除运算），kernel是运算逻辑真正进行计算处理的实现，需要分配具体的计算设备完成计算。
dump_op_switch	单算子模型dump数据开关。 on：开启单算子模型dump。 off：关闭单算子模型dump，默认取值off。
dump_step	指定采集哪些迭代的Dump数据。推理场景无需配置。不配置该参数，默认所有迭代都会产生dump数据，数据量比较大，建议按需指定迭代。多个迭代用“\|”分割，例如：0\|5\|10；也可以用“-”指定迭代范围，例如：0\|3-5\|10。配置示例： { "dump":{ "dump_list":[ ...... ], "dump_path":"$HOME/output", "dump_mode":"output", "dump_op_switch":"off" "dump_step": "0\|3-5\|10" } } 说明：训练场景下，若通过acl.json中的dump_step参数指定采集哪些迭代的Dump数据，又同时在GEInitialize接口中配置了ge.exec.dumpStep参数（该参数也用于指定采集哪些迭代的Dump数据），则以最后配置的参数为准。GEInitialize接口的详细介绍请参见《Ascend Graph开发指南》。
dump_data	算子dump内容类型，取值： tensor: dump算子数据，默认为tensor。 stats: dump算子统计数据，结果文件为csv格式，文件中包含算子名称、输入/输出的数据类型、最大值、最小值等。通常dump数据量太大并且耗时长，可以先dump算子统计数据，根据统计数据识别可能异常的算子，然后再dump算子数据。模型Dump场景下，会根据dump_mode处的配置统计算子输入或算子输出或算子输入&输出的信息。

运行应用工程，生成dump数据文件。

工程运行完毕后，可以在运行环境查看到生成的dump数据文件。生成的路径及格式说明：

{dump_path}/{time}/{deviceid}/{model_name}/{model_id}/{data_index}/{dump文件}
单算子模型dump时为{dump_path}/{time}/{deviceid}/{dump文件}

表2 dump数据文件路径说明
路径key	说明	备注
dump_path	acl.json中配置的dump数据文件存储目录。	-
time	dump数据文件落盘的时间。	格式为：YYYYMMDDHHMMSS
deviceid	Device设备ID号。	-
model_name	模型名称。	如果model_name出现了“.”、“/”、“\”、空格时，转换为下划线表示。
model_id	模型ID号。	-
data_index	针对每个Task ID执行的次数维护一个序号，从0开始计数，该Task每dump一次数据，序号递增1。	-

dump文件命名格式需满足数据格式要求。如果文件名称长度超过了OS文件名称长度限制（一般是255个字符），则会将该dump文件重命名为一串随机数字，映射关系可查看同目录下的mapping.csv。
图执行时，如下算子不会产生dump数据：
- 在图执行前，某些算子明确不会下发到Device侧执行，如条件类算子(if/while/for/case等)、数据类算子(Data/RefData/Const等)、数据流算子(StackPush/StackPop/Concat/Split等)。
- 在图优化过程中，GE会标识部分算子不下发到Device侧执行，这些算子的Dump图中attr的_no_task属性为true。
- 图中走不到最终执行分支的算子。

父主题： GPU/CPU vs NPU（Caffe推理）