aclmdlSetDump

函数功能

设置Dump参数。

aclmdlInitDump接口、aclmdlSetDump接口、aclmdlFinalizeDump接口配合使用，用于将Dump数据记录到文件中。一个进程内，可以根据需求多次调用这些接口，基于不同的Dump配置信息，获取Dump数据。场景举例如下：

执行两个不同的模型，需要设置不同的Dump配置信息，接口调用顺序：aclInit接口-->aclmdlInitDump接口-->aclmdlSetDump接口-->模型1加载-->模型1执行-->aclmdlFinalizeDump接口-->模型1卸载-->aclmdlInitDump接口-->aclmdlSetDump接口-->模型2加载-->模型2执行-->aclmdlFinalizeDump接口-->模型2卸载-->执行其它任务-->aclFinalize接口
同一个模型执行两次，第一次需要Dump，第二次无需Dump，接口调用顺序：aclInit接口-->aclmdlInitDump接口-->aclmdlSetDump接口-->模型加载-->模型执行-->aclmdlFinalizeDump接口-->模型卸载-->模型加载-->模型执行-->执行其它任务-->aclFinalize接口

约束说明

只有在调用本接口之后加载模型，配置的Dump信息有效。在调用本接口之前已经加载的模型不受影响，除非用户在调用本接口后重新加载该模型。
例如以下接口调用顺序中，加载的模型1不受影响，配置的Dump信息仅对加载的模型2有效：

aclmdlInitDump接口-->模型1加载-->aclmdlSetDump接口-->模型2加载-->aclmdlFinalizeDump接口
多次调用本接口对同一个模型配置了Dump信息，系统内处理时会采用覆盖策略。
例如以下接口调用顺序中，第二次调用本接口配置的Dump信息会覆盖第一次配置的Dump信息：

aclmdlInitDump接口-->aclmdlSetDump接口-->aclmdlSetDump接口-->模型1加载-->aclmdlFinalizeDump接口

函数原型

aclError aclmdlSetDump(const char *dumpCfgPath)

参数说明

参数名	输入/输出	说明
dumpCfgPath	输入	配置文件路径的指针，包含文件名。配置文件格式为json格式。当前支持以下Dump信息配置：模型Dump配置（用于导出模型中每一层算子输入和输出数据）、单算子Dump配置（用于导出单个算子的输入和输出数据），导出的数据用于与指定模型或算子进行比对，定位精度问题，配置示例、说明及约束请参见配置文件示例（模型Dump配置、单算子Dump配置）。默认不启用该dump配置。异常算子Dump配置（用于导出异常算子的输入输出数据、workspace信息、Tiling信息），导出的数据用于分析AI Core Error问题，配置示例请参见配置文件示例（异常算子Dump配置）。默认不启用该dump配置。溢出算子Dump配置（用于导出模型中溢出算子的输入和输出数据），导出的数据用于分析溢出原因，定位模型精度的问题，配置示例、说明及约束请参见配置文件示例（溢出算子Dump配置）。默认不启用该dump配置。算子Dump Watch模式配置（用于开启指定算子输出数据的观察模式），在定位部分算子精度问题且已排除算子本身的计算问题后，若怀疑被其它算子踩踏内存导致精度问题，可开启Dump Watch模式，配置示例及约束请参见配置文件示例（算子Dump Watch模式配置）。默认不开启Dump Watch模式。

配置文件示例（模型Dump配置、单算子Dump配置）

模型Dump配置示例如下：

{                                                                                            
	"dump":{
		"dump_list":[                                                                        
			{	"model_name":"ResNet-101"
			},
			{                                                                                
				"model_name":"ResNet-50",
				"layer":[
				      "conv1conv1_relu",
				      "res2a_branch2ares2a_branch2a_relu",
				      "res2a_branch1",
				      "pool1"
				] 
			}  
		],  
		"dump_path":"$HOME/output",
                "dump_mode":"output",
		"dump_op_switch":"off",
                "dump_data":"tensor"
	}                                                                                        
}

单算子Dump配置示例如下：

{
    "dump":{
        "dump_path":"output",
        "dump_list":[], 
	"dump_op_switch":"on",
        "dump_data":"tensor"
    }
}

表1 acl.json文件格式说明
配置项	参数说明
dump_list	（必选）待dump数据的整网模型列表。创建模型dump配置信息，当存在多个模型需要dump时，需要每个模型之间用英文逗号隔开。在单算子执行场景下，dump_list为空。
model_name	模型名称，各个模型的model_name值须唯一。模型加载方式为文件加载时，填入模型文件的名称，不需要带后缀名；也可以配置为ATC模型文件转换后的json文件里的最外层"name"字段对应值。模型加载方式为内存加载时，配置为ATC模型文件转换后的json文件里的最外层"name"字段对应值。
layer	IO性能相对较差时，可能会出现由于数据量过大导致执行超时，所以不建议全量dump，请指定算子进行dump。通过该字段可以指定需要dump的算子名，支持指定为ATC模型转换后的算子名，也支持指定为转换前的原始算子名，配置时需注意：需按格式配置，每行配置模型中的一个算子名，且每个算子之间用英文逗号隔开。用户可以无需设置model_name，此时会默认dump所有model下的相应算子。如果配置了model_name，则dump对应model下的相应算子。若指定的算子其输入涉及data算子，会同时将data算子信息dump出来；若需dump data算子，需要一并填写data节点算子的后继节点，才能dump出data节点算子数据。当需要dump模型中所有算子时，不需要包含layer字段。
dump_path	（必选）dump数据文件存储到运行环境的目录，该目录需要提前创建且确保安装时配置的运行用户具有读写权限。支持配置绝对路径或相对路径：绝对路径配置以“/”开头，例如：$HOME/output。相对路径配置直接以目录名开始，例如：output。
dump_mode	dump数据模式。 input：dump算子的输入数据。 output：dump算子的输出数据，默认取值output。 all：dump算子的输入、输出数据。注意，配置为all时，由于部分算子在执行过程中会修改输入数据，例如集合通信类算子HcomAllGather、HcomAllReduce等，因此系统在进行dump时，会在算子执行前dump算子输入，在算子执行后dump算子输出，这样，针对同一个算子，算子输入、输出的dump数据是分开落盘，会出现多个dump文件，在解析dump文件后，用户可通过文件内容判断是输入还是输出。
dump_level	dump数据级别，取值： op：按算子级别dump数据。 kernel：按kernel级别dump数据。 all：默认值，op和kernel级别的数据都dump。默认配置下，dump数据文件会比较多，例如有一些aclnn开头的dump文件，若用户对dump性能有要求或内存资源有限时，则可以将该参数设置为op级别，以便提升dump性能、精简dump数据文件数量。说明：算子是一个运算逻辑的表示（如加减乘除运算），kernel是运算逻辑真正进行计算处理的实现，需要分配具体的计算设备完成计算。
dump_op_switch	单算子模型dump数据开关。 on：开启单算子模型dump。 off：关闭单算子模型dump，默认取值off。
dump_step	指定采集哪些迭代的Dump数据。推理场景无需配置。不配置该参数，默认所有迭代都会产生dump数据，数据量比较大，建议按需指定迭代。多个迭代用“\|”分割，例如：0\|5\|10；也可以用“-”指定迭代范围，例如：0\|3-5\|10。配置示例： { "dump":{ "dump_list":[ ...... ], "dump_path":"$HOME/output", "dump_mode":"output", "dump_op_switch":"off" "dump_step": "0\|3-5\|10" } } 说明：训练场景下，若通过acl.json中的dump_step参数指定采集哪些迭代的Dump数据，又同时在GEInitialize接口中配置了ge.exec.dumpStep参数（该参数也用于指定采集哪些迭代的Dump数据），则以最后配置的参数为准。GEInitialize接口的详细介绍请参见《Ascend Graph开发指南》。
dump_data	算子dump内容类型，取值： tensor: dump算子数据，默认为tensor。 stats: dump算子统计数据，结果文件为csv格式，文件中包含算子名称、输入/输出的数据类型、最大值、最小值等。通常dump数据量太大并且耗时长，可以先dump算子统计数据，根据统计数据识别可能异常的算子，然后再dump算子数据。模型Dump场景下，会根据dump_mode处的配置统计算子输入或算子输出或算子输入&输出的信息。

配置文件示例（异常算子Dump配置）

将dump_scene参数设置为lite_exception，启用异常算子Dump功能，同时可配合使用ASCEND_WORK_PATH环境变量配置落盘路径，否则落盘在应用程序的当前执行目录下。注意，异常算子Dump配置，不能与模型Dump配置或单算子Dump配置同时开启，否则模型Dump或单算子Dump不生效。

配置文件中的示例内容如下：

{
   "dump":{
           "dump_scene":"lite_exception"
    }
}

此处收集的dump文件无法通过文本工具直接查看其内容，若需查看dump文件内容，先将dump文件转换为numpy格式文件后，再通过Python查看numpy格式文件，详细转换步骤请参见《精度调试工具使用指南》中的“查看dump数据文件”章节。

配置文件示例（溢出算子Dump配置）

溢出算子Dump配置的相关约束说明如下：

将dump_debug配置为on表示开启溢出算子配置，不配置dump_debug或将dump_debug配置为off表示不开启溢出算子配置。
若开启溢出算子配置，则dump_path必须配置，表示导出dump文件的存储路径。
支持配置绝对路径或相对路径：
- 绝对路径配置以“/”开头，例如：/home。
- 相对路径配置直接以目录名开始，例如：output。
获取导出的数据文件后，如何解析请参见溢出算子数据采集及分析。
溢出算子Dump配置，不能与模型Dump配置或单算子Dump配置同时开启，否则会返回报错。
仅支持采集AI Core算子的溢出数据。

配置文件中的示例内容如下：

{
    "dump":{
        "dump_path":"output",
        "dump_debug":"on"
    }
}

配置文件示例（算子Dump Watch模式配置）

将dump_scene参数设置为watcher，开启算子Dump Watch模式，详细配置说明及约束如下：

若开启算子Dump Watch模式，则不支持同时开启溢出算子Dump（配置dump_debug参数）或开启单算子模型Dump（配置dump_op_switch参数），否则报错。
在dump_list中，通过layer参数配置可能踩踏其它算子内存的算子名称，通过watcher_nodes参数配置可能被其它算子踩踏输出内存导致精度有问题的算子名称。
- 若不指定layer，则模型内所有支持Dump的算子在执行后，都会将watcher_nodes中配置的算子的输出Dump出来。
- layer和watcher_node处配置的算子都必须是静态图、静态子图中的算子，否则不生效。
- 若layer和watcher_node处配置的算子名称相同，或者layer处配置的是集合通信类算子（算子类型以Hcom开头，例如HcomAllReduce），则不导出dump文件。
- 对于融合算子，watcher_node处配置的算子名称必须是融合后的算子名称，若配置融合前的算子名称，则不导出dump文件。
- dump_list内暂不支持配置model_name。
开启算子Dump Watch模式，则dump_path必须配置，表示导出dump文件的存储路径。
支持配置绝对路径或相对路径：
- 绝对路径配置以“/”开头，例如：/home。
- 相对路径配置直接以目录名开始，例如：output。
通过dump_mode参数控制导出watcher_nodes中所配置算子的哪部分数据，当前仅支持配置为output。

配置文件中的示例内容如下，配置效果为：当执行完A算子和B算子时，会把C算子和D算子的输出Dump出来，导出C算子opType.A_To_C.*、D算子opType.A_To_D.*、C算子opType.B_To_C.*、D算子opType.B_To_D.*四个dump文件，用于排查A算子、B算子是否会踩踏C算子、D算子的输出内存。

{
    "dump":{
        "dump_list":[
            {
                "layer":["A", "B"],
                "watcher_nodes":["C", "D"]
            }
        ],
        "dump_path":"/home/",
        "dump_mode":"output",
        "dump_scene":"watcher"
    }
}

返回值说明

返回0表示成功，返回其他值表示失败。