下载
中文
注册

aclInit

函数功能

AscendCL初始化函数。

约束说明

  • 使用AscendCL接口开发应用时,必须先调用aclInit接口,否则可能会导致后续系统内部资源初始化出错,进而导致其它业务异常。
  • 一个进程内只能调用一次aclInit接口,且与aclFinalize去初始化接口配对使用。

函数原型

aclError aclInit(const char *configPath)

参数说明

参数名

输入/输出

说明

configPath

输入

配置文件所在路径(包含文件名)的指针。配置文件内容为json格式(json文件内的“{”的层级最多为10,“[”的层级最多为10)。

初始化AscendCL时,可通过该配置文件开启或设置以下功能,如果以下的默认配置已满足需求,无需修改,可向aclInit接口中传入NULL,或者可将配置文件配置为空json串(即配置文件中只有{})。

  • Dump信息配置,包括以下配置:
    • 模型Dump配置(用于导出模型中每一层算子输入和输出数据)、单算子Dump配置(用于导出单个算子的输入和输出数据),导出的数据用于与指定模型或算子进行比对,定位精度问题,配置示例、说明及约束请参见配置文件示例(模型Dump配置、单算子Dump配置)默认不启用该dump配置。

      通过本接口启用Dump配置,需通过dump_path参数配置Dump数据的落盘路径,如果无需落盘,则可以通过回调函数获取Dump数据,请参见acldumpRegCallback

    • 异常算子Dump配置(用于导出异常算子的输入输出数据、workspace信息、Tiling信息),导出的数据用于分析AI Core Error问题,配置示例请参见配置文件示例(异常算子Dump配置)默认不启用该dump配置。
    • 溢出算子Dump配置(用于导出模型中溢出算子的输入和输出数据),导出的数据用于分析溢出原因,定位模型精度的问题,配置示例、说明及约束请参见配置文件示例(溢出算子Dump配置)默认不启用该dump配置。
    • 算子Dump Watch模式配置(用于开启指定算子输出数据的观察模式),在定位部分算子精度问题且已排除算子本身的计算问题后,若怀疑被其它算子踩踏内存导致精度问题,可开启Dump Watch模式,配置示例及约束请参见配置文件示例(算子Dump Watch模式配置)默认不开启Dump Watch模式。
  • Profiling采集信息配置,配置示例、说明及约束请参见性能调优工具指南中的使用acl.json配置文件采集默认不启用Profiling采集信息配置。
  • 算子缓存信息老化配置,通过单算子模型方式执行单个算子时(aclopUpdateParams接口执行单算子除外),为节约内存和平衡调用性能,可通过max_opqueue_num参数配置“算子类型-单算子模型”映射队列的最大长度,如果长度达到最大,则会先删除长期未使用的映射信息以及缓存中的单算子模型,再加载最新的映射信息以及对应的单算子模型。如果不配置映射队列的最大长度,则默认最大长度为20000。示例及约束说明请参见配置文件示例(算子缓存信息老化配置)

    关于单算子模型的介绍请参见单算子调用流程

  • 错误信息上报模式配置,用于控制aclGetRecentErrMsg接口按进程或线程级别获取错误信息,默认按线程级别。示例请参见配置文件示例(错误信息上报模式配置)
  • 默认Device配置(用于配置默认的计算设备),配置示例、说明请参见默认Device配置示例

    若同时通过aclrtSetDevice接口指定Device,则aclrtSetDevice接口优先级高。

    如果用户开启默认Device功能后,若需要显式创建Context,则需要调用aclrtSetDevice,否则可能会导致业务异常。

说明:

建议不要同时配置dump信息和Profiling采集信息,否则dump操作会影响系统性能,导致Profiling采集的性能数据指标不准确。

返回值说明

返回0表示成功,返回其他值表示失败。

配置文件示例(模型Dump配置、单算子Dump配置)

模型Dump配置示例如下:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
{                                                                                            
	"dump":{
		"dump_list":[                                                                        
			{	"model_name":"ResNet-101"
			},
			{                                                                                
				"model_name":"ResNet-50",
				"layer":[
				      "conv1conv1_relu",
				      "res2a_branch2ares2a_branch2a_relu",
				      "res2a_branch1",
				      "pool1"
				] 
			}  
		],  
		"dump_path":"$HOME/output",
                "dump_mode":"output",
		"dump_op_switch":"off",
                "dump_data":"tensor"
	}                                                                                        
}

单算子Dump场景下,单算子模型执行方式的Dump配置示例如下:

1
2
3
4
5
6
7
8
{
    "dump":{
        "dump_path":"output",
        "dump_list":[], 
	"dump_op_switch":"on",
        "dump_data":"tensor"
    }
}

单算子Dump场景下,单算子API执行方式的Dump配置示例如下:

1
2
3
4
5
6
7
{
    "dump":{
        "dump_path":"output",
        "dump_list":[], 
        "dump_data":"tensor"
    }
}
表1 acl.json文件格式说明

配置项

参数说明

dump_list

(必选)待dump数据的整网模型列表。

创建模型dump配置信息,当存在多个模型需要dump时,需要每个模型之间用英文逗号隔开。

在单算子调用场景(包括单算子模型执行和单算子API执行)下,dump_list为空。

model_name

模型名称,各个模型的model_name值须唯一。

  • 模型加载方式为文件加载时,填入模型文件的名称,不需要带后缀名;也可以配置为ATC模型文件转换后的json文件里的最外层"name"字段对应值。
  • 模型加载方式为内存加载时,配置为ATC模型文件转换后的json文件里的最外层"name"字段对应值。

layer

IO性能相对较差时,可能会出现由于数据量过大导致执行超时,所以不建议全量dump,请指定算子进行dump。通过该字段可以指定需要dump的算子名,支持指定为ATC模型转换后的算子名,也支持指定为转换前的原始算子名,配置时需注意:

  • 需按格式配置,每行配置模型中的一个算子名,且每个算子之间用英文逗号隔开。
  • 用户可以无需设置model_name,此时会默认dump所有model下的相应算子。如果配置了model_name,则dump对应model下的相应算子。
  • 若指定的算子其输入涉及data算子,会同时将data算子信息dump出来;若需dump data算子,需要一并填写data节点算子的后继节点,才能dump出data节点算子数据。
  • 当需要dump模型中所有算子时,不需要包含layer字段。

dump_path

(必选)dump数据文件存储到运行环境的目录,该目录需要提前创建且确保安装时配置的运行用户具有读写权限。

支持配置绝对路径或相对路径:
  • 绝对路径配置以“/”开头,例如:$HOME/output。
  • 相对路径配置直接以目录名开始,例如:output。

dump_mode

dump数据模式。

  • input:dump算子的输入数据。
  • output:dump算子的输出数据,默认取值output。
  • all:dump算子的输入、输出数据。

    注意,配置为all时,由于部分算子在执行过程中会修改输入数据,例如集合通信类算子HcomAllGather、HcomAllReduce等,因此系统在进行dump时,会在算子执行前dump算子输入,在算子执行后dump算子输出,这样,针对同一个算子,算子输入、输出的dump数据是分开落盘,会出现多个dump文件,在解析dump文件后,用户可通过文件内容判断是输入还是输出。

dump_level

dump数据级别,取值:

  • op:按算子级别dump数据。
  • kernel:按kernel级别dump数据。
  • all:默认值,op和kernel级别的数据都dump。

默认配置下,dump数据文件会比较多,例如有一些aclnn开头的dump文件,若用户对dump性能有要求或内存资源有限时,则可以将该参数设置为op级别,以便提升dump性能、精简dump数据文件数量。

说明:

算子是一个运算逻辑的表示(如加减乘除运算),kernel是运算逻辑真正进行计算处理的实现,需要分配具体的计算设备完成计算。

dump_op_switch

单算子Dump场景下,单算子模型执行方式的dump数据开关。

  • on:开启单算子模型dump。
  • off:关闭单算子模型dump,默认取值off。

dump_step

指定采集哪些迭代的Dump数据。推理场景无需配置。

不配置该参数,默认所有迭代都会产生dump数据,数据量比较大,建议按需指定迭代。

多个迭代用“|”分割,例如:0|5|10;也可以用“-”指定迭代范围,例如:0|3-5|10。

配置示例:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
{
	"dump":{
		"dump_list":[     
			...... 
		],  
		"dump_path":"$HOME/output",
                "dump_mode":"output",
		"dump_op_switch":"off",
                "dump_step": "0|3-5|10"
	}  
}
说明:

训练场景下,若通过acl.json中的dump_step参数指定采集哪些迭代的Dump数据,又同时在GEInitialize接口中配置了ge.exec.dumpStep参数(该参数也用于指定采集哪些迭代的Dump数据),则以最后配置的参数为准。GEInitialize接口的详细介绍请参见Ascend Graph开发指南“图开发接口 > Ascend Graph API > Graph运行接口 > GEInitialize”

dump_data

算子dump内容类型,取值:

  • tensor: dump算子数据,默认为tensor。
  • stats: dump算子统计数据,结果文件为csv格式,文件中包含算子名称、输入/输出的数据类型、最大值、最小值等。

通常dump数据量太大并且耗时长,可以先dump算子统计数据,根据统计数据识别可能异常的算子,然后再dump算子数据。

模型Dump场景下,会根据dump_mode处的配置统计算子输入或算子输出或算子输入&输出的信息。

配置文件示例(异常算子Dump配置)

将dump_scene参数设置为lite_exception或lite_exception_with_shape,表示启用异常算子Dump功能,同时可配合使用ASCEND_WORK_PATH环境变量配置落盘路径,否则落盘在应用程序的当前执行目录下。

注意

  • 异常算子Dump配置,不能与模型Dump配置或单算子Dump配置同时开启,否则模型Dump或单算子Dump不生效。
  • lite_exception_with_shape为试验特性,后续版本可能会存在变更,不支持应用于商用产品中。lite_exception_with_shape与lite_exception的区别在于,图场景下,设置为lite_exception_with_shape可以导出带有算子Shape信息的Dump文件。

配置文件中的示例内容如下:

{
   "dump":{
           "dump_scene":"lite_exception"
    }
}

此处收集的dump文件无法通过文本工具直接查看其内容,若需查看dump文件内容,先将dump文件转换为numpy格式文件后,再通过Python查看numpy格式文件,详细转换步骤请参见精度调试工具指南中的查看dump数据文件章节。

配置文件示例(溢出算子Dump配置)

溢出算子Dump配置的相关约束说明如下:
  • 将dump_debug配置为on表示开启溢出算子配置,不配置dump_debug或将dump_debug配置为off表示不开启溢出算子配置。
  • 若开启溢出算子配置,则dump_path必须配置,表示导出dump文件的存储路径。
    支持配置绝对路径或相对路径:
    • 绝对路径配置以“/”开头,例如:/home。
    • 相对路径配置直接以目录名开始,例如:output。
  • 溢出算子Dump配置,不能与模型Dump配置或单算子Dump配置同时开启,否则会返回报错。
  • 仅支持采集AI Core算子的溢出数据。
配置文件中的示例内容如下:
{
    "dump":{
        "dump_path":"output",
        "dump_debug":"on"
    }
}

获取导出的数据文件后,文件的解析请参见精度调试工具指南中的溢出算子数据采集与解析章节。

配置文件示例(算子Dump Watch模式配置)

将dump_scene参数设置为watcher,开启算子Dump Watch模式,详细配置说明及约束如下:

  • 若开启算子Dump Watch模式,则不支持同时开启溢出算子Dump(配置dump_debug参数)或开启单算子模型Dump(配置dump_op_switch参数),否则报错。该模式在单算子API Dump场景下不生效。
  • 在dump_list中,通过layer参数配置可能踩踏其它算子内存的算子名称,通过watcher_nodes参数配置可能被其它算子踩踏输出内存导致精度有问题的算子名称。
    • 若不指定layer,则模型内所有支持Dump的算子在执行后,都会将watcher_nodes中配置的算子的输出Dump出来。
    • layer和watcher_node处配置的算子都必须是静态图、静态子图中的算子,否则不生效。
    • 若layer和watcher_node处配置的算子名称相同,或者layer处配置的是集合通信类算子(算子类型以Hcom开头,例如HcomAllReduce),则不导出dump文件。
    • 对于融合算子,watcher_node处配置的算子名称必须是融合后的算子名称,若配置融合前的算子名称,则不导出dump文件。
    • dump_list内暂不支持配置model_name。
  • 开启算子Dump Watch模式,则dump_path必须配置,表示导出dump文件的存储路径。
    支持配置绝对路径或相对路径:
    • 绝对路径配置以“/”开头,例如:/home。
    • 相对路径配置直接以目录名开始,例如:output。
  • 通过dump_mode参数控制导出watcher_nodes中所配置算子的哪部分数据,当前仅支持配置为output。

配置文件中的示例内容如下,配置效果为:当执行完A算子和B算子时,会把C算子和D算子的输出Dump出来,导出C算子opType.A_To_C.*D算子opType.A_To_D.*C算子opType.B_To_C.*、D算子opType.B_To_D.*四个dump文件,用于排查A算子、B算子是否会踩踏C算子、D算子的输出内存。

{
    "dump":{
        "dump_list":[
            {
                "layer":["A", "B"],
                "watcher_nodes":["C", "D"]
            }
        ],
        "dump_path":"/home/",
        "dump_mode":"output",
        "dump_scene":"watcher"
    }
}

此处收集的dump文件无法通过文本工具直接查看其内容,若需查看dump文件内容,先将dump文件转换为numpy格式文件后,再通过Python查看numpy格式文件,详细转换步骤请参见精度调试工具指南中的查看dump数据文件章节。

配置文件示例(算子缓存信息老化配置)

算子缓存信息老化配置的相关约束说明如下:

  • 对于静态加载的算子,调用aclopSetModelDir接口加载指定目录下的单算子模型或调用aclopLoad接口加载指定单算子模型时,老化配置无效,不会对该部分的算子信息做老化。
  • 在线编译算子的场景下,调用aclopCompile接口编译算子或调用aclopCompileAndExecute接口编译执行算子时,接口内部会按照入参加载单算子模型,老化配置有效。

    如果用户调用aclopCompile接口编译算子、调用aclopExecuteV2接口执行算子,则在编译算子后需及时执行算子,否则可能导致执行算子时,算子信息已被老化,需要重新编译。建议调用aclopCompileAndExecuteV2接口编译执行算子。

  • AscendCL内部分开维护固定Shape和动态Shape算子的映射队列,最大长度都为max_opqueue_num参数值。
  • max_opqueue_num参数值为静态加载算子的单算子模型个数和在线编译算子的单算子模型个数的总和,因此max_opqueue_num参数值应大于当前进程中可用的、静态加载算子的单算子模型个数,否则会导致在线编译算子的信息无法老化。

配置文件中的示例内容如下:

{
        "max_opqueue_num": "10000"
}

配置文件示例(错误信息上报模式配置)

err_msg_mode参数取值范围:0为默认值,表示按线程级别获取错误信息;1表示按进程级别获取错误信息。

配置文件中的示例内容如下:

{
        "err_msg_mode": "1"
}

默认Device配置示例

default_device参数处设置Device ID,Device ID可设置为0或十进制正整数,用户可调用aclrtGetDeviceCount接口获取可用的Device数量后,这个Device ID的取值范围:[0, (可用的Device数量-1)]。

配置文件中的示例内容如下:

{
    "defaultDevice":{
        "default_device":"0"
    }
}

相关接口

AscendCL还提供了其它使能Dump或Profiling的接口,如下,与aclInit不同的是,以下这些接口相对灵活,可以在一个进程内调用多次接口,每次调用接口时可以基于不同的Dump配置或Profiling配置。

参考资源

接口调用示例,参见AscendCL初始化