CPU孪生调试功能

功能介绍

当用户需要快速进行代码逻辑调试，可优先选择算子CPU调测。使用通用的打印、gdb调测手段，快速定位代码问题。
在NPU板端上板运行之前，可优先选择算子CPU调测初步定位算子精度问题，提高算子NPU上板成功率。

CPU孪生调试主要基于用户输入生成编译所需的二进制bin文件，然后自动执行算子编译和运行，该阶段支持的调测项如表1所示。

表1 CPU调测功能列表
功能名称	功能说明
自动精度比对	若用户配置了标杆数据（golden数据），工具会自动将实际调测运行结果与标杆数据进行精度比对。
printf/PRINTF功能	支持屏显打印Scalar数据，如常量、字符串等信息，功能与NPU上板打印类似，不再赘述，具体参考printf/PRINTF功能。
DumpTensor功能	支持dump Tensor数据，功能和产物与NPU上板dump功能类似，不再赘述，具体参考DumpTensor功能。
DumpAccChkPoint功能	支持dump偏移位置的Tensor数据，功能和产物与NPU上板dump功能类似，不再赘述，具体参考DumpAccChkPoint功能。
assert功能	支持屏显打印断言，其功能与NPU上板assert类似，不再赘述，具体参考assert功能。
npucheck功能	通过--npucheck或CpuOptions.npucheck开启，提供CPU内存校验和异常检测功能。

使用方法（命令行）

通过命令行进行CPU调测的关键步骤如下，详细样例参考核函数CPU孪生调试。

完成环境搭建，并准备好输入/标杆数据文件。

执行如下命令进行CPU调测，这里仅提供关键参数项，其余参数请参考CPU调测参数按需设置。

ascendebug kernel --backend cpu --json-file ${op_config_json_file} --repo-type ${repo_type} --chip-version ${chip_version} --core-type ${core_type} --install-path ${cann_install_path} --work-dir ${work_dir} ... {其他参数}

CPU调测涉及的所有参数可通过ascendebug kernel -h或ascendebug kernel --help查看。

查看结果文件，详细说明参见产物说明。

使用方法（API）

通过API进行CPU调测的关键步骤如下，详细样例参考核函数CPU孪生调试。

完成环境搭建，并准备好输入/标杆数据文件。

核函数直调工程场景下，需提前配置好核函数源码信息OpKernelInfo。
构建算子信息。调用DebugOp类里input系列接口（如tensor_input、custom_input等），设置算子的输入、输出、属性值等信息。
创建调试对象并初始化工作空间。调用create_op_executor接口，创建调试对象op_executor，用户可传入${work_dir}参数手动设置工作空间。
（可选）参考Tiling调测功能 > 使用方法（API）章节，调用Tiling调测接口生成Tiling Info文件。

本步骤仅适用于没有Tiling Info文件的场景，需调用Tiling调测API生成Tiling Info。
调用编译运行接口，在CPU上仿真运行核函数，完成输出数据精度比对。
1. 通过CpuOptions设置CPU编译和运行相关的功能，如npucheck功能。
2. 根据不同场景调用对应的CPU编译接口。
  - 标准自定义算子场景：调用run_custom_cpu接口。
  - 核函数直调场景：调用run_call_kernel_cpu接口。
  - ops_adv算子场景：调用run_ops_adv_cpu接口。
查看结果文件，详细说明参见产物说明。

产物说明

无论是命令行方式或API方式，CPU调测结果存放在${root}/${work_dir}/cpu路径下，其中${root}表示当前操作路径，${work_dir}表示调测工作空间，默认为/debug_workspace/${op_type}目录，${op_type}为算子名。目录结构示例如下：

  ├ ${op_type}                    // 算子名
├── cpu
│   ├── build               // 存放CPU编译生成的中间文件
│       ├── xxx_cpu         // CPU编译生成的算子可执行程序
│       ├── npuchk          // npucheck结果存放路径
│           ├── auto_gen_${op_kernel_type}_kernel_${block_num}_${sblock_num}_${kernel_type}_npuchk.log
│           ├── npu_chk_res.log
│   ├── output               // 存放CPU编译运行的输出文件及精度比对结果
│       ├── y.bin           // 运行输出原始数据
│       ├── y.txt           // 精度比对结果文件
│   ├── src                 // 存放CPU编译生成的临时代码文件
│       ├── CMakeLists.txt
│       ├── data_definition.txt
│       ├── add_custom_main.cpp
│       ├── add_custom_tiling.h 
│       ├── _gen_kernel_${op_type}.cpp
│   ├── dump               // dump文件落盘目录
│       ├── PARSER_${timestamp}
│           ├── dump_data    
│               ├──0                     // core number
│                   ├──index_1           // index是dump接口的desc唯一标识值
│                       ├──core_0_index_1_loop_0.bin
│                       ├──core_0_index_1_loop_0.txt

查看精度比对结果

在output目录下，查看是否生成输出文件（bin）和精度比对文件（txt）。

根据精度比对文件（txt），确认算子精度比对结果。

精度比对结果输出样例如下，主要展示两份数据的均值、部分误差对比以及成功/失败的最终比对结论。若结果是失败，会将最大误差的部分数据展示出来。

data_cmp mean is -1.41e-05 data_gd mean is -1.41e-05
split_count:2359296.0; max_diff_hd:0.1;
---------------------------------------------------------------------------------------
  Loop           ExpectOut        RealOut         FpDiff         RateDiff
---------------------------------------------------------------------------------------
00000001         0.0395813       0.0395813       0.0000000       0.0000000
00000002         0.0160980       0.0160980       0.0000000       0.0000000
00000003         -0.0443420      -0.0443420      0.0000000       0.0000000
00000004         -0.0847778      -0.0847778      0.0000000       0.0000000
00000005         -0.0066605      -0.0066605      0.0000000       0.0000000
00000006         0.0880737       0.0880737       0.0000000       0.0000000
00000007         0.0848389       0.0848389       0.0000000       0.0000000
00000008         0.1083374       0.1083374       0.0000000       0.0000000
00000009         0.0838623       0.0838623       0.0000000       0.0000000
00000010         0.0887451       0.0887451       0.0000000       0.0000000
00000011         0.0572205       0.0572205       0.0000000       0.0000000
00000012         0.0741577       0.0741577       0.0000000       0.0000000
00000013         -0.0762329      -0.0762329      0.0000000       0.0000000
00000014         -0.0957642      -0.0957642      0.0000000       0.0000000
00000015         0.0102234       0.0102234       0.0000000       0.0000000
  ...               ...             ...             ...             ...
---------------------------------------------------------------------------------------
DiffThd           PctThd          PctRlt          Result
---------------------------------------------------------------------------------------
0.0050            99.50%          100.000000%     Pass
Success Success Success Success Success

表2 精度比对结果说明
信息项	说明
data_cmp mean	运行输出数据的均值信息。
data_gd mean	标杆数据的均值信息。
split_count	统计输出数据的个数。
max_diff_hd	输出数据和golden数据的最大误差值阈值。
详细对比数据展示（部分）	Loop（数据位置）、ExpectOut（期望输出值）、RealOut（实际输出值）、FpDiff （绝对误差值）、RateDiff（相对误差值）。
整体对比结果展示	DiffThd（相对误差值阈值）、PctThd （精度达标数据占比阈值）、PctRlt（实际精度达标数据占比）、Result（对比结果）。
Error Line展示项	若精度比对结果为Failed，会追加展示部分误差较大的数据的详细信息，信息格式与"详细对比数据展示（部分）"一致。

（可选）查看dump结果
若开启DumpTensor功能或DumpAccChkPoint功能，结果文件存放在dump目录下，结果目录与NPU上板调试类似，具体介绍参见产物说明。
查看npucheck结果
CPU调测阶段默认开启npucheck功能，也支持用户手动关闭该功能。

功能开启后，通常终端会屏显检测到的异常信息，特殊异常会直接中断程序进程，而算子OP指令详细信息保存在npuchk目录下，方便问题分析和定位，详细结果介绍参见产物说明。

父主题： 调测功能介绍