文档
注册

日志清洗与转储

  • Ascend-FaultDiag在清洗时会读取用户采集的日志文件及监测指标文件,请用户自行确认目录中无敏感信息,避免信息泄露。
  • 在进行清洗时,请保证待清洗目录仅包含单台训练设备的原始日志及监测指标文件,若包含其他设备相关文件,可能导致清洗失败。
  1. (可选)以root用户安装组件,普通用户使用时,请配置环境变量。
    1. root用户登录并查询组件位置。
      which ascend-fd

      回显示例如下,实际位置请以查询结果为主:

      /usr/local/python3.7.5/bin/ascend-fd
    2. 普通用户登录配置环境变量。
      export PATH=$PATH:/usr/local/python3.7.5/bin
    3. 执行命令查看是否配置完成。
      ascend-fd -h

      显示以下内容即表示配置完成。

      usage: ascend-fd [-h] {version,parse,diag} ...
      
      Ascend Fault Diag
      
      positional arguments:
        {version,parse,diag}
          version             show ascend-fd version
          parse               parse origin log files
          diag                diag parsed log files
      
      optional arguments:
        -h, --help            show this help message and exit
  2. 参见日志采集完成训练设备日志收集。
    上传至服务器任意目录(例如/home),以使用-i参数为例,将所有日志汇总至同一采集目录下进行清洗,目录结构示例如下。
    采集目录
    |-- message         # 主机侧操作系统日志
    |-- rank-0.txt      # 训练打屏日志
    ...
    |-- rank-7.txt      # 训练打屏日志
    |-- process_log          # CANN应用侧原始日志,目录名需为process_log
    |-- device_log           # Device侧日志,目录名需为device_log
    |-- environment_check # NPU网口、状态信息、资源信息
        |-- npu_smi_0_details.csv   # npu状态监测指标文件
         ...
        |-- npu_smi_7_details.csv   # npu状态监测指标文件
        |-- npu_0_details.csv       # npu网口统计监测指标文件
         ...    
        |-- npu_7_details.csv       # npu网口统计监测指标文件
        |-- npu_info_before/after.txt  # 训练开始/结束npu网口
        |-- host_metrics_{core_num}.json # 主机资源监测指标文件
  3. 创建日志清洗输出目录。
    mkdir 清洗输出目录
  4. 执行命令开始清洗日志。
    ascend-fd parse -i 采集目录  -o 清洗输出目录 

    回显如下:

    The cleaning task starts. Please wait.
    All parse job succeeded.
    The cleaning task is complete.

    清洗输出目录结构:

    └── 清洗输出目录 
       ├── ascend-kg-parser.json
       ├── device_ip_info.json
       ├── ascend_faultdiag_run.log 
       ├── nad_clean.csv
       ├── nic_clean.csv
       ├── process_core_num.csv
       ├── plog-parser-{pid}-{0/1}.log
        ...
       └── plog-parser-{pid}-{0/1}.log
  5. 日志转储。

    将每台服务器的清洗输出目录下所有文件进行集中转储,转储目录结构如下。

    诊断输入目录        
        |--清洗输出目录1 
           |--plog-parser-{pid}-{0/1}.log        
           |--nic_clean.csv  
           |--nad_clean.csv  
           |--mem_used.csv  
           |--process_{core_num}.csv
           |--device_ip_info.json
           |--ascend_faultdiag_run.log
           |--ascend-kg-parser.json
        |--清洗输出目录2
           |--plog-parser-{pid}-{0/1}.log        
           |--nic_clean.csv  
           |--nad_clean.csv  
           |--mem_used.csv  
           |--process_{core_num}.csv
           |--device_ip_info.json
           |--ascend_faultdiag_run.log
           |--ascend-kg-parser.json.
         ...
        |--清洗输出目录n

    清洗输出目录的名称建议修改为能标识出设备节点信息的目录名,例如:host1-192.168.x.x。

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词