下载
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助
昇腾小AI

日志清洗与转储

  • Ascend FaultDiag在清洗时会读取用户采集的日志文件及监测指标文件,请用户自行确认目录中无敏感信息,避免信息泄露。
  • 在进行清洗时,请保证待清洗目录仅包含单台训练设备的原始日志及监测指标文件,若包含其他设备相关文件,可能导致清洗失败。
  1. (可选)以root用户安装组件,普通用户使用时,请配置环境变量。
    1. root用户登录并查询组件位置。
      which ascend-fd

      回显示例如下,实际位置请以查询结果为主:

      /usr/local/python3.7.5/bin/ascend-fd
    2. 普通用户登录配置环境变量。
      export PATH=$PATH:/usr/local/python3.7.5/bin
    3. 执行命令查看是否配置完成。
      ascend-fd -h

      显示以下内容即表示配置完成。

      usage: ascend-fd [-h] {version,parse,diag,blacklist,entity} ...
      Ascend Fault Diag
      positional arguments:
        {version,parse,diag,blacklist,entity}
          version             show ascend-fd version
          parse               parse origin log files
          diag                diag parsed log files
          blacklist           filter invalid logs by blacklist for parsing
          entity              perform operations on the user-defined faulty entity.
      optional arguments:
        -h, --help            show this help message and exit
  2. 参见日志采集完成训练设备日志收集。
    上传至服务器任意目录(例如/home),以使用-i参数为例,将所有日志汇总至同一采集目录下进行清洗,目录结构示例如下。
    采集目录
    |-- message         # 主机侧操作系统日志
    |-- rank-0.txt      # 训练打屏日志
    ...
    |-- rank-7.txt      # 训练打屏日志
    |-- process_log          # CANN应用侧原始日志,目录名需为process_log
    |-- device_log           # Device侧日志,目录名需为device_log
    |-- environment_check # NPU网口、状态信息、资源信息
        |-- npu_smi_0_details.csv   # NPU状态监测指标文件
         ...
        |-- npu_smi_7_details.csv   # NPU状态监测指标文件
        |-- npu_0_details.csv       # NPU网口统计监测指标文件
         ...    
        |-- npu_7_details.csv       # NPU网口统计监测指标文件
        |-- npu_info_before/after.txt  # 训练前或后NPU网口
        |-- host_metrics_{core_num}.json # 主机资源监测指标文件
  3. 创建日志清洗输出目录。
    mkdir 清洗输出目录
  4. 执行命令开始清洗日志。
    ascend-fd parse -i 采集目录  -o 清洗输出目录 

    回显如下:

    The parse job starts. Please wait. Job id: [****], run log file is [****].
    These job ['模块1', '模块2'...] succeeded.
    The parse job is complete.

    清洗输出目录结构:

    └── 清洗输出目录 
       ├── ascend-kg-parser.json        # 故障事件分析清洗结果,推理引擎输入文件
       ├── device_ip_info.json          # 设备IP信息
       ├── nad_clean.csv                # 计算降频清洗输出结果
       ├── nic_clean.csv                # 网络拥塞清洗输出结果
       ├── process_{core_num}.csv       # CPU资源抢占清洗输出结
       ├── plog-parser-{pid}-{0/1}.log # 根因节点分析清洗后日志,包括error、trace等关键信息,按Pid分别保存
        ...
       └── plog-parser-{pid}-{0/1}.log
  5. 日志转储。

    将每台服务器的清洗输出目录下所有文件进行集中转储,转储目录结构如下。

    诊断输入目录        
        |--清洗输出目录1 
           |--plog-parser-{pid}-{0/1}.log   # 根因节点分析清洗后日志,包括error、trace等关键信息,按Pid分别保存
           |--nic_clean.csv                      # 网络拥塞清洗输出结果
           |--nad_clean.csv                      # 计算降频清洗输出结果
           |--mem_used.csv                       # 内存资源抢占清洗输出结果,预留文件,当前暂未使用,
           |--process_{core_num}.csv             # CPU资源抢占清洗输出结果
           |--device_ip_info.json                # 设备IP信息
           |--ascend-kg-parser.json              # 故障事件分析清洗结果,推理引擎输入文件
        |--清洗输出目录2
           |--plog-parser-{pid}-{0/1}.log        
           |--nic_clean.csv  
           |--nad_clean.csv  
           |--mem_used.csv  
           |--process_{core_num}.csv
           |--device_ip_info.json
           |--ascend-kg-parser.json
         ...
        |--清洗输出目录n

    清洗输出目录的名称建议修改为能标识出设备节点信息的目录名,例如:host1-192.168.x.x。

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词