下载
中文
注册

可维可测能力

ATB当前提供以下可维可测能力:

其中,除日志系统外,其他所有可维可测能力都集成在msit工具内,需要通过工具进行使用。工具使用说明见msit工具使用指导

日志系统

ATB的日志系统支持日志分级、日志输出到标准输出、日志输出到文件。

  • 日志分级
    日志等级分为FATAL(默认)、ERROR、WARN、INFO、DEBUG、TRACE六个级别,如表1所示。
    表1 日志等级

    级别

    含义

    FATAL(默认)

    重大错误信息,标识着会使程序退出的重大错误。

    ERROR

    错误信息,该级别打印错误与异常信息。

    WARN

    警告信息,表明会出现潜在错误的情形,给开发者一些提示。

    INFO

    数据信息,打印算子与整图相关的信息,用户通过观察INFO日志就可以得知整图或单算子的运行状态。

    DEBUG

    调试信息,打印加速库代码细节信息,加速库开发者可以通过查看DEBUG日志来调试框架代码。

    TRACE

    更低一级的调试信息,通常包含更加无关紧要的调试信息或是用于现场调试。

    其中,前四个级别的日志主要是面向用户的;DEBUG级别与TRACE级别则主要是面向ATB开发者的。

  • 日志保存
    1. 日志文件保存在[LOG_PATH]/[TYPE]/log”下。其中,[LOG_PATH]由环境变量(请参见环境变量参考)ASDOPS_LOG_PATH控制,默认为"~";[TYPE]由环境变量(请参见环境变量参考“ASDOPS_LOG_TO_BOOST_TYPE”控制,默认为“atb”。例如:“~/atb/log”
    2. 日志文件的命名格式为[TYPE]_[PID]_[年][月][日][时][分][秒].log,其中,[TYPE]为环境变量(请参见环境变量参考“ASDOPS_LOG_TO_BOOST_TYPE”控制,默认为“atb”,[PID]为线程号。例如:atb_253440_20231102065052.log。
  • 空间管理
    1. 每个日志文件大小最大为1GByte,最多存50个文件。如当前保存目录下的日志文件(以标准命名格式存储的日志文件)达到最高存储数量,将根据时间戳,删除最早时间的日志文件。
    2. 在生成日志文件前,将会对日志保存目录的空间大小进行判断,如果空间不足10GByte,将不会继续生成日志文件。

DumpTensor能力

该功能通过msit工具使能,主要用在精度调试场景,可通过配置参数来指定dump特定或全部Operation的Tensor二进制文件。详细信息请参考DumpTensor能力使用指导

保存Operation信息与保存Kernel信息

这两个功能通过msit工具使能,可将运行过程中的Operation信息或Kernel信息(如参数、输入张量Shape、输出张量Shape等)保存成csv文件。详细信息请参考保存算子信息能力使用指导

保存CPU Profiling数据

该功能通过msit工具使能,将ATB各个host侧接口的性能信息保存到文本文件中,用于host bound的性能问题定位。详细信息请参考保存CPU Profiling数据功能使用指导

保存拓扑信息

该功能通过msit工具使能,可将ATB中任意Operation的图结构转换成json文件保存到本地,并且保存下来的json文件还可以通过msit工具转换成onnx文件(该文件无法作为模型导入,因为缺少权重信息),使用netron等工具进行可视化。详细信息请参考保存拓扑信息功能使用指导

算子溢出检测

该功能通过msit工具使能,可检测整图运行过程中出现的算子溢出问题。若整图运行过程中出现了算子溢出问题,根据用户的配置,ATB会输出错误日志或是停止后续执行。详细信息请参考算子溢出检测功能使用指导