下载
中文
注册

NPU_ASD_SIGMA_THRESH

功能描述

通过此环境变量可配置特征值检测功能的相对阈值,格式为整型数据对,最小取值为3。

算法会检测特征值跳变幅度,其中第一个元素控制一级阈值,特征值跳变幅度超过一级阈值时,会终止训练并上报告警;第二个元素控制二级阈值,特征值跳变幅度超过二级阈值且“ASCEND_GLOBAL_LOG_LEVEL”设置为“0”、“1”或“2”时,会打印Warning级别日志预警。减小阈值可以检出波动更小的异常数据,增加检出率,增大阈值与之相反。

特征值检测功能具体参见《PyTorch 训练模型迁移调优指南》的“特征值检查”章节

默认阈值为 100000,5000。

出场默认阈值即为最优值,不推荐客户修改。若发生如下情况可根据实际场景调整阈值,并注意相关影响。

  • 需要调大阈值场景:若发生告警,并且确认此次数值波动为正常,不影响训练,则根据告警信息里val和avg的比值调大阈值。

    相关影响:调大阈值会导致检出率有所减低,但误检率也会降低。

  • 需要调小阈值场景:若频繁出现loss spike/grad norm spike影响训练,重新拉起依然有spike,但无告警,则按照一定比例(如10)逐渐调小阈值。

    相关影响:调小阈值能够提高检出率,但也容易引发误检。

配置示例

export NPU_ASD_SIGMA_THRESH=100000,5000

使用约束

此环境变量不支持在PyTorch图模式(TorchAir)场景下使用。

支持的型号

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品