文档
注册

配置环境变量

环境变量配置有通过配置文件设置资源信息和通过环境变量设置资源信息两种方式。具体配置示例请参考启动模型训练

mxRec环境变量的说明如表1所示。

表1 环境变量

环境变量名

含义

可选/必选

说明

MXREC_LOG_LEVEL

框架日志等级。

可选

“INFO”“DEBUG”或者“ERROR”,默认值为“INFO”

SAVE_EASY

仅保存稀疏表的key和embedding。

可选

取值范围:“0”或者“1”,默认为“0”

TF_DEVICE

合表功能增加开关(TF_DEVICE== "NPU"),补充判断条件。

可选

取值范围:"NPU"、"GPU"、"CPU",默认为“NPU”

APPLY_GRADIENTS_STRATEGY

计算梯度采用参数更新的策略。

可选

取值范围:“direct_apply”“sum_same_id_gradients_and_apply”,默认值为“direct_apply”“direct_apply”表示直接更新梯度,“sum_same_id_gradients_and_apply”表示相同ID求和的方式更新梯度。

AclTimeout

Acl超时时间。

可选

取值范围:-1~int32的最大值2147483647,默认值“-1”

HD_CHANNEL_SIZE

CPU处理的数据通道深度。

可选

取值范围:[2, 8192],默认为“40”

FIND_OFFSET_V2

是否在V2版本中找到偏移的标识。

可选

“0”表示不生效,“1”表示生效。默认值为“0”

FIND_OFFSET_V3

是否在V3版本中找到偏移的标识。

可选

“0”表示不生效,“1”表示生效。默认值为“0”

KEY_PROCESS_THREAD_NUM

KEY_PROCESS线程数量。

可选

取值范围:1~10,默认值为“6”

MAX_UNIQUE_THREAD_NUM

最大UNIQUE线程数。

可选

取值范围:1~ 8,默认值为“8”

FAST_UNIQUE

是否自实现的优化去重编码算法。

可选

“0”表示不生效,“1”表示生效,默认值不生效。

UpdateEmb_V2

是否更新V2版本中Embedding的标识。

可选

取值范围:“0”或者“1”,默认值为“0”

  • 0: 表示UpdateEmb同步更新。
  • 1:表示UpdateEmb_V2异步更新。

HOT_EMB_UPDATE_STEP

Hot Embedding更新步数。

可选

取值范围:1~1000,默认值为“1000”

GLOG_stderrthreshold

glog日志等级。

可选

取值范围:-2~2,默认值为"0"

  • -2:表示TRACE
  • -1:表示DEBUG
  • 0:表示INFO
  • 1:表示WARNING
  • 2:表示ERROR

USE_COMBINE_FAAE

控制是否合表统计次数。

可选

取值范围:“0”或者“1”,默认值“0”。如果“USE_COMBINE_FAAE”=“0”,表示分表统计,每张表key的count记录是独立的;如果“USE_COMBINE_FAAE”=“1”,表示合表统计,多张表维护一个count记录。

STAT_ON

是否开启统计维测信息。

可选

取值范围:“0”或者“1”,默认值为“0”

  • 0:表示不开启统计维测信息功能
  • 1:表示开启统计维测信息功能

CM_CHIEF_IP

主节点IP。

可选

当使用去rank table方案时为必选。

CM_CHIEF_PORT

主节点侦听端口,比如60000。

可选

取值范围:[60000, 60015],默认值为“60000”。当使用去rank table方案时为必选。

说明:
  • 可使用如下命令指定一组本地保留端口,这些端口将被系统保留,不会被其他应用程序使用:
    sysctl -w net.ipv4.ip_local_reserved_ports=60000-60015

    然后将CM_CHIEF_PORT设置为上述命令指定范围的端口。

  • 检查端口是否被占用:
    netstat -anp | grep 端口号

    如果端口号被占用,会显示出占用该端口的进程ID和进程名称。

CM_CHIEF_DEVICE

主节点Device ID。

可选

默认为“0”,取值范围0~15。当使用去rank table方案时为必选。

CM_WORKER_IP

当前节点IP。

可选

当使用去rank table方案时为必选。

CM_WORKER_SIZE

参与集群训练的device数量。

可选

取值范围:{1, 2, 4, 8, 16}。当使用去rank table方案时为必选。

RANK_TABLE_FILE

用于配置昇腾芯片的通信集合文件。

可选

集合通信文件路径。当使用rank table方案时为必选。

ASCEND_VISIBLE_DEVICES

昇腾处理器可见的设备,来指定程序只使用其中的部分设备。

必选

使用ASCEND_VISIBLE_DEVICES环境变量指定训练中的NPU设备(用户可执行ls /dev/ | grep davinci*命令查询宿主机的NPU设备),使用设备序号指定设备,支持单个和范围指定且支持混用。例如:

  • ASCEND_VISIBLE_DEVICES=0 表示将0号设备(/dev/davinci0)挂载入容器中。
  • ASCEND_VISIBLE_DEVICES=1,3 表示将1、3号设备挂载入容器中。
  • ASCEND_VISIBLE_DEVICES=0-2 表示将0号至2号设备(包含0号和2号)挂载入容器中,效果同

    ASCEND_VISIBLE_DEVICES=0,1,2。

  • ASCEND_VISIBLE_DEVICES=0-2,4 表示将0号至2号以及4号设备挂载入容器,效果同

    ASCEND_VISIBLE_DEVICES=0,1,2,4。

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词