文档
注册
评分
提单
论坛
小AI

HCCL_OP_EXPANSION_MODE

功能描述

此环境变量用于配置通信算法的编排展开位置,支持如下取值:
  • AI_CPU:代表通信算法的编排展开位置在Device侧的AI CPU计算单元。

    该配置项当前仅支持单机单通信域场景,仅支持AllReduce算子,AllReduce算子支持的数据类型可参见HcclAllReduce

    如果配置了通信算法的编排展开位置为“AI_CPU”:
    • 通信算子不再支持profiling性能数据采集与分析功能。
  • AIV: 代表通信算法的编排展开位置在Device侧的AI Vector Core计算单元。
    该配置项当前仅支持AllReduce、AlltoAll、AlltoAllV算子。
    • 针对AllReduce算子,数据类型支持int8、int16、int32、float16、float32、bfp16,且reduce的操作类型仅支持sum、max、min。
    • 针对AlltoAll、AlltoAllV算子,数据类型支持int8、uint8、int16、uint16、int32、uint32、float16、float32、bfp16,当前版本仅支持单机场景。

    注意:HCCL_DETERMINISTIC环境变量配置为“true”,则此配置项不再生效,以确定性计算为准。

  • 默认为空:保持原有算法编排位置。

    针对静态shape图,通信算法的编排展开位置在Device侧;动态shape图和单算子模式,通信算法的编排展开位置在Host侧。

配置示例

export HCCL_OP_EXPANSION_MODE="AI_CPU"

使用约束

  • “AIV”配置仅支持Atlas 800T A2 训练服务器/Atlas 900 A2 PoD 集群基础单元/Atlas 200T A2 Box16异构子框这些产品的推理特性,其中对于Atlas 200T A2 Box16异构子框,不支持跨框通信场景。

    配置为“AIV”的场景下,若通过“CTRL+C”方式强制结束进程,在msnpureport工具导出的Device侧日志文件中可能会出现Device访问非法地址的错误,日志关键词为“devmm_page_fault_d2h_query_flag”、“devmm_svm_device_fault”或“ipc_fault_msg_para_check”,如下所示,此种场景不会影响Device上卡的状态,不会影响后续新起任务的执行。

    [ERROR] KERNEL(5044,sklogd):2024-07-29-10:33:22.646.254 [klogd.c:247][257382.266115] [ascend] [ERROR] [devmm] [devmm_page_fault_d2h_query_flag 810] <kworker/u16:2:14887,14887> Host page fault send message fail.(hostpid=2131021; devid=0; vfid=0; ret=-22; va=0x12c700300000; hostpid=2131021; devid=0; vfid=0)
    [ERROR] KERNEL(5044,sklogd):2024-07-29-10:33:22.646.284 [klogd.c:247][257382.266124] [ascend] [ERROR] [devmm] [devmm_svm_device_fault 468] <kworker/u16:2:14887,14887> Vm fault failed. (hostpid=2131021; devid=0; vfid=0; ret=64; fault_addr=0x12c700300000; start=0x12c700300000)
    [ERROR] KERNEL(5044,sklogd):2024-07-29-10:33:22.659.429 [klogd.c:247][257382.282181] [ascend] [ERROR] [tsdrv] [ipc_fault_msg_para_check 309] <swapper/3:0> Invalid node id. (devid=0; node_type=100; node_id=40; node_num=25)
    ................
    [ERROR] KERNEL(5044,sklogd):2024-07-29-10:33:24.874.211 [klogd.c:247][257384.473533] [ascend] [ERROR] [tsdrv] [tsdrv_hb_cq_callback 332] <kworker/0:0:20353> receive ts exception msg, call excep_code=0xb4060006, time=1722249204.850014098s, devid=0 tsid=0
  • “AI_CPU”配置当前仅支持以下产品:

    Atlas 300I Duo 推理卡的单卡场景

  • 针对静态shape图,不支持指定通信算法编排展开位置为AI CPU。

支持的型号

Atlas 300I Duo 推理卡

Atlas 800T A2 训练服务器

Atlas 900 A2 PoD 集群基础单元

Atlas 200T A2 Box16异构子框

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词