在PyTorch的训练或推理场景，可以通过设置环境变量CPU_AFFINITY_CONF来控制CPU端算子任务的处理器亲和性，即设定任务绑核。该配置能够优化任务的执行效率，避免跨NUMA（非统一内存访问架构）节点的内存访问，减少任务调度开销。

可选的绑核方案如下：

export CPU_AFFINITY_CONF=<mode>,npu<value1>:<value2>-<value3>

可选参数设置：

<mode>：绑核模式，取值如下：
- 0或未设置：表示不启用绑核功能。
- 1：表示开启粗粒度绑核。
- 2：表示开启细粒度绑核。
npu<value1>:<value2>-<value3>：自定义NPU的绑核范围
- 取值表示第value1张卡绑定在value2到value3的闭区间CPU核心上。例如，npu0:0-2表示运行在编号为0的NPU上的进程会绑定到编号为 0、1、2 的CPU核心。
- mode=1时此项设置生效，mode=1时可以缺省该项。
- 支持部分NPU卡自定义绑核。例如，有两张卡npu0和npu1，对于设置CPU_AFFINITY_CONF=1，npu0:0-0，绑核策略中0卡会被覆写为绑定0核，而1卡则保持mode=1的绑核策略。

NUMA节点对应的CPU核组可以通过命令lscpu查看。
绑核注意虚拟机与物理机的拓扑结构是否一致。默认情况下，npu0或Device 0对应的核组是NUMA0，但是docker等虚拟机环境可能会改变映射关系，推荐根据映射关系自定义绑核范围。
由于绑核特性触发时机较后，一般会覆盖外界的绑核，比如taskset。
绑核对于不同模型优化程度不同，对于CPU瓶颈的模型会有较大提升，对于NPU瓶颈的模型能保证性能持平。

示例一：粗粒度绑核

export CPU_AFFINITY_CONF=1

示例二：细粒度绑核

export CPU_AFFINITY_CONF=2

示例三：自定义多张NPU卡的绑核范围

export CPU_AFFINITY_CONF=1,npu0:0-1,npu1:2-5,npu3:6-6

绑核优化