下载
中文
注册

系统约束与限制

  • 该文档仅配套TensorFlow 2.6.5版本使用,当前版本同时支持TensorFlow 1.15版本的模型迁移,具体请参考TensorFlow 1.15模型迁移指南
  • 当前版本不支持float64/complex64/complex128/DT_VARIANT数据类型。
  • 只支持变量(tf.Variable)资源相关操作在NPU执行。
  • 只支持tf.function修饰的函数算子在NPU执行。
  • 不支持训练脚本中同时使用tf.compat.v1接口和TF 2.6.5中eager功能相关的API。
  • TensorFlow 2.6.5数据预处理过程默认在Host上执行,而变量需要下沉到Device上初始化,因此当TensorFlow 2.6.5训练脚本的数据预处理使用了变量时,在NPU训练会执行失败,因此需要将该逻辑嵌套在context.device(‘CPU:0’)下,将使用预处理的变量在Host上初始化。
  • 集合通信约束:
    • 分布式训练场景下,HCCL会使用Host服务器的部分端口进行集群信息收集,需要操作系统预留该部分端口。默认情况下,HCCL使用60000-60015端口,若通过环境变量HCCL_IF_BASE_PORT指定了Host网卡起始端口,则需要预留以该端口起始的16个端口。

      操作系统端口号预留示例:sysctl -w net.ipv4.ip_local_reserved_ports=60000-60015

    • 针对Atlas 训练系列产品:server内只支持1/2/4/8P粒度的分配。