安全说明
漏洞提示
PyTorch 1.11.0存在CVE-2022-45907漏洞,该漏洞因torch.jit.annotations.parse_type_line方法中不安全使用eval方法,存在可以执行任意代码风险。torch_npu已参考LINK进行修复。
安全加固
网络加固
- 防火墙规则设定,可参考如下脚本:
#!/bin/bash set -x # 要限制的端口号 port={端口号} # 清除旧规则 iptables -D INPUT -p tcp -j {规则名} iptables -F {规则名} iptables -X {规则名} # 创建新的规则链 iptables -t filter -N {规则名} # 在多机场景下设定白名单,允许其他节点访问主节点的侦听端口 # 在规则链中添加允许特定IP地址范围的规则 iptables -t filter -A {规则名} -i eno1 -p tcp --dport $port -s {允许外部访问的IP} -j ACCEPT # 屏蔽外部地址访问分布式训练端口 # 在PORT-LIMIT-RULE规则链中添加拒绝其他IP地址的规则 iptables -t filter -A {规则名} -i {要限制的网卡名} -p tcp --dport $port -j DROP # 将流量传递给规则链 iptables -I INPUT -p tcp -j {规则名}
- 防火墙规则移除,可参考如下脚本:
#!/bin/bash set -x # 清除规则 iptables -D INPUT -p tcp -j {规则名} iptables -F {规则名} iptables -X {规则名}
防火墙规则设定和移除示例:
- 针对特定端口设定防火墙,脚本中端口号为要限制的端口,在PyTorch分布式训练中端口号请参考表3 通信矩阵;要限制的网卡名为服务器用于分布式通信使用的网卡,允许的外部访问的IP为分布式训练服务器的IP地址。网卡和服务器IP可以通过ifconfig查看,如下文回显的eth0为网卡名,192.168.1.1为服务器IP地址:
# ifconfig eth0 inet addr:192.168.1.1 Bcast:192.168.1.255 Mask:255.255.255.0 inet6 addr: fe80::230:64ee:ef1a:c1a/64 Scope:Link
- 假定服务器主节点地址192.168.1.1,另一台需要进行分布式训练的服务器为192.168.1.2,训练端口为29510。
- 规则设定可参考如下脚本:
#!/bin/bash set -x # 设定侦听的端口 port=29510 # 清除旧规则 iptables -D INPUT -p tcp -j PORT-LIMIT-RULE iptables -F PORT-LIMIT-RULE iptables -X PORT-LIMIT-RULE # 创建新的PORT-LIMIT-RULE规则链 iptables -t filter -N PORT-LIMIT-RULE # 在多机场景下设定白名单,允许192.168.1.2访问主节点 # 在PORT-LIMIT-RULE规则链中添加允许特定IP地址范围的规则 iptables -t filter -A PORT-LIMIT-RULE -i eno1 -p tcp --dport $port -s 192.168.1.2 -j ACCEPT # 屏蔽外部地址访问分布式训练端口 # 在PORT-LIMIT-RULE规则链中添加拒绝其他IP地址的规则 iptables -t filter -A PORT-LIMIT-RULE -i eth0 -p tcp --dport $port -j DROP # 将流量传递给PORT-LIMIT-RULE规则链 iptables -I INPUT -p tcp -j PORT-LIMIT-RULE
- 规则移除可参考如下脚本:
#!/bin/bash set -x # 清除规则 iptables -D INPUT -p tcp -j PORT-LIMIT-RULE iptables -F PORT-LIMIT-RULE iptables -X PORT-LIMIT-RULE
- 规则设定可参考如下脚本:
权限控制
- 建议用户对训练所需文件、训练过程中保存的文件、用户个人的隐私数据、商业资产等敏感文件做好权限控制等安全措施,例如多用户共享数据集场景下的数据集文件写权限控制、profiler等场景产生数据文件权限控制等,设定的权限建议参考表1 文件权限参考进行设置。
- torch_npu中profiler工具会生成性能记录文件,生成的文件权限为640 ,文件夹权限为750 ,用户可根据需要自行对生成后的相关文件进行权限控制。
- 用户安装和使用过程需要做好权限控制,建议参考表1 文件权限参考进行设置。如需要保存安装/卸载日志,可在安装/卸载命令后面加上参数--log <FILE>, 注意对<FILE>文件及目录做好权限管控。
- PyTorch框架运行中所生成的文件权限依赖系统设定,如torch.save接口保存的文件。建议当前执行脚本的用户根据自身需要,对生成文件做好权限控制,设定的权限可参考表1 文件权限参考。可使用umask控制默认权限,避免提权等安全风险,建议用户将主机(包括宿主机)和容器中的umask设置为027及其以上,提高安全性。
文件权限参考
建议用户根据自身需要,参考表1 文件权限参考对各类文件进行加固。
类型 |
linux权限参考值 |
备注 |
---|---|---|
文件夹 / 目录 |
750 (rwxr-x---) |
对于共享目录可为755 |
数据集文件 |
640 (rw-r-----) |
对于共享数据集文件可为644 |
checkpoint文件 |
640 (rw-r-----) |
对于checkplint等生成文件可以设置为640 |
程序文件 |
440 (r--r-----) |
除非开发调试场景,正常运行时程序文件不应再次修改 |
可执行脚本 |
750 (rwxr-x---) |
针对可执行脚本设置750 |
网络通信
PyTorch提供分布式训练能力,支持在单机和多机场景下进行训练,需要进行网络通信。其中PyTorch需要使用TCP进行通信,torch_npu使用CANN中HCCL在NPU设备间通信,通信端口见表3。用户需要注意并保障节点间通信网络安全,可以使用iptables等方式消减安全风险,可参考安全加固章节进行网络安全加固。
数据安全
- PyTorch使用过程中需要加载和保存数据,部分接口使用风险模块pickle,可能存在数据风险,如torch.load、torch.distributed.scatter_object_list等接口,可参考torch.load、collective-functions了解具体风险。
- AscendPyTorch依赖CANN的基础能力实现AOE性能调优、算子dump、日志记录等功能,用户需要关注上述功能生成文件的权限控制。
编译安全
torch_npu支持源码编译安装,在编译时会下载依赖第三方库并执行构建shell脚本,在编译过程中会产生临时程序文件和编译目录。用户可根据需要自行对源代码目录内的文件进行权限管控避免安全风险。
运行提示
- 建议根据运行环境资源状况编写训练脚本。若训练脚本与资源状况不匹配,如数据集的size超出内存容量/NPU存储容量等,可能引发错误并导致进程退出。
- PyTorch和torch_npu在运行异常时会退出进程并打印报错信息,建议根据报错提示定位具体错误原因,包括设定算子同步执行、查看CANN日志、解析生成的Core Dump文件等方式。
公网地址
在torch_npu的配置文件和脚本中存在表2:
接口说明
AscendPyTorch是PyTorch适配插件,支持用户使用PyTorch在昇腾设备上进行训练和推理。AscendPyTorch适配后支持用户使用PyTorch原生接口。除了原生PyTorch接口外,AscendPyTorch提供了部分自定义接口,包括自定义算子、亲和库和其他接口,支持PyTorch接口和自定义接口连接,具体可参考《PyTorch 模型迁移和训练指南》>API列表。
参考PyTorch社区公开接口规范,PyTorchAdapter提供了对外的自定义接口。如果一个函数看起来符合公开接口的标准且在文档中有展示,则该接口是公开接口。否则,使用该功能前可以在社区询问该功能是否确实是公开的或意外暴露的接口,因为这些未暴露接口将来可能会被修改或者删除。
AscendPyTorch使用monkey-patch方式实现PyTorch接口的适配,通过将torch_npu中的部分接口动态替换PyTorch中的接口实现对部分接口的支持。推荐用户使用《PyTorch 模型迁移和训练指南》>API列表中推荐的调用方式。
AscendPyTorch项目采用C++和Python联合开发,当前除Libtorch场景外正式接口只提供Python接口,在torch_npu的二进制包中动态库不直接提供服务,暴露的接口为内部使用,不建议用户使用。
通信矩阵
通信矩阵具体可参考下表。