非对齐问题背景
昇腾AI处理器在进行数据搬运和Vector计算时,对于搬运的数据长度和UB首地址都有必须32B对齐的要求。
如下图所示,当需要从Global拷贝11个half数值到Local时,使用DataCopy将拷贝16个half(32B)数据到Local上,Local[11]~Local[15]被写成无效数据-1。
图1 非对齐搬入内存
同理,如下图所示,当需要从Local拷贝11个half数值到Global时,使用DataCopy将拷贝16个half(32B)数据到Global上,Global[11]~Global[15]被覆写成-1。
图2 非对齐搬出内存
父主题: 非对齐处理