下载
中文
注册

训练脚本执行

训练涉及“vstar_train_codebook.py”脚本(训练脚本位于安装目录下的“tools/train”文件夹中),注意Python版本为3.9.11。

命令参考

python3 vstar_train_codebook.py --dataPath <data_path> --dim <dim> --codebookPath <codebook_output_dir> --nlistL1 <nlist1> --subDimL1 <sub_dim1> --device <device> --batchSize <batch_size> --sample <sample>

参数名称

<data_path>:需要训练码本的原始数据路径,需要保证数据真实存在。该参数为必填项。

<dim>:特征向量维度。与VSTAR训练算子模型文件生成的<dim>保持一致,默认值为“256”

<codebook_output_dir>:最终生成的码本文件所存储的路径,生成的码本文件输出到的目录,用户应该保证此目录存在,且程序的执行用户对此目录具有写权限。出于安全加固考虑,目录层级中不能含有软链接。

<nlist1>:一级簇聚类中心个数。与VSTAR训练算子模型文件生成的<nlist1>保持一致,默认值为“1024”。

<sub_dim1>:检索时一级降维后的维度大小,与VSTAR训练算子模型文件生成的<sub_dim1>保持一致,默认值为“32”。

<device>:设备逻辑ID,在指定的Device上执行训练,默认值为“1”。

<batch_size>:训练时以batch_size大小执行训练,参数范围(0,10240],默认值为“10240”

<sample>:训练用原始样本的采样率,0 < ratio ≤ 1.0,默认为“1.0”

--help | -h:查询帮助信息。

使用说明

  • 执行此命令,在<codebook_output_dir>对应的目录下生成新目录codebook_<dim>_<nlist1>_<sub_dim1>.bin,即为AscendIndexVStar和AscendIndexGreat所需使用到的码本文件。
  • 当码本文件存在时,将执行覆盖写,此种情况程序执行用户应该是文件的属主。
  • 在执行训练生成码本前,请先参考VSTAR,生成训练算子模型文件。