训练脚本执行

训练涉及“vstar_train_codebook.py”脚本（训练脚本位于安装目录下的“tools/train”文件夹中），注意Python版本为3.9.11。

命令参考	python3 vstar_train_codebook.py --dataPath <data_path> --dim <dim> --codebookPath <codebook_output_dir> --nlistL1 <nlist1> --subDimL1 <sub_dim1> --device <device> --batchSize <batch_size> --sample <sample>
参数名称	<data_path>：需要训练码本的原始数据路径，需要保证数据真实存在。该参数为必填项。 <dim>：特征向量维度。与VSTAR训练算子模型文件生成的<dim>保持一致，默认值为“256”。 <codebook_output_dir>：最终生成的码本文件所存储的路径，生成的码本文件输出到的目录，用户应该保证此目录存在，且程序的执行用户对此目录具有写权限。出于安全加固考虑，目录层级中不能含有软链接。 <nlist1>：一级簇聚类中心个数。与VSTAR训练算子模型文件生成的<nlist1>保持一致，默认值为“1024”。 <sub_dim1>：检索时一级降维后的维度大小，与VSTAR训练算子模型文件生成的<sub_dim1>保持一致，默认值为“32”。 <device>：设备逻辑ID，在指定的Device上执行训练，默认值为“1”。 <batch_size>：训练时以batch_size大小执行训练，参数范围(0，10240]，默认值为“10240”。 <sample>：训练用原始样本的采样率，0 < ratio ≤ 1.0，默认为“1.0”。 --help \| -h：查询帮助信息。
使用说明	执行此命令，在<codebook_output_dir>对应的目录下生成新目录codebook_<dim>_<nlist1>_<sub_dim1>.bin，即为AscendIndexVStar和AscendIndexGreat所需使用到的码本文件。当码本文件存在时，将执行覆盖写，此种情况程序执行用户应该是文件的属主。在执行训练生成码本前，请先参考VSTAR，生成训练算子模型文件。

命令参考

python3 vstar_train_codebook.py --dataPath <data_path> --dim <dim> --codebookPath <codebook_output_dir> --nlistL1 <nlist1> --subDimL1 <sub_dim1> --device <device> --batchSize <batch_size> --sample <sample>

参数名称

<data_path>：需要训练码本的原始数据路径，需要保证数据真实存在。该参数为必填项。

<dim>：特征向量维度。与VSTAR训练算子模型文件生成的<dim>保持一致，默认值为“256”。

<codebook_output_dir>：最终生成的码本文件所存储的路径，生成的码本文件输出到的目录，用户应该保证此目录存在，且程序的执行用户对此目录具有写权限。出于安全加固考虑，目录层级中不能含有软链接。

<nlist1>：一级簇聚类中心个数。与VSTAR训练算子模型文件生成的<nlist1>保持一致，默认值为“1024”。

<sub_dim1>：检索时一级降维后的维度大小，与VSTAR训练算子模型文件生成的<sub_dim1>保持一致，默认值为“32”。

<device>：设备逻辑ID，在指定的Device上执行训练，默认值为“1”。

<batch_size>：训练时以batch_size大小执行训练，参数范围(0，10240]，默认值为“10240”。

<sample>：训练用原始样本的采样率，0 < ratio ≤ 1.0，默认为“1.0”。

--help | -h：查询帮助信息。

使用说明

执行此命令，在<codebook_output_dir>对应的目录下生成新目录codebook_<dim>_<nlist1>_<sub_dim1>.bin，即为AscendIndexVStar和AscendIndexGreat所需使用到的码本文件。
当码本文件存在时，将执行覆盖写，此种情况程序执行用户应该是文件的属主。
在执行训练生成码本前，请先参考VSTAR，生成训练算子模型文件。

父主题： VSTAR生成码本文件