下载
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助
昇腾小AI

聚类参数配置

Archive/Merge/KMeans参数配置

Archive/Merge/KMeans参数按照通用参数中的ArchiveMode值进行配置(择一配置即可),特征聚类一次只能执行归档或者档案合并单个操作。

表1 Archive/Merge通用参数配置

参数名称

默认配置值

可选值

含义

ArchiveName

"FeatureClustering"

-

一次归档/档案合并的任务名称,用于命名和标记一次归档/档案合并运算,长度不超过512字符。

ArchiveMode

ARCHIVE

  • ARCHIVE
  • MERGE
  • KMEANS

归档模式。

  • ARCHIVE:归档模式。
  • MERGE:档案合并模式。
  • KMEANS:KMEANS海量数据归档模式。

FeatureDim

512

-

归档/档案合并的特征维度,需要FeatureRetrieval支持该维度特征检索。

FeatureDataType

FP32

FP32

当前的特征向量的数据类型,当前仅支持FP32类型的特征向量输入。

FeatureSource

RANDOM

  • RANDOM
  • FILE
  • INTERFACE
  • 归档特征数据源。支持随机生成特征、二进制特征/ID文件、调用接口传入特征/ID数据内存地址(当前档案合并模式下不支持随机生成特征作为输入)。
  • 当前Random数据分布与实际的数据分布不同,建议仅在FeatureCount低于1,000,000的场景下使用Random随机生成数据,随机生成的数据与实际应用场景中的数据性能会有较大差异,不建议通过Random模式测算性能。
  • 当前Random通过固定Seed生成数据,故在其他参数(各项threshold等)保持不变的情况下,可以确保随机生成数据结果的可重复验证性。

MetricType

IP

IP

特征向量相似度度量,当前仅支持Inner Product的距离相似度度。

ExactSearchIndexType

FLAT

  • FLAT
  • SQ

NPU配置的小库检索算法的检索index类型。

ExactSearchThreshold

50000

-

启用NPU小库检索算法检索的阈值,因为NPU的检索创建的开销比CPU更高,故在数据量小于此阈值的情况下,使用CPU而不是NPU执行检索。

ApproximateSearchIndexType

NONE

  • NONE
  • IVFSQ
  • IVFSQC

NPU配置的大库检索算法的检索index类型,“NONE”表示不使用大库检索算法。

ApproximateSearchThreshold

5000000

-

启用NPU大库检索算法检索的阈值,在数据量较小的情况下,NPU的小库检索性能比大库检索性能更好,故在数据量高于其阈值,且配置了相关大库检索的算法情况下,使用对应的大库算法进行检索。

Nlist

1024

-

NPU大库检索算法相关参数,表示IVF的nlist数量,需要FeatureRetrieval支持该取值的大库算法。

Nprobe

32

-

NPU大库检索算法相关参数,表示IVF的nprobe数量

FuzzK

5

大于1小于10的整数。

表示使用检索IVFSQC算法时采用的FuzzK阈值,影响单个芯片上能够存放的最多的特征数量,详情请参考MindX SDK mxIndex特征检索 用户指南

FuzzThreshold

1.003

大于1小于2的小数点后不超过三位有效数字的浮点数。

表示使用检索IVFSQC算法时采用的FuzzThreshold阈值,影响单个芯片上能够存放的最多的特征数量,详情请参考MindX SDK mxIndex特征检索 用户指南

TrainIter

16

大于0小于等于512的整数。

表示IVFSQC训练的迭代数,详情请参考MindX SDK mxIndex特征检索 用户指南

DimReduction

TRUE

  • TRUE
  • FALSE

NPU大库检索算法是否需要降维。

ShortDim

64

-

NPU大库检索算法相关参数,表示输入后降维的维度,需要FeatureRetrieval支持该维度进行降维。

Devices

-

-

NPU使用的芯片ID,使用英文逗号分隔,详情可以使用npu-smi info查看。

ThreadNum

16

-

执行任务的线程数,可以增加程序运行的并行度。

ResourcesSize

128

-

NPU使用的内存池分配的大小,单位为MB。

表2 Archive参数配置

参数名称

默认配置值

可选值

含义

FeatureCount

10000

-

待归档特征数量。

在随机生成数据时,不支持FeatureCount设置超过5000000。

NeedNormalization

TRUE

  • TRUE
  • FALSE

特征是否需要按模归一化(距离计算内积度量方式需要先按模归一化)。当前INT8数据不支持量化。

PointPointThreshold

0.875

-

聚类时点(特征)与点之间聚类的相似度阈值。

PointClusterThreshold

0.7

-

点与类之间归档的相似度阈值。

ClusterClusterThreshold

0.8

-

类与类之间合并的相似度阈值。

MinRankDistance

6

-

最小排序距离。

MaxRankDistance

10

-

最大排序距离。

MinPicNum

2

-

档案里面最少的向量数,若执行归档后,某档案中的特征数量小于该值,则将其此档案中的全部特征设置为离群孤点。

MaxCoverNum

1

-

封面档案的向量数。(当前参数对于MindX聚类尚无影响,为预留参数接口,待后续开发。)

表3 Merge参数配置

参数名称

默认配置值

可选值

含义

ArchiveResultMergeThreshold

0.6

-

档案合并场景下,合并不同的归档结果时使用的相似度阈值。

MergeArchivesCount

0

-

档案合并场景下,需要执行档案合并的归档结果总数。

表4 KMean参数配置

参数名称

默认配置值

可选值

含义

FeatureCount

10000

-

KMeans聚类归档场景下待归档的特征向量总数,通常我们建议在聚类规模大于1千万以上时选用KMeans聚类的方式。单个芯片最多支持2500万底库。

KMeansTimes

6

-

执行多轮KMeans聚类的数量,最少需要设置为1,最终聚类结果为多轮KMeans的结果合并获得。

ArchiveNum

1000000

-

“FeatureCount”条特征向量,预估将其聚为多少类的参考值,如果无明确参考可以将其设置为“FeatureCount”的十分之一,再基于此进行调参。(因为最终聚类结果为多轮合并获得,所以最终聚类的类别总数可能和配置的“ArchiveNum”数不同,“ArchiveNum”数仅作为参考值在单轮KMeans中使用。)

TopK

100

-

表示对于全部的特征向量执行检索保存的“TopK”条特征向量数,“TopK”设置的越大,精度越高,但是性能可能会略有下降,请用户根据实际场景设置。

MaxKMeansIterTimes

30

-

单轮KMeans的最大迭代次数,超过此迭代次数则单轮KMeans即会终止。

MinFreqKMeans

3

-

多轮KMeans合并的结果中,认为某两个点在最终聚类结果中共同属于一个类的最低频率,不应设置超过“KMeansTimes”

MaxFreqIso

3

-

多轮KMeans合并的结果中,认为某两个点在有一方为孤点或者均为孤点时,两个点在最终聚类结果中共同属于一个类的最高频率,不应设置超过“KMeansTimes”,且不应低于“MinFreqKMeans”值。

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词