功能介绍

mxIndex特征聚类（FeatureClustering）是Ascend平台上的特征聚类，支持千万级别多场景的无监督学习聚类，当前FeatureClustering支持基于距离的特征归档、档案合并以及基于类别数量的KMeans特征归档的三大功能：

FeatureClustering特征归档（基于距离）：开放了依赖向量特征相似度进行归档的功能。当两条特征的相似度满足一定阈值后即认为两条特征属于同一个ID，并归入同一档案。
FeatureClustering的特征归档输入是n条维度为dim的float32特征向量数据，以及长度为n，uint64数据格式的对应特征向量索引，输出为一个特征聚类结果。输入和输出的数据可以通过API接口在内存中传递，或者根据预定义的protobuf message执行序列化。
FeatureClustering档案合并：能够对基于距离归档的结果执行进一步的合并。
FeatureClustering的档案合并输入是多个特征聚类结果，当两个档案的相似度满足一定的条件后会对其进行合并，输出一个特征聚类结果。输入和输出的数据可以通过API接口在内存中传递，或者根据预定义的protobuf message执行序列化。

在数据规模较大、难以通过一次操作完成全部数据归档的情况下，用户可以将原始的特征向量数据以及对应的特征向量索引进行分割，分别执行归档，并将归档后的特征聚类结果进行合并。当前的档案合并为特征聚类提供的通用场景的档案合并，用户也可以根据自己的业务策略或者算法需要对档案进行合并。

图1 FeatureClustering归档

图2 FeatureClustering档案合并

FeatureClustering KMeans聚类（基于聚类数量）：FeatureClustering特征归档/档案合并都是基于特征向量距离对特征向量执行的操作，对数据处理的粒度比较精细，内存开销大，为了适配用户在有限内存和海量数据下的聚类操作，新版的FeatureClustering组件提供了AscendKMeans的对象，用以适配基于特征向量的类别总数的归档聚类操作。通常情况下，KMeans特征聚类适用于比基于距离的特征聚类的内存开销更低，性能更好，精度在不同的数据集上亦有不同的表现，请用户根据自己的实际场景所需进行使用。

父主题： 简介