文档
注册

功能介绍

mxIndex特征聚类(FeatureClustering)是Ascend平台上的特征聚类,支持千万级别多场景的无监督学习聚类,当前FeatureClustering支持基于距离的特征归档、档案合并以及基于类别数量的KMeans特征归档的三大功能:

  • FeatureClustering特征归档(基于距离):开放了依赖向量特征相似度进行归档的功能。当两条特征的相似度满足一定阈值后即认为两条特征属于同一个ID,并归入同一档案。

    FeatureClustering的特征归档输入是n条维度为dim的float32特征向量数据,以及长度为n,uint64数据格式的对应特征向量索引,输出为一个特征聚类结果。输入和输出的数据可以通过API接口在内存中传递,或者根据预定义的protobuf message执行序列化。

  • FeatureClustering档案合并:能够对基于距离归档的结果执行进一步的合并。

    FeatureClustering的档案合并输入是多个特征聚类结果,当两个档案的相似度满足一定的条件后会对其进行合并,输出一个特征聚类结果。输入和输出的数据可以通过API接口在内存中传递,或者根据预定义的protobuf message执行序列化。

    在数据规模较大、难以通过一次操作完成全部数据归档的情况下,用户可以将原始的特征向量数据以及对应的特征向量索引进行分割,分别执行归档,并将归档后的特征聚类结果进行合并。当前的档案合并为特征聚类提供的通用场景的档案合并,用户也可以根据自己的业务策略或者算法需要对档案进行合并。

    图1 FeatureClustering归档
    图2 FeatureClustering档案合并
  • FeatureClustering KMeans聚类(基于聚类数量):FeatureClustering特征归档/档案合并都是基于特征向量距离对特征向量执行的操作,对数据处理的粒度比较精细,内存开销大,为了适配用户在有限内存和海量数据下的聚类操作,新版的FeatureClustering组件提供了AscendKMeans的对象,用以适配基于特征向量的类别总数的归档聚类操作。通常情况下,KMeans特征聚类适用于比基于距离的特征聚类的内存开销更低,性能更好,精度在不同的数据集上亦有不同的表现,请用户根据自己的实际场景所需进行使用。
搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词