学科分类
/ 1
2 个结果
  • 简介:all-k-nearest-neighbor(AkNN)询问为每个询问对象发现k最近的邻居。这个问题在许多区域自然地产生,例如GIS(地理信息系统),多媒体检索,和recommender系统。到各种各样的数据类型和灵活距离度量标准在真实应用程序包含了的支持,也就是,我们在公制的空格学习AkNN检索公制的AkNN(MAkNN)搜索。认为询问上的内在的索引设定,目标集合不能存在,它在许多情形是自然的。例如,询问集合和对象集合能是另外的询问的结果,并且这样,内在的索引不能预先被造。到没有任何内在的索引的数据上的支持MAkNN搜索,我们建议一个有效基于磁盘的算法,作为基于分区的MAkNN算法(PMA)称为,它跟随一个分区搜索框架并且为加速搜索采用一系列修剪的规则。另外,我们扩大我们的技术处理MAkNN询问的有趣的变体,即,公制的self-AkNN(MSAkNN)搜索,在询问集合与对象相同的地方,设定。用真实、合成的数据的广泛的实验表明我们的修剪的规则的有效性和建议算法的效率,与最先进的MAkNN和MSAkNN算法相比。

  • 标签: all-k-nearest-neighbor 搜索 查询处理 公制的空间
  • 简介:针对K-means算法在数据聚类过程中初始值选取的随机性问题,基于非均匀采样原则对该算法进行改进。同时,针对聚类算法并行化的需求,基于Spark平台对改进算法进行了并行化实现。单机串行处理和集群并行化实验证明了该改进算法在处理海量数据时具有更高的准确性和稳定性,且在Spark平台上的并行化实现具有良好的加速比和可扩展性,从而表明该算法能在实际的海量数据处理中高效运行。

  • 标签: K-MEANS 聚类 SPARK 并行化