简介:提出了一种改进的基于fp-tree的Apriori算法.该算法先用尾元将fp-tree分区,生成数据量更小的子数据集,再动态删除冗余数据将子数据集的数据进一步压缩,最后通过扫描子数据集进行支持数统计,从而快速挖掘.实验结果表明,在对含有大量高维度数频繁项集的数据集进行挖掘时,这个改进算法的挖掘速度较快.
简介:基于Flink平台对并行Apriori算法进行设计和实现.采用MapReduce计算框架对并行Apirori算法的迭代过程进行设计,并将Flink的流处理和内存缓存应用于算法的实现,从而了Apriori算法在并行计算下的挖掘速度.实验结果表明,基于Flink平台实现的并行Apriori算法对大数据处理有着良好的适应能力,并且在算法迭代次数和迭代产生的频繁项集较多的情况下,拥有较快的挖掘速度.
一种基于fp-tree的Apriori算法改进研究
Flink的并行Apriori算法设计与实现