《计算机光盘软件与应用》
文章摘要:设计一个基于Hadoop分布式文件系统的数据挖掘平台,并基于最大最小距离的思想对Kmeans算法进行改进。在Hadoop分布式文件系统平台上,通过MapReduce实现并行化;以Iris数据集为例,分析了该算法的数据处理效果。结果表明:与传统算法相比,并行算法划分的样本正确度更高;在单机环境下,并行算法运行时间较长;面对大数据集,传统算法因内存不足而无法完成数据处理任务,而并行算法则能完成计算任务;随着集群规模和数据集规模的扩大,并行算法的加速率提高,显示出良好的并行效果。实验结果验证了并行算法在大数据处理中的可靠性,为进一步提高数据挖掘效率提供了一个解决办法。
文章关键词: