论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>论文范文>范文阅读
快捷分类:

关于MapReduceApriori论文范文 基于MapReduceApriori算法并行化相关论文写作参考文献

分类:论文范文 原创主题:MapReduceApriori论文 更新时间:2024-04-13

基于MapReduceApriori算法并行化是关于对不知道怎么写MapReduceApriori论文范文课题研究的大学硕士、相关本科毕业论文mapreduce论文开题报告范文和文献综述及职称论文的作为参考文献资料下载。

摘 要: 针对目前传统的Apriori算法对硬件要求较高且运算效率低下的情形,提出将经典的数据挖掘关联规则算法Apriori移植到云计算平台,并结合MapReduce机制进行海量数据挖掘,有效地解决了传统Apriori算法存在的瓶颈问题以及对硬件要求高的依赖.通过数据和节点对比实验共同验证了移植后的Apriori算法的运算效率比传统的Apriori算法提高了许多倍,且随着数据量和节点数的增加效果愈发明显.由于改良后的Apriori算法具有高效性和可行性,这将为解决当前大数据挖掘问题提供了一种全新的、有效的解决方案,并且这一结论还可为其他数据挖掘算法的移植提供可靠的参考.

关键词: Apriori算法; 数据挖掘; 关联规则; 云计算; MapReduce机制

中图分类号: TP 399 文献标志码: A 文章编号: 1671-2153(2015)05-0076-05

0 引 言

传统Apriori算法是数据挖掘中研究最成熟、最活跃的关联规则算法之一,利用它可以发现数据中所蕴含的相互关系[1].由于传统的数据挖掘算法大多是以单节点的机器为平台,所处理的数据对象也主要是小到中等规模的,当面对海量的、多维的、分散的数据集合时,现有的算法则往往显得力不从心[2].

如何处理异构海量数据,选用那种高效的数据处理模式来提高运算速度并降低内存的消耗,已成为亟待解决的问题.随着云计算技术和大数据技术相继提出和应用,分布式大数据处理系统日渐被人们关注和研究.基于Hadoop搭建的云计算平台具有分布式大数据处理能力和海量的数据存储能力,这些都将为解决当前异构海量数据挖掘问题提供了一种全新的、有效的解决方案[3-4].

1 Apriori算法描述及相关研究

Apriori算法原型是以用户事先设置好的最小支持度(min_support)和最小可信度(min_confidence)为条件,通过对需处理的事务数据集进行重复多次扫描,从中找出项和项之间所存在的并发关系,找到所需的关联规则和判断是否满足用户要求的过程,即发现频繁项集和产生规则的过程.如图1所示.

文献[5]中说到Apriori算法在扫描数据库时需经过自连接、剪枝生成频繁项集,并采用逐层迭代法直到无法产生新的频繁项集时才停止扫描.文献[6]解释了在处理大规模数据时,当设置的最小支持度偏小且产生的频繁项也较多时,发现该算法效率低下.随着研究的不断深入和扩大,人们发现在大规模数据量下传统Apriori算法的优势越来越不明显;相反,在实际应用中很多时候还达不到用户的要求.于是许多专家学者对该算法做了一些专门的改良实验,如文献[7]中提出了一种基于数据划分的思想用于提高Apriori算法处理海量数据挖掘的效率等.鉴于此,本文将结合分布式大数据处理系统Hadoop,对移植到云计算平台的Apriori算法进行实验验证,证明是否能有效提高数据挖掘效率.

2 Apriori算法并行化描述

Hadoop平台有自己的分布式文件系统(HDFS),它是Hadoop的核心子项目之一,能对海量数据进行存储和管理.当数据上传到HDFS上后,由命名节点(Namenode)统一管理对各个节点文件的访问.上传来的大文件将会被分割成一个或多个块(block),这些block存储在数据节点(Datanode)集合里,并由Datanode负责调用Map()函数[8].Hadoop平台中的Map()函数负责处理局部的数据,对候选项集做本地统计后,然后把统计信息传到主节点,最后启动Reduce程序,它负责把Map()函数局部统计统计结果汇总,然后判断那些是满足要求的候选项集,即形成频繁项集[9].MapReduce Apriori(简称Apriori_MR)算法伪代码如下:

输入:D(HDFS上的数据), min_support

(1)L1等于find_frequent_1-itemsets(D);

(2)for(k等于2;Lk-1≠Φ;k++) {

(3)Map1(key,value,Lk-1,X.count),

Map2(key,value,Lk-1,X.count),等,

Mapi(key,value,Lk-1,X.count)

(4)Lk等于Reduce(Lk-1,X.count,Lk-1,K.support)}

(5)return L等于LUkLk;

输出:频繁项目集L

MapReduce Apriori算法处理过程如图2所示.

3 Apriori_MR算法设计

该算法在MapReduce编程模式中是以键值对(Key/Value)的形式进行计算的,计算完毕后也是以键值对的形式输出.在进行MapReduce处理的过程中,Map()函数和Reduce()函数是最为关键的两个函数.如需要实现某些特定功能,可以通过改写Map()和Reduce()函数来完成.

3.1 Key/Value的设计

表1为定义的Key/Value类型情况.表1中,Map()函数是以Key/Value键值对输入的,期间会产生一系列Key/Value键值对并作为中间结果输出写入到本地磁盘.MapReduce框架则按照Key值自动聚集原则将具有相同的Key值统一交给Reduce()函数处理.Reduce()函数将这些具有相同的Key进行合并得到相应的Value值,最终产生一个全新的系列Key/Value键值对并将结果写入到HDFS中.

3.2 Map的设计

在Hadoop中,用远程过程调用(RPC,Remote Procedures Call)的方式来实现各个节点的通信[8].RPC协议主要作用是将消息编码为二进制流,该过程是通过序列化方式实现的.在MapReduce编程模型中,用户的输入和输出数据要求Key和Value都必须是序列化的.

总结:本文关于MapReduceApriori论文范文,可以做为相关论文参考文献,与写作提纲思路参考。

参考文献:

1、 改进K—means算法MapReduce并行化 摘要:针对K-means在处理海量数据时,因初始聚类中心的选取不确定,从而导致收敛速度过慢的问题。本文提出了改进的K-means算法,首先用模糊。

2、 基于相似度矩阵的K—neans算法的MapReduce并行化实现 摘要:为了提高基于相似度矩阵的K-Means算法(SMK-means)处理大数据的能力,它使用MapReduce分布式编程模型,并结合SMK-m。

3、 Redis在高速缓存系统中序列化算法 摘 要: Redis是一个key?value存储系统,通过对Redis高速缓存系统的序列化算法优化,可提高缓存读取的效率和存储容量。引入现代统计。

4、 双十一三大变化正在去阿里化 未来产品质量过关、物流升级完成后,实际上我们的消费者每天都可以过“双十一”。2016年“双十一”天猫交易额全天超1207亿元再破记录,京东、苏。

5、 苏博特国内混凝土外加剂行业龙头写作化服务赢得市场 江苏苏博特新材料股份有限公司专业从事混凝土外加剂的研发、生产和销售,产品主要包括混凝土外加剂中的高性能减水剂、高效减水剂和功能性材料,广泛应用于。

6、 全球央行偏鹰化和货币新局 在未来的12个到18个月内,全球投资者将会调整预期,以适应更加激进的美国货币政策正常化的现实,实际的美元广泛贸易加权指数将增长5%-10%。在全。