度量论文范文基于候选集相似度度量计算有关论文写作资料-论文范文网

基于候选集相似度度量计算是关于度量方面的的相关大学硕士和相关本科毕业论文以及相关度量路七酱论文开题报告范文和职称论文写作参考文献资料下载。

摘要：关联规则的数据挖掘作为数据挖掘的一种重要模式,已成为目前数据挖掘领域的一个非常重要的研究课题.其中如何度量和寻找有效的候选集一直是众多学者研究的课题之一.本文在置信度及其兴趣度度量的基础上,提出了产生候选集的相似度度量计算方法,并对比了该方法和置信度及其兴趣度之间的联系,并利用相关结论进一步讨论了大数据集环境下如何更加有效地计算相似度的度量计算方法.

关键词：数据挖掘；关联规则；事务间关联规则

中图分类号： TP274 文献标识码： A 文章编号： 1673-1069（2016）12-145-3

0 引言

关联规则的数据挖掘分为事务内关联规则（Intra-Transaction）的数据挖掘和事务间（Inter-Transaction）关联规则的数据挖掘.非经典关联规则挖掘始终会面临所谓的“高阶逻辑”问题.对股价描述,特别是对一些基于（标的股票）价格之上的衍生资产,如期货或期权,这样的表述会更准确些,即在N维空间下（随机过程）的套利测量场.对其直接套用泛Apriori算法是不合适的.

当以基于事务的观点应用滑动窗口技术将股票原始事务数据库D转化为扩展事务数据库De时会大量出现这样一个很有趣（是因为它有别于经典购物篮的高支持度）也很值得注意的现象.因为得到的扩展事务数据库De往往会很大数据集很丰富,但就某只股票在某个时间点上的事件出现频率计数.（例如,如果以一只股票当天收盘价比上一天收盘价超过2%作为一次事件发生记为1否则记为0.那么就在前不久,上证指数从16.01.04开盘的3536.59一路跌到16.01.29收于2737.60.期间共有二十个交易日,1只出现过三次,其他都记为0.支持度为3/20等于0.15.韶钢松山从16.01.04开盘价14.28元一路跌到16.01.29的收盘价12.21元.期间共有20个交易日,1出现了5次,其他都记为0.支持度为5/20等于0.25.显然,它们的支持度都很低.那么能由此推断出走势背后的资金流没有关联吗?肯定不是,资金流之间的进出绝对是有关联的.这其中暗藏的有趣关联肯定还不少.）和整个扩展事务数据库De数据集相比结果很小甚至小到都可不予考虑即支持度显然很低.然而依“规则的可信度是指包含I1和I2的事务数和包含I1的事务数之比”来看置信度却较高.这其中有许多有趣的关联规则它们支持度很低但置信度却较高,如果一味用传统的挖掘算法会很难发现这些（有趣的）关联规则.

事务间关联规则通常的支持度都较低.在对支持度很低但置信度很高的关联规则进行挖掘时,用最小支持度门槛值的算法显然不够有效.对此本文打算用相似度来衡量事务间可能产生关联规则的项,进而得到事务间关联规则,而且还可用来挖掘感兴趣的事务间多个项间排斥规则.

1 相似关联规则挖掘算法

1.1 兴趣度及其相似度量

复旦大学的施伯乐教授在文献中提出了基于差异思想的兴趣度定义,用以指导关联规则的发现.其定义规则X等于>Y的兴趣度为：

这个定义是由关联规则的支持度和可信度而产生的,分母只是个标准化因子,使得| Interest（X等于>Y）|<1.根据这个定义,一条关联规则的兴趣度越大于0,说明对这条规则越感兴趣；一条关联规则的兴趣度越小于0,说明对这条规则的反面规则越感兴趣.

可事先由用户指定最小兴趣度阀值minInterest,若Interest（X等于>Y）的绝对值越大于minInterest,说明Y的支持度和规则X等于>Y的信任度的差异越大,我们说规则X等于>Y是新奇的,用户对这些规则越感兴趣；若Interest（X等于>Y）的绝对值小于minInterest时,说明Y的支持度和规则X等于>Y的信任度差异较小,则可以说规则X等于>Y不是新奇的,不会引起用户对该规则感兴趣.

1.2 相似度度量方法

事务间的特征或多或少都会存在一定的相似性,相似性是普遍存在的,其间差别只在相似程度多少而已.具有高支持度的关联规则往往是显然的大家比较熟悉的规则,而相比较而言,低支持度关联规则可能更具新颖性和有趣性.

相似关联规则挖掘的初衷是用置信度度量来替代支持度度量,为了便于运算引入了相似度度量,因为它极好地近似了置信度的概念.对原始数据库利用相似度进行关联规则挖掘,首先需要把原始数据库转换成0/1矩阵.转换方法是：原始数据库的每一项将生成新0/1矩阵的一列；原始数据库的每一个事务将生成新0/1矩阵的一行.如果第i个项在第j个事务中出现,那么这个矩阵的第j行第i列取值为1,反之没有出现就取值为0.

2 基于相似度及其最小哈希变换的候选集挖掘

2.1 基于相似度候选集挖掘

鉴别相似列对的算法包括三个阶段：计算特征标识、产生候选集和对已产生候选集进行剪枝.第一阶段首先是扫描整个数据库进而为每列生成一个小的哈希特征标识.这一步主要是对存放在外存上的大规模数据进行一次概括性的处理以便能把初步处理结果存入内存,好在内存中对其操作.第二阶段,在内存操作中,根据列特征标识生成候选对.最后阶段,再一次扫描原始数据库来决定每一候选对是否确实具有高的相似度.在扫描数据库时,为每个候选列对（Ci,Cj）计算两个计数：一个是在两列中至少有一列中有1的行的个数,即Ci∪Cj,另一个是当两列中同一行都为1的行的数目,即Ci∩Cj.

2.2 基于最小哈希变换的候选集挖掘

先将原始事务数据库转换成扩展了的大事务数据库,再按照扩展项是否出现再转换成0/1数据库M.如果原始数据库有n个事务,m个项,maxspan等于w,则M成为了n行,m×w列的0/1矩阵.然后确定要置换变换的k值.k值可根据事务数据库事务总数及对变换后所得矩阵和原始阵的相似度要求来确定.

最小哈希变换的候选集挖掘伪码：

总结:本论文主要论述了度量论文范文相关的参考文献,对您的论文写作有参考作用。

参考文献：

1、中小企业区域集优票据发行成本分析摘要：中小企业区域集优票据是中国银行间市场交易商协会在2011年推出的一种新型中小企业集合票据，它的发行成本包括审计费、律师费、信用评级费、。

2、我国中小企业信用风险度量模型和实证中小企业是社会主义市场经济中的重要组成部分，对经济发展和社会稳定起着重要的作用。据统计，我国中小企业数量占国内市场中企业总量的99%以上，吸纳了。

3、欠发达地区区域集优债务融资路径和选择摘要：区域集优债务融资模式集合了企业、产品、效率、政策和风险缓释措施，能有效降低单个企业的融资成本，分散融资风险，是解决中小企业融资问题的一种。

4、计算机行业云时代系列，云计算大时代已来云计算凭借其灵活配置、资源利用率高和节省成本的优势，正逐渐颠覆传统IT行业的部署模式。2017年部署在云环境中的IT基础架构产品支出预计增长26。

5、传统企业如何应对云计算到来 CBN=CBNweekly C=Alain Crozier从十多年前亚马逊开始做AWS云服务至今，云计算已经成为各大厂商竞争的焦点。各个行业。

6、美国如何打造型产业集群当前，打造诸如美国硅谷、北京中关村等创新型产业集群，已成为各国提升城市和地区经济发展活力和竞争力的重要手段。曾经的“钢铁之城”美国匹兹堡能成功转。

关于度量论文范文基于候选集相似度度量计算相关论文写作参考文献

关于度量毕业论文范文

相关职称论文题目

关于度量开题报告写作参考资料