论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>硕士论文>范文阅读
快捷分类: 聚类分析论文 a类期刊有哪些 机械类杂志 医药类期刊 国家级教育类期刊 交通类期刊 matlab聚类分析参考文献 聚类算法开题报告 聚类分析参考文献 聚类分析文献综述 聚类算法文献外文翻译 聚类分论文

关于聚类论文范文 基于改进联合聚类的网速正常范围判定方法相关论文写作参考文献

分类:硕士论文 原创主题:聚类论文 更新时间:2024-01-29

基于改进联合聚类的网速正常范围判定方法是适合聚类论文写作的大学硕士及相关本科毕业论文,相关聚类开题报告范文和学术职称论文参考文献下载。

【 摘 要 】 网络速度正常范围与异常范围边界的判定问题是一个亟需解决的关键问题.由于数据的无标签特性,该问题适合采用无监督学习方法来解决.但由于各自的缺点与局限性,常见的聚类方法不适合直接应用于该判定问题.因此,文章基于无监督学习中的划分K-Means聚类与层次聚类方法,并进行了一定的结合与改进,提出了一种基于联合聚类方法的应用于网速正常范围判定问题的方案.经实验证明,文中的方案有效地实现了针对不同目标网速正常范围的自动发掘.

【 关键词 】 网速;范围判定;划分聚类;层次聚类;预定义规则 【 中图分类号 】 TP393

1 引言

随着互联网的快速发展,越来越多的网民开始关心网络的拥塞状况,同时,网络速度也揭示了网络的构建与布局的合理性,因此对网速的测定成为一个越来越重要的问题.伴随测速问题而来的另一问题,就是网络速度正常范围与异常范围边界的判定问题.通过该边界值,可以更好地体现当前网络是否拥塞.一般情况下,统一的的阈值并不能很好地体现当前网络的运行情况.例如国内的主机对于两个不同站点:百度(www.baidu.com)和谷歌(www.google.com.hk)的访问速度并不相同,通常访问百度的速度明显高于访问谷歌的速度,此种情况下,若设置相同的阈值作为正常网速与低网速的边界判定标准显然并不合适.因此,在该问题中,需要针对具体的判定对象,结合它的历史数据得到符合它自身标准的范围边界值.而随着大数据时代的到来,数据挖掘(Data Mining)的应用越来越广泛,在测速问题中,海量的历史速度数据看似无关联性,其实内在联合揭示了网络速度的分布规律.因此,将数据挖掘算法应用于网络速度正常与异常范围的边界判定问题,是适合和可行的.

本文提出了一种基于改进的联合层次K均值的聚类方法,用于网络速度异常阈值的自动发现,经实验证明,该方法具有良好的效果以及泛化性.本文的组织结构:第二部分具体描述了基于改进的聚类方法的网速异常阈值的判定方案;第三部分对实验以及结果进行了介绍;第四部分对本文方案进行了总结,并提出了待改进之处.

2 基于改进的联合层次K均值聚类的测速数据分析方案

2.1 测速数据预处理模块

2.1.1测速数据的特征分析

在本文中,网络速度的测量是指以多个实施测量任务的主机为源端,向同一个目的站点发送数据包从而测定该站点的下载速度.测量数据具有特征维数少、数据量大以及分布连续不均衡的特点,其中数据维数少是指单一主机对单一站点的测定数据呈现形式为一维数据;数据量大是指针对单一站点测定的数据量是十分巨大的;分布连续不均衡则是网络速度数据自身固有的属性,根据源请求主机地理位置的差异与请求时间的差异,一维数据在数据轴上可能呈现出多处离散的局部区域密度大,剩余区域密度较小的特点.

另一方面,聚类算法作为无监督学习算法中的主要方法,对于海量数据的处理不够灵活,当数据量大规模增长时,聚类算法的时间性能会有明显下降.因此,将原始测速数据直接用于聚类算法并不可行.本文通过定义预处理规则,将原始数据进行处理,从而在维持结果精度的基础上提高了算法的性能.

2.1.2预处理规则

本文定义了二条数据预处理规则,从而使得测速数据能够更好的应用于聚类算法.

规则(R1):去畸形数据.由于一些速度过高或过低的数据会影响聚类结果的准确性,所以首先对数据进行去畸处理.

规则(R2):将数据进行归并处理,从而明显减小数据规模.定义归并半径为R,原始数据集为D,单个测速数据为di (i等于1,2,等,n),其中n为原始数据个数.则对所有|dj-di |>R (j等于1,2,等,i-1,i+1,等,n),令D等于D -dj,Si等于Si∪ dj,其中Si为第i个归并中心对应的数据子集.经实验证明,当设定为0.0001时,可在几乎不影响数据分布的情况下较好的减小数据规模.经处理后,数据个数降至|D|等于[| max (di)-min (di) | /threshold]

2.2 细粒度的层次凝聚聚类

2.2.1层次凝聚聚类原理

在众多聚类算法中,层次聚类方法无需事先设定簇数目,从而更加有利于对测速问题中多处局部大密度的簇的发现.本文中,对于预处理后的样本首先进行了细粒度的层次聚类,算法过程:给定要聚类的N个样本,首先,将每个样本单独归为一类,共N类,类与类之间的距离就是相对应样本之间的距离;其次,按照预先定义的距离度量方法,找到距离最近的两类并合并成一类,并重新计算新合成类与剩余类之间的距离;重复上一步,直到类的总数达到预先定义的阈值为止.

其中,距离度量方法是影响聚类结果的关键.通常在层次聚类中,距离度量方法主要有三种.

单链法(Single Linkage):定义类间距离为两类之间距离最近的样本之间的距离.由于这种度量方法不考虑类内结构,当类内样本距离较分散时,可能会影响聚类效果.

全链法 (Complete Linkage):定义类间距离为两类之间距离最远的样本之间的距离.同样由于不考虑类内结构,该方法适用于寻找一些分布较紧凑的簇.

均链法(Group Average Linkage):定义类间距离为类间数据两两距离的平均值.这个方法倾向于合并差异较小的两类.由于考虑到了类内结构,产生的结果具有相对的鲁棒性.假设两类的样本数为N和M,则该定义计算单独两类的距离的时间复杂性为O(M×N),因此该方法处理大数据量的性能较低.

在测速问题中,由于密度大的区域比密度小的区域的重要性高,所以方案重在发现局部密度较大的区域.同时,由于在聚类之前对原始样本进行了预处理,降低了数据规模,因此本文选用均链法作为度量方法,降低稀疏密度区域对于聚类结果的干扰.另外,经实验证明,当类总数阈值设置为聚类样本数目的5%-10%之内时,对于高局部密度区域的发现效果最好.

总结:该文是关于聚类论文范文,为你的论文写作提供相关论文资料参考。

参考文献:

1、 基于改进k均值聚类方法林木冠层孔隙度提取 摘要:在利用林木冠层半球图像获取冠层孔隙度的过程中,针对因植被反光现象导致的图像误分割或分割不精确,以及传统k均值聚类图像分割方法易陷入局部最。

2、 改进模拟退火算法K—means聚类方法在学生成绩上应用 【摘 要】本文以学生管理系统中学生的成绩作为测试集,提出一种新的基于改进模拟退火的k-means算法的评价函数,挖掘学生成绩中的有效数据,用改进。

3、 基于K—MEANS聚类电商店铺经营策略分析 ◆中图分类号:F272 文献标识码:A内容摘要:本文在对电商店铺商品价格、相关商品数和月销量等数据的挖掘中,建立基于K-MEANS的店铺聚类研。

4、 基于聚类分析智慧城市事部件数据 [摘 要]在智慧城市的建设过程中,大量运行数据伴随着城市管理事部件的处置产生并积累。为分析此类数据,本文利用聚类分析技术,以温岭市太平街道为例,。

5、 基于聚类改进KANO模型B2C网站质量要素 [摘 要] B2C网站质量极大的影响其顾客购买意愿和使用黏性,同时随着市场竞争的日益激烈,对网站改善策略的思考也在不断丰富与深入。对于B2C网站。

6、 聚类分析在郫县烟草卷烟营销方面应用 摘 要:“大数据时代”的来临,为新时期郫县烟草的转型提升提供了创新的发展思路。为准确研判市场、实现精准营销,调研了郫县卷烟市场,用聚类分析、层次。