论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>论文范文>范文阅读
快捷分类: 聚类分析论文 a类期刊有哪些 机械类杂志 医药类期刊 国家级教育类期刊 交通类期刊 matlab聚类分析参考文献 聚类算法开题报告 聚类分析参考文献 聚类分析文献综述 聚类算法文献外文翻译 聚类分论文

关于聚类论文范文 基于主成分分析和运行特征的软件聚类分析相关论文写作参考文献

分类:论文范文 原创主题:聚类论文 更新时间:2024-02-02

基于主成分分析和运行特征的软件聚类分析是关于聚类方面的的相关大学硕士和相关本科毕业论文以及相关聚类论文开题报告范文和职称论文写作参考文献资料下载。

(1.北京师范大学信息网络中心,北京 100875;2.中国气象局国家卫星气象中心,北京 100081)

摘 要:随着教育领域的应用软件种类的不断增加,如何为软件提供合理的硬件资源和提高软件的运行效率受到越来越多的关注.本文提出了一套基于软件运行特征的软件分型方法,该方法利用软件运行时资源消耗情况来刻画软件运行特征.首先引用主成分分析方法对软件运行特征数据进行分析;然后采用聚类算法对教育领域软件进行分型;结合主成分分析结果解释各类软件综合运行特征的意义,并将其作为优化软件硬件资源分配和提高软件运行效率的依据.

关键词:聚类算法;主成分分析;特征分析

中图分类号:TP391 文献标志码:A 文章编号:1673-8454(2017)06-0078-04

一、引言

随着教育领域系统种类的快速增加和高性能计算软件的需求的不断增长,教育领域软件和系统所依赖的软硬件资源的运行情况成为人们关注的重点工作.尤其是高校在化学、物理、天文、卫星等领域高性能计算的方面的实时、高效方面提出了很大的要求,在无法监控软件内部运行的情况下,如何能够通过软件运行特征分析软件的运行情况,成为研究的热点.

本文采用的数据是北京师范大学用于教育和科研高性能计算等方面的软件或系统的运行特征数据,首先,对采集原始软件运行特征数据进行特征提取和加工,使其更好的表达软件的特征;其次,使用主成分分析方法对采集的运行特征进行分析,计算主成分提取其特征,并分析其实际意义;然后使用加工后的软件特征数据进行K-means算法进行[4-6]聚类分析;最后结合主成分分析结果,描述每类软件的特点.

二、软件运行特征提取与处理

1.软件和硬件环境概述

本文的研究对象是用于教育软件和科研高性能计算方面的软件和硬件资源的运行特征,软件资源包括188个教育软件;硬件资源包括3台浪潮小型机和50台普通服务器,详细的配置见表1.

2.软件运行特征数据采集

软件运行特征数据采集范围包含188个应用软件,软件运行数据的采集方式:是通过定期调用linux命令和接口.软件运行特征数据采集类型包括CPU级、系统级、进程级和作业级数据.

3.运行特征数据刻画

软件特征分析还需将软件的运行特征尽量完整的表达,并将每个软件的运行特征通过一个向量来表达.刻画软件运行特征需要从两个方面来考虑:(1)软件运行的时间序列特征;(2)消除平台间差异和系统本身的资源消耗.

4.特征数据归一化

原始数据中每个运行特征的单位都不一样,数据之间的大小差异很大,为了减少特征数据之间的差异,首先对数据进行归一化处理.本文选用Min-max标准化方法是对原始数据进行线性变换.设minA和maxA分别为属性A的最小值和最大值,将A的一个原始值x通过Min-max标准化映射成在区间[0,1]中的值x",其公式为:

x"等于(x-minA)/(maxA-minA) (1)

三、特征分析法原理

主成分分析方法[1](Principal Component Analysis,PCA)是一种统计方法.通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分.主成分分析的结果好坏,主要取决于指标之间的相关性,如果相关性很强则主成分分析的结果会很好,反之则较差[2].特征分析法的计算方法与步骤如下.

(1)根据原始数据矩阵计算相关矩阵

原始数据矩阵每行表示1个软件的运行特征,每列表示软件1个运行特征的值,通过SPSS软件分析结果见表2.该矩阵反映了任意两个软件的运行特征之间的相关性.

(2)通过总方差提出主成分

根据文献[2],当ρ(累加%)≥0.8~0.9时,就可以选用前面4-6个主分量代替原来的14个运行特征,并且保留了原来14个运行特征所包含的主要信息,这前4-6个主分量称为公共影响因子.

(3)计算软件主体成分

通过表3和表4分析发现,可以用1、2、3和4四个主成分代表原始矩阵的主要因素.在运行过程中,表达式中的变量已经不是原始变量,而是标准化变量,以第一主成分为例,可被其他标准化变量表示为:

F1等于0.732*Zx1+0.547*Zx2+*+0.254*Zx14 (2)

通过分析表4中的四个主成分系数,选取相关性系数较大的运行特征作为分析的因素.表5中可以发现第一类主成分中主要与运行时长和磁盘读写资源相关;第二类主成分主要跟网络资源和CPI有关;第三类主成分主要与计算资源相关;第四类主成分与内存和缓存有关.

通过表4和表5,提取新的主成分公式如下:

F1等于0.732*Zx1+0.722*Zx7+0.736*Zx8+0.652*Zx9+0.766*Zx10+0.755*Zx11(3)

F2等于0.715*Zx6+0.681*Zx12+0.63*Zx13+0.775*Zx14(4)

F3等于0.779*Zx4+0.774*Zx5(5)

F4等于0.798*Zx2+0.706*Zx3(6)

四、聚類分析结果

本文采用改进K-means算法进行聚类,聚类结果如下图所示,共得出了三种类型:

结合主成分分析结果和聚类结果,容易得出以下结果:第一类中第四主成分值较高,其他值都较低,该类软件对内存和缓存的要求比较高,为内存密集型软件;第二类中4个主成分都很高,该类软件属于综合密集型,对CPU、内存、磁盘和网络的需求量都比较大;第三类中4个主成分都比较低,属于小规模资源密集型,该类软件运行时间比较短,对各种资源的需求量整体偏低.

总结:本论文可用于聚类论文范文参考下载,聚类相关论文写作参考研究。

参考文献:

1、 基于主成分分析贵州省经济社会综合评价 摘要:文章運用主成分分析法,评价贵州省2005~2014年经济社会的发展状况,结果表明第一主成分足以作为贵州省经济社会综合发展实力的度量,而后在。

2、 旅游活动中主客交互关系的特征与模式分析 摘 要:旅游主客交往,作为一种限定于发生在旅游地这一特定空间,发生在游客与其东道主这两个特定群体之间的社会交往,相对于一般社会交往,则在地理空间。

3、 稀疏主成分线性判别分析算法 摘要:本论文开展了基于稀疏表示的人脸识别算法研究。主要内容如下:(1)回顾了人脸识别的发展,从中挑选了主成分分析(PCA)與线性判别分析(LDA。

4、 基于SPSS主成分分析在地下水环境质量评价中应用 摘要:选定内蒙达拉特旗三晌梁地区40个地下水质站点2年资料,在SPSS统计软件的支持下,将主成分分析方法应用于水环境的综合评价之中。利用主成分综。

5、 基于SPSS主成分分析法安防企业竞争力探究 【摘要】人工智能作为未来发展的主要方向之一,各个行业都在加紧与人工智能进行结合,也因此使得各个行业面临重大洗牌。作为人工智能成果落地较为显著的安。

6、 基于全局主成分分析法 一、引 言商贸流通业是国民经济的重要支柱,是区域竞争力的重要力量,已成为衡量一个国家或地区经济发展水平的重要因素[1]。作为引领经济发展的基础。