论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>硕士论文>范文阅读
快捷分类: 毕业论文数据怎么找 统计学数据分析论文 大数据杂志 论文数据 有关大数据的论文 数据挖掘论文 硕士论文数据挖掘银行 数据挖掘论文参考文献 数据挖掘期刊 数据挖掘论文下载 数据挖掘应用论文 数据挖掘技术开题报告

关于数据挖掘论文范文 基于k—means和关联度分析的网络招聘信息数据挖掘相关论文写作参考文献

分类:硕士论文 原创主题:数据挖掘论文 更新时间:2024-03-02

基于k—means和关联度分析的网络招聘信息数据挖掘是适合数据挖掘论文写作的大学硕士及相关本科毕业论文,相关数据挖掘开题报告范文和学术职称论文参考文献下载。

摘 要:本文基于K-means算法对网络招聘数据进行聚类分析,并运用关联规则对大数据和IT行业进行关联预测.从分析结果可知,学历和经验直接影响薪资水平,且金融银行职业类型的平均薪资水平在所得分类中最高,同时也得到大数据和IT行业对学历要求较高,其占总体职业类型比例有增加趋势.

关键词:网络招聘;数据挖掘;聚类算法;关联度分析

中图分类号:TP311 文献标识码:A

3.4 聚类分析

在完成文本信息向量化处理后,使用统计分析软件SAS中IML模块进行矩阵化运算[5],通过对K-means聚类算法的研究和应用[6,7],得到关于职业类型的聚类结果,我们对经过聚类分析的数据进行挖掘,便可以得到网络招聘信息中关于职业类型、薪资、地域、学历和工作经验的知识模式.

4 结果分析和预测(Interpretation of result and

prediction)

4.1 对整体数据进行分析和挖掘

(1)通过北上广职业分布和大长福职业分布词云图(图1和图2)对比可以得出:

相同点:销售行业在两类城市占比最高,依此可以推断出在全国范围内,销售行业仍然占据主流招聘人群.

不同点:一线城市中除销售相关职业外,“PHP”“.NET”

“JA”“UI设计师”“iOS”“C++”等词出现频数较大,直接说明了大数据和IT相关职业在一线城市的兴起和热门,而二线城市各个行业需求较销售都比较小,借此推断高端技术的需求量和城市类型有一定关系.

(2)对比两类城市的学历、经验分别与平均薪资的分布图(图3和图4)可以看出,无论是哪类城市,随着学历的提高,薪资水平提高明显;随着工作经验的丰富,薪资水平同样提高明显.

所以我们有理由得出:工作经验和学历都与薪资水平呈正相关系,即随着学历的提高和经验的丰富,薪资水平提高明显.

(3)通过聚类结果,得到关于职业类型和对应的平均薪资待遇的表格(表1).

通过对上述平均薪资状况的对比得知:金融银行业相应职位平均薪资最高,其次是要求专业技术较高的互联网通讯行业平均薪资条件优秀,其余产业薪资水平接近,但是鉴于职位供应地区是一二线城市.所以数据显示薪资水平与实际相比较为合理.

4.2 大数据和IT行业的预测

鉴于近年来大数据和IT行业的崛起,高精尖产业和职业的兴起已经成为了当今社会的主流走向,所以对这类行业进行分析更有价值.

(1)通过对这类专业招聘信息和总体招聘信息对比,得出大数据相关职业所占百分比条形图(图5).通过对图表信息的解读,我们可以得到三点结论:

大数据相关职业招聘比例在2016年9月开始快速增长,到2017年2月开始放缓增长速度,但是仍然以一种放缓的趋势增长.

根据上图所示,大数据相关职业招聘比例最大的三个月份是2016年8月、2017年3月和2017年4月,结合实际分析,可以得出每年的这两个季度是大学生毕业求职的高峰期,也是传统意义上的秋招和春招,侧面说明了大数据行业对于学历要求和能力要求较高.所以集中大学生毕业求职期间发布招聘信息.

对比2016年8月和2017年4月数据可以得出,大数据行业正在逐渐增长所占比重.因此可以认为短期内,大数据相关行业所占比重在未来短期内会持续上升.

(2)我们针对从整体数据中筛选出的大数据和IT行业的招聘信息数据的分析,得到关于大数据和IT行业的学历与经验要求柱形图(图6和图7),从图像中我们可以得到如下结论:

根据图6得出,大数据和IT行业需求学历更高,半数以上的最低学历要求是本科,专科及以上学历占据绝大部分比例.说明这个行业对人才的要求更高,所以相对应聘者来说除专业适合以外,学历要求门槛也较高.

根据图像可以看出,经验要求大部分集中于经验三年以下和不限经验.参考社会大背景下,大数据和IT行业较传统工商业起步晚,说明现有供给量已经无法满足日益增长的需求量,基于此原因出现了经验要求低的现状.

结合以上两点,我们大胆预测市场急需关于大数据和IT行业的人才,正处于求大于供的阶段,而且学历越高、经验越多的人才薪资待遇越好.

(3)通过对编码后各指标之间的关联规则进行挖掘,结果显示图如图8所示.

其中编码对应文本信息为:

c1等于北京;c2等于上海;c3等于广州;等于大连;c5等于长沙;c6等于福州.

s1等于0-5k;s2等于5-10k;s3等于10-15k;s4等于15-20k;s5等于20-25k;s6等于25-30k;s7等于30k以上.

e1等于高中以下;e2等于大专以下;e3等于大专;e4等于本科;e5等于硕士;e6等于不限;e7等于其他.

w1等于一年以下;w2等于1-3年;w3等于4-5年;w4等于5年以上;w5等于其他.

通过图8的结果表示,在所有的大数据和IT相关职位中,存在的关联规则如下:

(1)如果一个企业在长沙,且要求学历是大专,工作经验一年以下,那么这家企业95.54%的概率提供平均薪资为0—5k.

(2)如果一个在北京的企业提供平均薪资为20k—25k,且要求工作经验是4—5年的人才,则有85.7%的概率需要最低學历为本科.

5 结论(Conclusion)

数据挖掘是一项综合技术,熟悉运用数据挖掘技术可以得到许多有价值的信息,通过对网络招聘信息的分析与挖掘可以得到学历和经验直接影响薪资水平,各类型职业的平均薪资状况,而且有针对性的对大数据和IT行业的行业现状分析,得出了相关行业有较大缺口,正处于求大于供的阶段.通过对大数据和IT相关信息的挖掘,得出在置信度很高的关联规则下的解读信息.本文针对大数据和IT行业着重进行分析和挖掘,并没有得到所有职业类型数据信息,这是本文存在的不足之处,同样也是我们下一步的研究方向.

总结:本论文主要论述了数据挖掘论文范文相关的参考文献,对您的论文写作有参考作用。

参考文献:

1、 改进K—means算法MapReduce并行化 摘要:针对K-means在处理海量数据时,因初始聚类中心的选取不确定,从而导致收敛速度过慢的问题。本文提出了改进的K-means算法,首先用模糊。

2、 改进模拟退火算法K—means聚类方法在学生成绩上应用 【摘 要】本文以学生管理系统中学生的成绩作为测试集,提出一种新的基于改进模拟退火的k-means算法的评价函数,挖掘学生成绩中的有效数据,用改进。

3、 计算机网络安全中数据加密技术应用 摘 要:随着计算机的飞速发展,网络也在不断的发展。相对应的各种攻击网络的手段也随之产生,网络安全已经成为现在人类网络生活的重要要求。关键词:网。

4、 网络政治信息对青少年政治社会化影响调控 摘 要:在信息化的网络时代,网络政治信息给青少年政治社会化带来了双重影响。调控网络政治信息促进青少年政治社会化需要建设主流网络文化阵地、加强网络。

5、 基于K—MEANS聚类电商店铺经营策略分析 ◆中图分类号:F272 文献标识码:A内容摘要:本文在对电商店铺商品价格、相关商品数和月销量等数据的挖掘中,建立基于K-MEANS的店铺聚类研。

6、 计算机网络和信息技术在铁路调度系统中应用 摘 要:铁路信息系统在计算机网络和信息化技术的推动下,逐渐实现了自动化、智能化管理。本文主要对计算机网络和信息技术在铁路调度系统中的应用进行阐述。