论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>硕士论文>范文阅读
快捷分类: 数据挖掘论文 数据挖掘论文参考文献 数据挖掘期刊 关联挖掘论文 数据挖掘论文下载 数据挖掘应用论文 数据挖掘技术开题报告

关于挖掘论文范文 大数据环境下文本信息挖掘方法相关论文写作参考文献

分类:硕士论文 原创主题:挖掘论文 更新时间:2024-03-14

大数据环境下文本信息挖掘方法是大学硕士与本科挖掘毕业论文开题报告范文和相关优秀学术职称论文参考文献资料下载,关于免费教你怎么写挖机价位方面论文范文。

摘 要: 文本信息挖掘有利于提高文本信息的查找和利用效率,针对传统方法存在的问题,提出文本信息挖掘方法.首先提取文本信息术语,估计信息内容和文本类别间的余弦距离,结合模糊规则推理和余弦距离得到隶属度,然后根据均值密度的中心估计方法得到文本数据集合的平均密度,确定文本信息聚类中心,删除远离文本信息聚类中心的奇异数据点,实现大数据环境下文本信息挖掘.实验结果表明,该方法能够有效提高文本信息挖掘的查准率,而且具有较强的可扩展性.

关键词: 大数据; 文本信息; 信息挖掘; 查准率

中图分类号: TN911.1?34; TP391 文献标识码: A 文章编号: 1004?373X(2017)23?0123?04

Abstract: The text information mining is helpful to improve the efficiency of text information retrieval and utilization. Aiming at the problems existing in the traditional methods, a text information mining method is proposed. The term of text information is extracted to estimate the information content and the cosine distance between test categories. The fuzzy rules reasoning and cosine distance are combined to obtain the membership. And then the central estimation method based on mean value density is used to get the average density of the text dataset, determine the clustering center of text information, delete the singularity data point far away from the clustering center of text information, and realize the text information mining in big data environment. The experimental results show this method can improve the precision ratio of text information mining effectively, and has strong scalability.

Keywords: big data; text information; information mining; precision ratio

0 引 言

在当今社会中人们获取外界信息的渠道更加丰富且获取方式更加简单,使得人们每天需要浏览以及面对大量的各色信息[1?2].因此,需要对用户进行文本信息的筛选,挖掘出用戶真正感兴趣的文本信息.

现阶段的文本信息挖掘技术不能根据用户查询目的有效地对查询内容进行扩展,且没有考虑用户的兴趣爱好以及用户的技术层次等差别,不能为用户提供具有个性化需求的动态服务.导致文本信息挖掘对知识理解能力和处理能力较差的问题,致使文本信息挖掘的精度不高以及文本信息过载和淹没[3?4].在这种情况下,如何有效、快速地从海量信息中挖掘出用户真正需要的信息,成为业内人士亟需解决的重要技术难题,受到许多有关专家学者的高度关注[5?6].文献[7]提出基于用户兴趣的大数据环境下文本信息挖掘方法,该方法挖掘能力的准确性较高,但存在计算过程消耗时间较长的问题.文献[8]提出基于句法规则的文本信息挖掘方法,该方法计算过程较为简单,但存在文本信息挖掘过程受控于核函数选择的问题.文献[9]提出基于决策树的大数据环境下文本信息挖掘方法.该方法可以从侧面了解用户感兴趣的文本信息,但存在挖掘能力局限性较大的问题[10?11].

针对上述问题,本文提出文本信息挖掘方法,结果表明,该方法能够有效提高文本信息挖掘的查准率,同时具有较强的可扩展性.

1 大数据环境下的文本信息挖掘方法

2 实验结果和分析

为了证明提出大数据环境下文本信息挖掘方法的有效性,在Eclipse Standard 4.3.2下搭建大数据环境下文本信息挖掘实验平台,实验数据来源于UCI语料集.分别利用模糊规则方法和支持向量机方法进行大数据环境下文本信息挖掘实验.将两种不同方法进行大数据环境下文本信息挖掘的精确度对比,采用查准率[P](%)作为度量不同方法下文本信息挖掘精度的结果:

通过对表1进行分析可知,利用模糊规则方法进行大数据环境下文本信息挖掘的查准率要高于支持向量机方法,这主要是因为在利用模糊规则方法进行大数据环境下文本信息挖掘过程中,先对文本信息进行术语提取,计算出新的文本信息内容和文本类别之间的余弦距离,结合模糊规则推理和余弦距离对文本信息进行分类,得到文本信息的数据样本和原型之间的隶属度.再根据均值密度的中心估计方法计算出文本信息原始数据集合的平均密度,在此基础上通过对文本信息聚类中心的确定,对文本信息中原始数据集合中远离聚类中心周围的稀疏数据的奇异点进行删除,使得利用模糊规则方法进行大数据环境下文本信息挖掘的挖掘精度较高.

分别利用模糊规则方法和支持向量机方法进行大数据环境下文本信息挖掘实验.对比两种不同方法进行文本信息挖掘的召回率(%),召回率是指自动挖掘和用户搜索相一致的文本信息占用户搜索信息总数的比率,体现了文本信息挖掘结果的完备性.利用对比结果来比较两种不同方法进行大数据环境下文本信息挖掘的召回率:

总结:关于免费挖掘论文范文在这里免费下载与阅读,为您的挖掘相关论文写作提供资料。

参考文献:

1、 大数据环境下高校图书馆信息资源建设和服务 [摘 要] 随着大数据技术的不断普及和发展,在图书馆领域的应用已经得到了充分的研究。在高等院校中图书馆是非常重要的部门,对于高等院校在学科发展以。

2、 大数据环境下情报分析方法和情报分析软件 [摘要]大数据时代的到来,给情报分析带来了新的机遇和挑战。文章概述了大数据的时代背景及情报分析的发展趋势,在现有研究的基础上,对情报分析方法相关。

3、 大数据时代高职图书馆信息流通路径 【摘要】大数据环境下高职学生阅读习惯的状态和师生服务需求的多样化等原因导致了现有图书馆信息流通严重滞后,文献资源得不到充分利用,本文通过分析大数。

4、 大数据环境下气象档案管理问题 【摘要】我国经济的腾飞,带动着各大产业的发展,信息技术和互联网产业越来越普及渗透到各领域,气象档案管理工作也不例外。通过充分利用先进的技术和设备。

5、 大数据环境下企业财务会计信息化管理 摘要:近几年,信息技术得到了飞速的提高,企业的财务管理也逐渐由利用信息化技术进行片面的管理,转向依靠信息技术进行大面积的管理。为了保证企业的财务。

6、 大数据环境下企业管理 摘 要:随着计算机技术的发展和移动互联网的广泛应用,信息的传递变得越来越快,信息的映射范围也无处不在,企业与市场、消费者、相关参与者之间的沟通随。