论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>论文范文>范文阅读
快捷分类:

关于词频论文范文 基于词频信息改进的IG特征选择算法在文本分类中的应用相关论文写作参考文献

分类:论文范文 原创主题:词频论文 更新时间:2024-03-08

基于词频信息改进的IG特征选择算法在文本分类中的应用是关于本文可作为词频方面的大学硕士与本科毕业论文词频论文开题报告范文和职称论文论文写作参考文献下载。

摘 要:IG算法是一种有效的特征选择算法,在文本分类研究领域中得到了广泛应用.本文针对IG算法的不足,提出了一种基于词频信息的改进方法,分别从类内词频信息、类内词频位置分布、类间词频信息等方面进行了改进.通过实验对改进的算法进行了测试,结果表明,改进的算法相对传统算法更有效.

关键词:词频信息;IG算法;特征选择;文本分类

中图分类号:TP391.1 文献标识码:A

Research on the Application of the IG Feature Selection Algorithm Based on Word

Frequency Information Improvement in Text Classification

NIU Yuxia

(Nantong Science and Technology Academy,Nantong 226007,China)

Abstract:As an effective feature selection algorithm,the IG algorithm has been widely used in the field of text classification.Aiming at the shortcomings of the IG algorithm,this paper proposes an improved method based on word frequency information,which improves the intra-class frequency information,the intra-class word frequency location distribution and the inter-class word frequency information.Experiments are carried out to test the improved algorithm,and the results show that the improved algorithm is more effective in comparison with the traditional one.

Keywords:word frequency information;IG algorithm;feature selection;text classification

1 引言(Introduction)

隨着信息技术的飞速发展,互联网信息资源呈爆炸式增长.面对海量信息,如何合理管理资源,使人们能够快速、准确地获取有效信息,已经成为IT行业的研究热点之一[1].

文本分类技术是文本信息处理的关键技术之一,能够很好地解决上述问题,在文本分类中,通常用向量空间模型来表示结构化文本,其中,文本特征的高维性和特征权值的稀疏性直接影响文本分类精度.因此,设计合理的特征降维方法可以提高文本自动分类的效率.特征选择模式是常用的文本特征降维方式.该模式计算复杂度低,容易理解.特征选择的主要方法有:文档频度(Document Frequency,DF)、互信息(Mutual Information,MI)、文本证据权(Weight of Evidence,WE)、统计量(Chi-square,CHI)、期望交叉熵(Expected Cross Entropy,ECE)、信息增益(Information Gain,IG)等.相关研究表明[2,3],在信息类别分布均衡的情况下,信息增益优势明显,但在类偏斜条件下,信息增益的分类效果就会下降.就信息增益的不足,探索相应的改进方法,提高文本分类的性能,有重要的现实意义.

2 信息增益文本特征选择算法(Information gain

text feature selection algorithm)

信息增益(Information Gain,IG)的评估方法是以熵为理论基础的[4].熵越大,表明体系分布不确定、混乱.设X是随机变量,它可能有n个取值,,等,,每个取值取到的概率分别为,,等,,则X的信息熵为:

(1)

当Y确定以后,则X的熵为

(2)

信息增益是熵的差值,表示在去掉变量的不确定性后得到的信息量,表示为:

(3)

IG是针对特征项而言的.设ω为特征项,C为文本类别,用ω在C类中是否出现所带来的信息量来确定ω对C的信息增益值,如式(4)所示.

(4)

其中,n表示总的文档类别数,表示在文档集合中属于类的文档出现概率,表示含有特征项的文本在文档集合中出现的概率,表示不含特征项在文档集合中出现的概率,表示含特征项属于类别的概率,表示含特征项不属于类别的概率.

3 改进信息增益算法(Improved information gain

algorithm)

3.1 基于类内词频信息改进IG算法

传统信息增益算法中计算的概率P均是基于文档数量的,没有考虑特征项词频因素[5].比如,特征项中的与在类别中的大部分文本中出现,在其他类别中基本不出现,那么,和可能是的特征项.由式(3)计算得到的两个特征项与类别之间的IG值应该基本接近.但是,如果特征项在类别中出现的次数远远大于特征项时,即特征项对的分类能力远远大于特征项,由式(3)计算得到的两个特征项IG值仍然接近.因此,在评估特征项对文档类别的分类能力时,传统的信息增益算法考虑了在类别中出现特征项文档的数量,而没有考虑特征项在中各个文档中出现的次数.

总结:本论文为免费优秀的关于词频论文范文资料,可用于相关论文写作参考。

参考文献:

1、 一种改进的LANDMARC室内定位算法 摘要:针对射频定位LANDMARC算法精度差的问题,提出了一种改进算法,依据最邻近参考标签到阅读器的距离及其接收的信号强度指示RSSI(rece。

2、 特征选择方法中三种度量比较 摘要:不同类型数据中特征与类别以及特征与特征之间存在一定的线性和非线性相关性。针对基于不同度量的特征选择方法在不同类型数据集上选取的特征存在明显。

3、 基于改进的LBP和PCA算法的人脸识别 摘要:针对LBP算法的特征描述只与中间点和邻域点的灰度值大小有关,而忽略了各个邻域点之间灰度值相关性的问题,提出了一种改进的LBP算法。该方法在。

4、 改进的互信息特征选择方法在垃圾邮件检测中的应用 摘要:随着电子邮件数据量的不断增大,特征降维成为垃圾邮件检测研究中不可缺少的一环。目前常见的特征选择方法往往针对的是多分类问题,未能针对二分类问。

5、 一种适用于机组组合优化的改进整数编码粒子群算法 摘 要: 针对机组组合这一高维、非线性混合整数规划问题,提出一种结合修补策略的整数编码粒子群(ICPSO) 算法。用正负整数分别表示机组开停机的。

6、 会计信息质量、审计师选择和债务融资成本 【摘 要】 以我国2010—2014年A股上市公司为初始研究样本,实证检验了会计信息质量、审计师选择与债务融资成本之间的关系。研究发现,高质量的。