论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>毕业论文>范文阅读
快捷分类: 计算机网络论文 计算机网络毕业设计 网络安全论文 网络营销论文 网络营销相关论文 网络论文 人工神经网络文献综述 卷积码毕业论文 数学建模论文bp神经网络 bp神经网络文献综述 神经网络开题报告 有关神经网络的外文文献翻译

关于卷积神经网络论文范文 基于卷积神经网络的短文本分类方法相关论文写作参考文献

分类:毕业论文 原创主题:卷积神经网络论文 更新时间:2024-02-20

基于卷积神经网络的短文本分类方法是关于对不知道怎么写卷积神经网络论文范文课题研究的大学硕士、相关本科毕业论文卷积神经网络论文开题报告范文和文献综述及职称论文的作为参考文献资料下载。

摘 要:文本分类一直是自然语言处理中一个备受关注的问题,在邮件分类、文件检索、用户情感识别等领域有着广阔的应用.同时人工智能飞速发展,卷积神经网络在图像识别领域取做到了巨大的成功,本文则在传统方法基础上,将卷积神经网络应用在中文短文本分类任务中.与英文文本不同,中文文本文字连贯、搭配丰富,从而存在着文本的特征维度高,特征稀疏等问题.本文将卷积神经网络和Word2vec的Skip-gram方法结合,应用在短文本分类中.首先利用Skip-gram做到到文本的词向量表示,然后用卷积神经网络从向量化的文本中提取特征,在用这些提取出来的特征进行文本分类.实验结果与传统机器学习方法相比较,获得了更高的准确性,验证了卷积神经网络在短文本分类中的有效性.

关键词:卷积神经网 络文本分类 机器学习

中图分类号:TP391.4 文献标识码:A 文章编号:1672-3791(2018)05(a)-0013-03

随着信息技术的普及以及存储介质的发展,人们所接触的文本信息正在呈指数级增长,在整理、筛选和处理文本信息耗费的时间和精力也越来越多.智能的文本分类算法在快速整理海量文件库,提高筛选效率等工作中有着重要意义.

针对文本分类的课题,国内外学者都有广泛的研究.传统的文本分类方法有向量空间法、K-最近邻、决策树、支持向量机等方法[1].这些方法在文本分类中取做到了不错的效果,但是在表示短文本时会出现特征向量维度过高和数据稀疏的问题,同时这些特征值不能够保存词语的语法信息和相关的语义信息.针对这个问题,H.Saif,et al提出了SentiCircles的方法动态的更新字典中词汇的权值,从而表达文本的含义[2].Agarwal,et al提出了通过自然语言的语法形式等手段来进行特征提取[3].这些方法虽然能够提取更多的特征信息,但是这些条件同时也限制了特征提取的泛化能力[4].

同时,深度学习的蓬勃发展,在图像识别,语音识别等领域的成功应用,使做到其很多的理论基础和先进技术自然的被引用在自然语言处理的领域.

Yoon Kim使用了含有一个卷积层的卷积神经网络对英文断句进行分类,对比了随机初始化、预训练词向量、静态输入矩阵和动态输入矩阵等不同的方法,并做到出静态输入矩阵的模型分类效果较好[5].Kalchbrenner提出来一种名为动态卷积网络(DCNN)的模型,该模型采用了動态池化的方法,不需要先验知识的输入,也不需要人工提取特征[5].Baotian Hu,et al则利用卷积神经网络则关注对英文短句的建模,通过设置一个最大句子长度,对相对较短的句子采用0填充的方式解决解决不同长度句子输入的问题[6].

然而,传统方法通常关注文本的统计信息,忽略了词汇、句子之间的结构关系,同时,中文文本内容表达多样,蕴含意蕴深厚,语句结构信息是不可或缺的一部分.本文将采用一种基于卷积神经网络的方法,不仅仅包含文本词汇信息,还加入了词汇结构上的特征,应用于文本分类问题中,并取做到了良好的实验结果.

1 文本分类的过程

文本分类是指将给定文本按其内容特点归到一个或多个预先定义的文本类别的过程,主要包括文本预处理,文本表示、特征选择、特征提取、分类器分类.

1.1 文本预处理

与英文不同,中文文本在预处理时,通常要完成两个步骤:首先对文本进行分词,将一整段文本分割成独立的词汇,另外中文短文本中含有较多维持文本结构的停用词,往往是“的”“地”“我们”等.这些词汇不仅不能反映文本的主旨,还会对提取关键词等操作产生较大的影响,因此需将其过滤.为了使做到结果有意义,训练文本和测试文本需使用相同的预处理方法,即相同的分词方法,相同的删去停用词规则,以及相同的特征选择和文本表示方式[1,7].

1.2 文本表示

对处理过的文本信息进行合理的建模,使做到计算机能够高效的处理.通常建模方法有向量空间模型,布尔模型和概率模型等.向量空间模型是目前使用最广泛的一种文本表示方式.该模型通过构造一个多维度的向量空间,每一个维度表示特征集中的一个特征词,使做到文本之间的相似度可以通过向量之间的相似度来计算.

1.3 特征选择和特征提取

短文本经过预处理之后,特征词的数量很多,直接利用这些特征词进行分类容易引起维度灾难等问题.同时,还有一部分的特征词在分类算法中的贡献较小,甚至会对分类结果产生更差的影响.通常会对预处理之后的特征集进行特选择或特征提取.

特征选择是在当前的特征集中,选择有利于算法分类的子集,而特征提取则将当前的特征集转化成另一种表现形式,是将原来的特征集变为更高层次更加抽象的集合.

常用的特征选择方法有信息增益(Information Gain)和互信息(Mutual Information)等.特征提取的方法则有隐性语义索引(LSI)以及潜在狄利克雷分配模型(LDA)等主题模型的方式.近年来卷积神经网络、Doc2vec模型等方法也有很大的发展,并获得很不错的结果.

经过特征选择或特征提取的后,最终做到到短文本的词向量表示方式,再选择不同的分类算法对其进行分类处理[1].

2 实验过程

为验证CNN在短文本数据集上的分类效果,本文对比了CNN、SVM和KNN这3种方法,并结合各个算法的特点分析了实验结果[8,9].

2.1 数据预处理

本次实验选用的数据库是搜狐实验室中新闻类的文本数据,包括汽车、财经、IT等10个类别,共约10万篇文档.并使用jieba中文分词组件对文本进行分词,jieba中文分词组件还拥有词性标注功能,能够对语句分词后的每个词汇标注词性,这样就能根据词性删去大部分的停用词.以文本中财经类的一段文本为例:

总结:本论文为免费优秀的关于卷积神经网络论文范文资料,可用于相关论文写作参考。

参考文献:

1、 基于卷积神经网络语音情感识别 摘 要:语音识别对于人机交互而言一直以来都是非常重要的。而仅仅识别语音的内容,忽略它的情感是不完整的识别。因此,对语音情感的研究十分有必要。卷积。

2、 卷积神经网络在语言识别中应用 摘 要 近年来,随着理论的发展与大数据的来临,人工智能、深度学习再度成为学术界研究的热点。本研究的主要目标是通过卷积神经网络实现对江苏省方言的分。

3、 基于全卷积神经网络的图像缩略图生成算法 摘要:为提高缩略图生成中有效信息的保留率,该文提出一种基于全卷积人工神经网络并以图像显著性图驱动的缩略图生成算法。算法可有效识别图像中显著性区域。

4、 基于BP和SOM神经网络的电子鼻识别方法 摘要:电子鼻是一种模仿生物嗅觉的综合仿真系统,它可以用来辨别许多复杂的样本,其中用于辨别和分析气体化学成分的仿真系统应用较为广泛,而对复杂混合气。

5、 BP神经网络在用电用户分类中的应用 摘 要: BP神经网络在解决非线性复杂系统中存在很大的优势。针对家庭用电设备自身的负荷特点,以广州供电局用户用电设备能耗数据作为训练样本,利用B。