论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>职称论文>范文阅读
快捷分类: 检测论文语义 语义网的课程论文 有关语义语法的参考文献

关于语义论文范文 基于语义扩展数字文献自动分类方法相关论文写作参考文献

分类:职称论文 原创主题:语义论文 更新时间:2024-04-15

基于语义扩展数字文献自动分类方法是关于本文可作为相关专业语义论文写作研究的大学硕士与本科毕业论文语法,语用,语义论文开题报告范文和职称论文参考文献资料。

〔摘 要〕针对图书、期刊论文等数字文献文本特征较少而导致特征向量语义表达不够准确、分类效果差的问题,本文提出一种基于特征语义扩展的数字文献分类方法.该方法首先利用TF-IDF方法获取对数字文献文本表示能力较强、具有较高TF-IDF值的核心特征词;其次分别借助知网(Hownet)语义词典以及开放知识库维基百科(Wikipedia)对核心特征词集进行语义概念的扩展,以构建维度较低、语义丰富的概念向量空间;最后采用MaxEnt、SVM等多种算法构造分类器实现对数字文献的自动分类.实验结果表明:相比传统基于特征选择的短文本分类方法,该方法能有效地实现对短文本特征的语义扩展,提高数字文献分类的分类性能.

〔关键词〕数字文献;短文本分类;特征选择;语义扩展;分类性能

DOI:10.3969/j.issn.1008-0821.2015.09.013

〔中图分类号〕G2507 〔文献标识码〕A 〔文章编号〕1008-0821(2015)09-0070-05

〔Abstract〕Aiming at the problems of inaccurate concept expression of text vector and poor classification effect which is caused by sparse feature keywords in digital documents of books and journal articles etc,the paper proposed a classification method based on the features of semantic extension.Firstly,this method adopted TF-IDF method to filter keywords that have higher ability of digital text representation and TF-IDF value than other common features.Secondly,to build the low dimensionality and semantic conceptual vector space,it extended semantic concept of core features collections based on the Hownet semantic dictionary and knowledge base of Wikipedia.Finally,it realized digital document automatic classification by applying MaxEnt and SVM algorithms.The result showed that the proposed method can more effectively expend short text on semantics and improve the classification performance of digital document compared with traditional short text classification method based on characteristic selection.

〔Key words〕digital document;short text classification;features selection;semantic extension;classification performance

数字图书馆的主要业务数据是馆藏的各种类型的文献资源,即使在大数据环境下,其核心业务仍然是针对这些种类众多的文献进行组织和安排,使各种类型的文献能够在数字图书馆中统一实现分类和检索.然而,针对数字文献的分类标引工作长期以来都是由编目人员手工去完成,既费时又费力.且由于信息的模糊性以及数字文献种类、数量的剧增,仅靠提高编目人员的业务素质来保证文献分类标引的准确性是不现实的,有必要将信息自动化技术引入图书编目、数字文献元数据的分类或主题标引之中.利用机器学习实现数字文献的自动分类已成为数字图书馆建设中亟待解决的关键问题之一[1].

自动分类技术是指在给定的分类体系情况下,根据文本内容自动判定到相应预定义类别的过程[2].目前主要采用向量空间模型进行文本信息结构化的表示,然而基于该模型下由于数字文献文本特征缺失会导致向量空间的高维和稀疏,且包含大量无效、冗余的特征,从而降低数字文献分类的精度.另外,基于该词频向量的表示方法忽略了文本中特征词的含义以及词项间潜在语义关系,如同义词、冗余和蕴涵等信息.面对短文本数据集特征缺失带来的问题,相关学者提出借助外部词典/知识库进行特征扩展的方法,以弥补短文本特征不足的缺陷,提高最终的分类性能.如Phan[3]等人通过外部网络数据源扩展短文本的词条信息来解决词特征的稀疏性问题;Ferragina[4]等人借助ODP(Open Directory Project)、WebKB等手工标注的知识库计算查询词、网页片段等短文本的相似度;Wang[5]等人通过将文档词向量中的每个词匹配到维基百科概念,利用上层概念、关联等实现向量语义相关性扩充;Milne[6]等人根据维基百科中文档链接关系对某概念进行语义扩展,并提供给检索引擎实现检索关键词的语义扩展.范云杰[7]等人提出基于维基百科的链接结构和类别体系进行概念的关联度计算对社区问答数据集进行分类;翟延冬[8]等人综合考虑文本的概念、句法等信息,提出一种基于WordNet的短文本语义相似度计算方法;王盛[9]等人利用“知网”词典中的上下位关系扩展文本的特征向量来实现短文本的分类.实验结果表明通过引入外部词典/知识库来对特征向量的语义扩展,一定程度上能有效解决特征的缺失问题,提高短文本的分类性能.为此,本文提出在TF-IDF模型的基础上,采用“知网”语义词典以及维基百科知识库对数据文献的文本特征进行语义扩展,以提高数据文献分类的分类效果.

总结:此文是一篇语义论文范文,为你的毕业论文写作提供有价值的参考。

参考文献:

1、 基于SVM的税务稽查选案自动识别方法 摘要:支持向量机是20世纪90年代中期发展起来的机器学习技术,在众多分类算法中,支持向量机因其出色的学习能力,成为机器学习界的研究热点。着重于介。

2、 基于卷积神经网络的短文本分类方法 摘 要:文本分类一直是自然语言处理中一个备受关注的问题,在邮件分类、文件检索、用户情感识别等领域有着广阔的应用。同时人工智能飞速发展,卷积神经网。

3、 基于本体和语义距离DBpedia领域知识抽取方法 摘 要: 关联开放数据(LOD)中蕴藏着大量不同领域的知识,但是目前抽取其中特定领域知识的方法大多需要人工参与。为了能自动地抽取领域知识,提出根。

4、 基于BiLSTM数学主观题自动阅卷方法 摘要:数学主观题自动阅卷既无法直接采用长文本计算中的TF- IDF等统计方法,又因为缺少相关知识库而无法使用语料库、知识库、语言学等短文本的方法。

5、 地下水化学分类方法 摘要:地下水化学类型不仅有助于了解天然水的成因条件,而且水化学类型的递变格局也时常成为圈化地下水系统、地表水系统,以及研究两者间水利联系的重要证。

6、 一种实用数字频率计实现方法 摘 要:目前测量频率的方法主要有计数法和周期法两种[1],其计数工作一般需要使用单片机来完成,虽然测量精度较高,但也会增加设计的工作量。本文介绍。