论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>论文范文>范文阅读
快捷分类: 论文中的文献综述 幼儿园文献综述 综述论文范文 论文综述模板 毕业论文文献综述 论文综述范文 文本分类算法文献综述 最短路径算法文献综述 蚁群算法文献综述 纹理目标跟踪算法文献综述 图像分割算法文献综述 图像处理算法文献综述

关于算法综述论文范文 词语相似度算法综述相关论文写作参考文献

分类:论文范文 原创主题:算法综述论文 更新时间:2024-01-21

词语相似度算法综述是关于算法综述方面的论文题目、论文提纲、算法综述怎么写论文开题报告、文献综述、参考文献的相关大学硕士和本科毕业论文。

[摘 要]词语相似度计算方法在信息检索、词义消歧、机器翻译等自然语言处理领域有着广泛的应用.现有的词语相似度算法主要分为基于统计和基于语义资源两类方法,前者是从大规模的语料中统计和词语共现的上下文信息以计算其相似度,而后者利用人工构建的语义词典或语义网络计算相似度.本文比较分析了两类词语相似度算法,重点介绍了基于Web语料库和基于雏基百科的算法,并总结了各自的特点和不足之处.最后提出,在信息技术的影响下,基于维基百科和基于混合技术的词语相似度算法以及关联数据驱动的相似性计算具有潜在的发展趋势.

[关键词]词语相似度;语义资源;语料库;维基百科;WordNet

[中图分类号]TP18

[文献标识码]A

[文章编号]1008-0821(2015)04-0172-06

词语之间的语义相似性研究是自然语言处理以及人工智能领域的基础性研究,如搜索、聚类以及歧义消除等,需要依赖于包含现实世界概念和关系的范围广泛的知识组织体系.自然语言的词语之间有着非常复杂的关系,如上下位关系、同义关系、反义关系等.词语相似度是对词语间复杂关系的数量化,是词语间语义相似紧密程度的一种定量度量.目前,词语相似度的研究可以分为两类,一类是基于语料库的算法,通过统计大规模语料库,根据词语间信息量或者词语共现频率来计算词语相似度.利用统计技术计算词语间语义相似度是一种无监督的机器学习方法.第二类是基于语义资源的算法,也可被称为基于本体的词语相似度算法,主要根据手工建立的语义网络,通过计算词语间距离得到词语相似度.另外,还有一类基于混合技术的词语相似度算法,通过将基于统计和基于语义的词语相似度算法集合起来,发挥各自算法的优势来计算词语相似度.

1 基于统计的词语相似度算法

这种方法是利用词语之间的相关性来计算词语相似度,假设语义相似的词语之间具有相同的上下文信息,根据上下文信息的概率分布作为相似度计算的依据.根据所用语料库的类型,可将其分为基于传统大规模语料库的方法和基于Web语料库的方法.

1.1基于传统大规模语料库的词语相似度算法

语料库是人们针对某一特定领域收集和整理的大量文档的集合,在利用大规模语料库进行词语相似度计算的研究中,很多学者应用了传统的互信息方法.L.Lillian利用相关熵,P.Brown等通过计算平均互信息来计算词语相似度.Dagan等使用了更为复杂的概率模型来计算词语的距离.Salton等提出词包法,通过构建词语语境向量,计算向量夹角余弦值来计算词语相似度.Deerwester等在词包方法的基础上提出潜在语义分析法(LSA),通过构建词汇——文档矩阵来解决数据稀疏的问题.赵军等在其提出的算法中,对关联频率分布规范化,通过计算词的属性向量间的距离来计算词语相似度.章志凌等基于统计的方法提出了基于词汇空间和关系空间的Corpus库,该库使用词语空间和关系空间结构化地存储了词语和其上下文之间的统计信息,为词语相似度的计算提供数据支持.

基于传统语料库的方法严重依赖于训练所用的语料库,语料库是提前准备好的,这种方法不能避免词汇不断更新,也无法计算未登录词相似度的问题,无法消除数据噪音的问题.另外,基于统计的算法没有考虑词汇的语义背景信息,这也大大降低了结果的准确度.

1.2基于Web语料库的词语相似度算法

随着互联网技术的飞速发展,Web语料库的出现为语料库的建设和研究提供了新的思路和方法.Web语料库以网络文本为基础,网络检索软件为技术手段,其词汇共现特征可被直接用来词语相似度的计算.商业搜索引擎提供了Web语料库的访问途径,能够方便快速地获取词语在Web数据库中单独出现、共同出现以及所处语境等信息,从而进行词语相似度的计算.目前,基于Web语料库,利用搜索引擎进行词语相似度计算的研究中,具有代表性的算法有PMI-IR、LC-IR以及Web-PMI算法.

P.Turney提出了PMI-IR(Pointwise Mutual Information using Information Retrieval)算法,通过搜索引擎获取数据,利用点互信息(PMI)以及搜索引擎检索返回的页面数作为词语相似度计算的指标.D.Higgins提出的LC-IR(Local Context-Information Retrieval)算法和PMI-IR算法相似,也采用Alta Vista搜索引擎,依赖于词语共现的频率统计信息.但是,LC-IR采用了不同的相似度度量标准,使用了词语被发现彼此相邻的频率,而不是词语在彼此10个字窗口内被发现的频率.该方法在一定程度上减少了PMI-IR算法存在的偶然共现词语对计算结果的干扰.在PMI-IR算法的基础上,D.Bollegala等提出了Web-PMI算法,通过搜索引擎返回的页面数来定义两个不同的词语P、Q以及P和Q的相似度,同时,还提出了一个使用从文本片段中自动提取的语法模式来计算词语相似度的新方法.再利用支持向量机将这些不同的相似度的值进行集成.实验数据表明该方法远远优于之前研究中基于Web语义相似性的计算方法.

此外,Rudi L.C.等利用信息论、压缩原理、柯尔莫哥洛夫复杂性、语义学等知识,把Internet作为一个大型的语料库,以Google搜索返回的结果数做为计算的数据依据,提出了一种语义相关性计算方法,设NGD(Normalized Google Distance,介于0和1之间)表示标准谷歌距离,用以衡量语义相关性的大小,f(x)和f(y)分别表示包含概念x和y的网页数,N表示Google引用的互联网上网页总数,那么概念x和y间的语义相关性计算公式可以表示称:

2 基于语义资源的词语相似度算法

词语所处的语境在一定程度上反映词语语义,但基于语料库的方法对训练所用语料库有很强的依赖性,而且计算量大,计算方法复杂,同时存在着数据稀疏的问题.如果采用人工标注的语义词典计算词语相似度,能够较好地减少数据稀疏和数据噪音对计算结果产生的影响.语义词典规范地描述了词语之间的上下位关系、同义关系、反义关系等,是词语相似度计算的重要依据.随着互联网技术的发展,维基百科作为一个公开的数据库,蕴含丰富的语义知识,数据范围广,更新速度快,也同样具有良好的结构化信息,目前已有许多学者选取维基百科作为数据资源进行词语相似度的相关研究.

总结:本论文主要论述了算法综述论文范文相关的参考文献,对您的论文写作有参考作用。

参考文献:

1、 修改雅可比改进算法综述 摘 要:本文主要叙述改进潮流算法程序设计的主要步骤:主要叙述雅可比矩阵以及修改雅可比矩阵改进算法的形成过程和步骤,在进行第一次迭代计算的时候,使。

2、 全球治理文献综述 摘 要 20世纪90年代至今国内外学者围绕全球治理进行了深入的研究,从全球治理的源起,治理主体延伸到全球治理途径。目前学界对于全球治理理念的来源。

3、 政府采购绩效评估文献综述 摘 要:随着我国政府采购规模的不断扩大,政府采购绩效的评估逐渐成为研究热点。完善的政府采购制度能够有效节省政府财政支出、强化预算约束力、提高财政。

4、 宏观经济模型评价环境政策最新综述 摘 要:运用宏观经济学研究的环境政策问题主要有两方面:一是越来越多的学者开始使用真实商业周期模型来研究环境政策,分析存在生产率冲击的情形下,如何。

5、 京津冀金融协同论坛·2018会议综述德融院 2017年6月,“京津冀金融协同发展论坛·2017”在河北金融学院召开。本次论坛由河北金融学院、中国财政学会投融资研究专业委员会、中国人民大学重。

6、 战略柔性文献综述 一、引言现代企业所处的环境与以前相比有很大的不同,环境的不确定性更大,要求企业的应变能力也越强。当今科技、经济迅速发展的现状下,企业之间的竞争。