论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>论文范文>范文阅读
快捷分类: 论文中的文献综述 幼儿园文献综述 综述论文范文 论文综述模板 毕业论文文献综述 论文综述范文 不好文献综述 论坛文献综述 区域活动文献综述 文献综述事例 体育游戏文献综述 房地产财务风险文献综述

关于综述论文范文 词汇链文本表示模型计算方法综述相关论文写作参考文献

分类:论文范文 原创主题:综述论文 更新时间:2024-03-23

词汇链文本表示模型计算方法综述是关于本文可作为综述方面的大学硕士与本科毕业论文护理综述范文3000字论文开题报告范文和职称论文论文写作参考文献下载。

摘 要:[目的/意义] 词汇链文本表示方法是一种通过词汇链对语篇中的词汇衔接关系进行建模的文本表示方法,该方法能够体现语篇中丰富的语义信息,在自动摘 要、文本切分等领域得到广泛应用.[方法/过程] 对词汇链相关研究论文进行收集和整理,对词汇链的构建方式和消歧方法进行了归纳.词汇衔接关系的计算方法包括基于语义关联的计算方法、基于统计信息的计算方法和基于图的计算方法.词汇链构建过程中的语义消歧是很重要的过程,直接影响词汇链的构建结果和效率.[结果/结论] 词汇链文本表示方法结构简单、应用范围广泛.词汇链文本表示模型还存在着一些问题,如使用词典构建存在很多局限性,没有完整考虑上下文的信息等.未来词汇链模型可能会向着融合语义关系方法和统计算法、使用分布式语义加强对上下文分析等方向发展.

关键词:词汇链 词汇衔接 文本表示 自然语言处理

分类号:TP312

引用格式:曲云鹏, 王文玲. 词汇链文本表示模型计算方法综述[J/OL]. 知识管理论坛, 2016, 1(2): 136-144[引用日期]. http://www.kmf.ac.cn/paperView?id等于25.

1 引言

文本表示是智能情报处理的重要环节之一,优秀的文本表示模型能充分且真实地反映文本的内容,提高智能情报处理的效果.词汇链文本表示模型是一种对语篇中的词汇衔接(lexical cohesion)关系进行建模的文本表示模型,能够体现语篇中丰富的语义信息.词汇衔接特性最早由英语语言学家M. A. K. Halliday和R. Hasan定义[1],指的是一段语篇中的词并不是随机组合在一起,而是围绕一个主题或事情而组织在一起.词汇衔接关系是语篇的表层特性,主要通过语篇中文本单元之间的相关性来表现,相关性包括词汇的复现现象和搭配现象.词汇的复现现象指词汇之间的语义关联,例如同义、近义、上下位、整体-部分关联等,词汇的搭配现象指词的共现情况,即在一定窗口距离内或某种语法规则下词汇共同出现的情况[2].

词汇链指的是语篇中一系列概念相关的词共同组成的词序列,词汇链文本表示模型将文本表示为几个包含有多个词的词汇链,每个词汇链中的词通过词汇衔接关系联系在一起.图1为一段文本中词汇链的分布情况,该文本包含两条词汇链:{sat down, rest, tired, fell asleep}和{beech-tree, leaf, leaves}.

词汇链能构造一个易于理解的上下文环境,有助于确定多义词在文本中的具体含义;词汇链能为文本结构以及文本一致性提供线索,有助于理解文本的大意.词汇链可以被看作是一段语篇的标志性主题词语链,这些词共同表达了同一件事情或意思,确定了词汇链就能确定一段语篇的文本结构等.词汇链文本表示模型使用广泛,不仅可有效呈现文本中的词汇衔接关系,其多种特征也可用于关键词抽取、文本切分等,例如词汇链的长度可以反映相关主题在文本中的覆盖范围,词汇链的密度可以体现语篇中相关主题的延续性,词汇链中词的分布可以体现相关主题的分布情况等.本文主要对词汇链的构建过程和构建方法进行研究和归纳,分析各种词汇链构建方法的特点并进行归类,通过对比总结出各种方法的优缺点,并探讨相关领域未来的研究方向.

2 词汇链的构建过程

在构建词汇链之前,需要先对语篇进行预处理,包括词性处理、停用词处理等,形成候选词列表.然后依照候选词出现的顺序对候选词逐一进行处理,先判断候选词a是否能加入已有词汇链l.判断标准是看候选词和词汇链中的词是否有足够强的词汇衔接关系,若a和现有词汇链的关系满足条件,则加入;若不能加入,则新建一个词汇链并将a作为词汇链的第一个词.该步骤完成后会形成多个词汇链,这时根据具体需要,确定是否执行词汇链的排序、筛选、合并等操作,结果即为最终的词汇链表示模型.词汇链的构建过程如图2所示:

从词汇链的构建流程不难看出,如何寻找并计算词汇衔接关系是词汇链构建过程中的关键步骤.词汇衔接关系分为简单重复、复杂重复、简单释义、复杂释义、语义关联和非词重复6种类型[3],识别的难度从上到下按顺序逐渐增加,见表1.词典中通常会定义一些语义关联,如上下义、同义等,可以体现一些语言单元之间的词汇衔接关系,因此早期的词汇链构建算法通常借助词典中的语义关联来对词汇衔接结构进行建模.

另外,一词多义是自然语言最常见的特征之一,消除候选词的歧义是词汇链构建过程必不可少的步骤,语义消歧的结果体现了自然语言处理的水平.对候选词进行消歧可贯穿词汇链构建的整个过程,消除候选词歧义时机的选择将影响词汇链构建的计算复杂度和难度,同时也会影响词汇链构建的准确率.

3 词汇衔接关系计算方法

3.1 基于语义关联的计算方法

J. Morris和G. Hirst首次提出词汇链算法时选择了罗杰词典(Roget’s Thesaurus),他们选用了词典中的5种词间关系来计算词汇衔接关系:①词a和词b在词典中有相同的索引号;②a的索引号所指向的分类有指针指向b的索引号所指向的分类;③b是a在词典中的标签;④a和b在同一个组;⑤a和b的索引号所指向的分类同时有指针指向另外一个分类[4].5种关系的优先级按顺序递减.

WordNet词汇数据库出现后,D. St-Onge提出了贪婪算法,利用WordNet定义超强、较强和中强3种强度的词间关系用来计算词汇衔接关系,实现了词汇链的自动化构建[5-6].超强关系指某一词汇和该词在后文中的重复关系,不受距离限制.较强关系的窗口距离是7个句子,包括3种情况:①两个词属于同一个同义词集合;②两个词所属的同义词集合在WordNet中具有水平的层次关系;③第一个词是复合词或者短语,并且包含第二个词.中强关系的窗口距离不超过3个句子,在WordNet树形结构中的关系方向变化不超过1次,强度计算公式为weight 等于 C-(路径长度)- k*(方向变化的次数)(C和k是经验常数),综合考虑了两个词在WordNet中关系的路径长度和语义关联的方向变化.构建词汇链时优先采用超强关系,较强关系次之,中强关系根据强度由强至弱进行采用.

总结:此文是一篇综述论文范文,为你的毕业论文写作提供有价值的参考。

参考文献:

1、 改进配电网线损计算方法建议 【摘要】在电力企业中对于技术水平的衡量标准为配电网线损率,而对其进行控制工作,能有效的提高电力企业经济利益,同时这一工作还对企业形象及社会效益有。

2、 公共建筑节能改造节能量修正计算方法 摘要:针对当前公共建筑节能改造节能量确定方法尚不完善的现状,提出了一种新的节能量修正计算方法,即以改造前建筑为基准的节能量修正模型,包括4个修。

3、 导电混凝土应用于建筑采暖工程计算方法 摘要:导电混凝土作为一种新型建筑材料,将其应用于建筑采暖工程中,可有效节约资源、保护环境。室内空气温度是建筑采暖的主要关注点,针对导电混凝土作为。

4、 论砌筑工程工程量计算方法(2) 【摘 要】由于工程量清单计价方式具有很多优点而得到了市场的普遍认可。但是在具体实施过程中还有许多需要注意的问题,本文提出了砌筑工程工程量计算方法。

5、 网红营销价值计算方法 Papi酱贴片广告拍出了2200万元高价,这为一线网红的市场价格提供了一个很高的锚点。那么,如何计算不掺水的网红实际营销价值?以往投放媒介都有。

6、 基于运输和经济动态性分析公路运输弹性系数计算方法改进 一个国家的交通运输业的发展是否兴旺代表着国民经济是否强大,作为基础性和服务性的主要行业,交通运输业在整个国家的经济社会中的运行中起着举足轻重的关。