论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>专科论文>范文阅读
快捷分类: 北大中文期刊 图书情报杂志 图书参考文献格式 中文期刊数据库 中文毕业论文 中文论文翻译成英文 燕山大学中文学术期刊目录 英文摘要中文摘要 图书情报投稿 电子商务外文文献中文翻译 中文论文目录 中文专业毕业论文选题

关于中文图书论文范文 基于融合特征的中文图书作者人名消歧方法相关论文写作参考文献

分类:专科论文 原创主题:中文图书论文 更新时间:2024-02-09

基于融合特征的中文图书作者人名消歧方法是关于中文图书方面的论文题目、论文提纲、中文图书论文开题报告、文献综述、参考文献的相关大学硕士和本科毕业论文。

摘 要:中文图书作者中一人多名和多人同名现象普遍存在;且各属性描述参差不齐.融合特征消歧算法处理过程中准确率有所下降.本文将作者属性分为实体特征、上下文关系特征、社会关系特征.借助向量空间模型用属性互斥放大和特征矩阵空缺缩小方法调整属性和矩阵权重系数后计算作者相似度.通过基于凝聚的层次聚类实现消歧,构建中文图书作者信息模型.用B_Cubed指标评测消歧结果,准确率、F值分别达到为89.42%、87.45%.

关键词:中文图书作者;人名消歧;互斥放大;空缺缩小

中图分类号:TP311 文献标志码:A 文章编号:1009-3044(2018)11-0182-03

Research on Chinese Book Author"s Name Disambiguation Based on Fusion Features

LI Meng-ya

(College of Computer Science, North China University of Technology, Beijing 100144, China)

Abstract: There is a widespread phenomenon that one person has many names and mutil-persons he co-name in Chinese book authors; and the description of attributes are uneven.The phenomenon of the homonym of more than one and many people in Chinese book writers is common, and the description of each attribute is uneven.The accuracy of the fusion feature disambiguation algorithm is reduced.This paper divides the author"s attributes into three categories: Entity Features, Contextual Relationships, and Social Relations.With the aid of the vector space model, the attribute mutex amplification and the matrix vacancy reduction method are used to adjust the weight, then calculate the authors" similarity.The Chinese book author information model is constructed by using the hierarchical agglomerative clustering to realize disambiguation.The results of disambiguation were evaluated with B_Cubed index. The accuracy and F-value were 89.42% and 90.47% respectively.

Key words: Chinese book author; name disambiguation; mutex amplification; vacancy reduction

1 引言

中国人口占世界人口比例排第一位.中国的姓氏词典共23,813个姓氏.在这个范围内挑选中文名称,导致姓名重复率高,中文图书作者重名现象也同样普遍存在.一人多名也是常见的現象,即名称变体,尤其文人墨客多有字号、原名、笔名等,这也是人名消歧研究要面对的问题.

搜索引擎、数据库或者数字化图书馆、专家知识库、文献数据库等应用多以人名作为重要检索条件[1].中文图书作者同名现象的存在,严重影响检索结果质量,故此中文图书作者人名消歧在此类应用场景中尤为重要.对中文图书作者人名消歧将提高搜索同名和名称变体作者结果的准确性,利于快速定位作者信息与作品信息.

当前研究多以人名消歧为主,专门对中文图书作者领域研究较少.本文旨在融合特征相似矩阵时做属性互斥放大、特征矩阵空缺缩小处理改进,丰富中文图书作者人名消歧的方法.

2 研究过程

2.1 相关研究

人名消歧可以从不同的出发点解决问题.第一种从社会网络角度出发.GHOST系统就是基于论文合作者关系构建出来的系统[2].唐杰也是在论文合作关系上进行专家消歧的.但当面对合作者信息不足时,消歧准确率急剧下降.为弥补这种情况下的不足,郑才松加入文章内容的考虑,从这两个方面进行各自聚类并融合其结果.提升了合作者缺失时同名区分的效果[3].

第二种从机器学习角度出发.主要分为三类:基于监督的[4]、无监督的[5][6]、半监督的[7].首先人工标记的数据,以这些数据训练作者名称分类模型.这种方法称为基于监督的方法.然后,利用学习模型预测每篇论文的作者分配.在无监督的方法,分簇算法或主题模型用来找到纸分区,在不同分区的文件分配给不同的作者[8][9].

第三种是基于特征角度出发.阳怡林等人将文本分为三类,转换为三个特征矩阵.再将这三个特征矩阵融为一个融合特征矩阵.三个特征矩阵及融合特征矩阵当做输入,采取不同的聚类算法得到不同的划分,利用均方误差邻接矩阵聚类算法对这些划分进行集成,实现人名消歧[10].当特征矩阵缺失率较低时该算法人名消歧效果较好.由于中文图书作者特征矩阵具有缺失率高的特点,此算法失去优势.

总结:关于免费中文图书论文范文在这里免费下载与阅读,为您的中文图书相关论文写作提供资料。

参考文献:

1、 中文图书首次登陆美国主流电子书市场 10月9日,译林出版社同美国规模最大的图书出版公司西蒙&舒斯特公司在法兰克福书展签署了发行与出版的协议——译林社将透过西蒙&舒斯特的电子发行渠道。

2、 中文图书政府采购策略 [摘 要]介绍了中文图书政府采购基本情况,针对现时采购中存在的问题,提出了相应的对策和建议。[关键词]中文图书;政府采购[中图分类号]。

3、 高校图书馆中文图书采编工作问题和 摘 要:目前,采编工作作为实现高校图书馆资源合理配置的基础业务工作,主要是技术性和事务性的融合。其工作内容十分繁琐,对采编工作的效率造成了一定的。

4、 融合背景下图书编辑策划转型 摘 要 在新时代的召唤下,图书出版走融合之路是必然趋势,图书编辑已不能再完全沿用传统思维方式进行工作,融合发展的思维、“互联网+”的思维应贯彻其。

5、 双保险解密多因素生物特征融合引擎 Synaptics在CES 2017上推出了全新的“多因素生物特征融合引擎”,该引擎将传统的指纹识别与面部识别技术整合在一起,可以为我们的移动设。

6、 图书资料管理优化和方法 中图分类号:G251 文献标识:A 文章编号:1674-1145(2017)09-188-01摘要随着科学技术的不断发展,信息技术水平逐渐提升,。