论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>本科论文>范文阅读
快捷分类: 文献信息检索 信息检索论文 论文检索报告 文献检索网站 电子信息工程毕业论文 移动信息期刊 因特网信息检索的参考文献 信息检索论文评语 信息检索期刊 信息检索和论文写作 科技论文写作相关的信息检索知识 计算机信息检索和利用论文

关于信息检索论文范文 基于用户标签和时间维度信息检索方法相关论文写作参考文献

分类:本科论文 原创主题:信息检索论文 更新时间:2024-02-17

基于用户标签和时间维度信息检索方法是适合信息检索论文写作的大学硕士及相关本科毕业论文,相关信息检索报告范文开题报告范文和学术职称论文参考文献下载。

摘 要:为帮助用户在海量数据中发现自己希望寻找的内容,设计了基于用户标签和时间维度的信息检索方法.利用维基百科知识库,结合用户注册信息和历史浏览记录,自动生成用户标签.在用户进行检索时,利用维基百科的同义词对检索词进行扩展,结合时间维度,并利用用户标签对检索结果进行优化排序,为用户提供时效、精准的信息检索.通过实验对比,检索的覆盖率和准确率均有一定程度的提高.

关键词:维基百科:社会化搜索:用户标签:信息检索

引言

随着网络技术的发展,互联网已融人人们的日常生活.互联网在各个应用领域所积累的信息资源飞速增加,彻底改变了人们获取信息的方式.海量的网络资源为满足用户的信息需求提供了保证,但是如何从浩瀚的海量资源中快速、准确地找到用户所需要的信息,成为学术界和产业界广泛重视及研究的热门课题.

传统的搜索引擎一般依据关键词进行检索,得到的结果不能凸显用户的信息需求,而且会包含广告信息,甚至会有欺诈性信息.

随着社会化网络的逐步发展,在微博、论坛、圈子等社会化网络服务中产生了很多的优质内容,更能针对用户的特定需求给出相关的、可信赖的信息资源.

本文在中原农村信息港搜索引擎建设中,以用户标签自动生成技术为切入点,基于维基百科中的类别词,结合用户注册信息及历史浏览记录,设计了针对用户特征的信息检索方法,注重历史行为的时间维度,搭建搜索引擎系统,结合自建数据库内容,为用户提供高时效、精准的信息资源.

1 基于维基百科的用户标签自动生成

根据用户的注册信息和历史浏览记录,基于维基百科类别结构生成用户标签.

1.1 维基百科

维基百科是目前全球最大的网络百科全书,强调自由内容、协同编辑以及多语言版本.维基百科的内容几乎涵盖了人类知识领域,并能够迅速整理出和最近发生事件相关的信息.维基百科中的每个词条都是一个知识的抽象概括,对应文章为词条的解释说明.每个词条下都有该词条所对应的类别词.维基百科通过页面分类组织知识库的类别结构,每个词条都至少属于一个类别.如词条“信息检索”属于类别“图书资讯科学”、“计算机科学”以及“信息检索”.向上拓展类别“计算机科学”,可以找到其父类“电脑”和“应用科学”,而向下回溯类别“计算机科学”则可以发现其子类“神经网络”、“人工智能”等.需要注意的是,维基百科的类别结构不是树状的,是一个有向无环图,一个子类可以属于多个父类.

1.2 用户注册信息

用户在注册时,需要填写常规的如用户名、密码、联系邮箱等信息.在此之外,针对三农用户增加一些项目,例如经营项目列表、感兴趣项目列表等内容让用户选择,初步了解用户的信息需求.特别要注意的是,在设置这些项目列表时,项目名称要对应维基百科中的类别词,以便于后面类别子树的建立.用户的选择有助于系统针对用户的兴趣模型建立,解决冷启动的问题.

1.3 历史浏览记录

虽然要求用户在注册时对自己感兴趣的内容进行选择,但不能保证用户在注册时对相关项目进行了选择.比如,兴趣项目数的限制使得用户不能选择全部感兴趣的内容,或者用户感兴趣的内容没有在列表中出现等.用户的历史浏览记录在很大程度上能体现出用户的兴趣爱好,可以通过用户的历史浏览记录来动态修改用户兴趣模型.将用户历史浏览记录中的标题、摘 要部分提取出来,为自动生成用户标签做准备.

1.4 用户标签生成

利用前面获取的一些信息,为用户自动生成标签.步骤如下:

步骤1:利用分词技术对提取的标题、摘 要内容进行分词处理,得到词袋(Bagwords)模型 ,在这里W(D)是一个多重集合,因为标题和摘 要中会包含相同的词.

步骤2:依照常用的中英文停用词表去除词袋中的停用词.

步骤3:对处理后的词袋模型,建立一个记录每个词出现次数的词典,避免之后在同一语境中对屡次出现的同一个词进行重复计算.

步骤4:遍历词频词典,对于词w∈W(D),看其是否为维基百科中的词条,如不是则说明其在维基百科中语义不明显,将其从词袋模型中剔除.处理后得到词集合E(D)等于[e1,e2,等,em],m≤n

步骤5:对词集合E(D)中的每一个词,查找其所对应的类别,此为第一层类别,标记为L1(D);再从L1(D)里所有类别成员的页面中找到分别所属的类别,此为第二层类别集合,标记为L2(D),依次类推,直至延伸类别层次至max层(这里max为设定的类别子树最大层数).

步骤6:创建标签词典T.设定层次类别的权重系数为wc(wc>1),针对前面得到的max个类别集L1,L2,等Lmax进行遍历,设当前层次为,l等于1,如果类别名称cn存在于标签词典中,修正原有权重值T[cn] 等于T[cn]+1/Wci;如果标签词典中不存在类别名称cn,将其加入标签词典中,权重值为T[cn]等于1/Wci.

步骤7:如果l

步骤8:取标签词典中的前6个作为用户标签.

需要说明的是,开始时生成的用户标签不一定完全准确,随着用户历史浏览的增加,标签会越来越准确.

2 索引数据库建设

搜索引擎在接收到用户的查询后,要在自己的索引数据库中进行检索,为给用户提供时效、精准的检索结果.构建索引数据库是非常重要的工作.

2.1 常规索引数据库建设

利用爬虫工具自动访问互联网,收集相关网页,并沿着种子网页中的所有URL爬到其他网页,不断重复该过程,把所有网页搜集到本地网页库中.对网页库中的网页进行分析处理,得出每个网页和关键词的相关性信息,建立网页索引数据库.

总结:本文关于信息检索论文范文,可以做为相关论文参考文献,与写作提纲思路参考。

参考文献:

1、 基于时间维度下运动员协调能力特征探析 摘 要:以前人相关研究成果为理论依据,引入时间观念,立足运动员竞技能力结构体系和全程性多年周期训练计划的宏观理论视野,多维综合认识运动员协调能力。

2、 ADDIE模型于MOOC平台下信息检索课程设计分析 关键词:MOOC;ADDIE;信息检索;教学设计摘要:文章通过对MOOC平台下信息检索课程建设现状的调查分析,论述了ADDIE模型与学习者面临。

3、 湖湘文化学术信息检索途径和方法 摘要;应湖湘文化学术研究之需,文章介绍了湖湘文化学术资源检索的几种途径与方法:1、利用网上公共目录查询系统;2、利用学术搜索引擎;3、利用专业书。

4、 信息检索技术应用 摘要:随着互联网技术和通讯技术的迅猛发展,人们的生产生活发生了巨大变化,各种信息网络技术被广泛应用于人们生活中,随之产生的各类信息呈现出爆炸式增。

5、 探究式教学法在信息检索课程中应用 摘 要:信息检索课是一门时代性强,特点突出的方法和技能课,课程目的是使学生开阔信息视野、提升信息素养,熟练运用网络信息资源,利用网络知识解决学习。

6、 案例教学法在信息检索教学中应用 [摘 要] 本文分析了信息检索在教学中出现的一系列问题,提出了一种解决该问题的方法:案例教学法;分析了案例教学法在信息检索课堂上的优势:提高学生。