论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>毕业论文>范文阅读
快捷分类: 情报杂志 图书情报杂志 企业竞争情报学位论文 竞争情报杂志社 竞争情报对企业竞争力的影响开题报告 小米科技竞争情报分析优秀论文 现代图书情报技术杂志社 图书情报投稿

关于竞争情报论文范文 网络竞争情报主题采集技术相关论文写作参考文献

分类:毕业论文 原创主题:竞争情报论文 更新时间:2024-02-07

网络竞争情报主题采集技术是关于对写作竞争情报论文范文与课题研究的大学硕士、相关本科毕业论文竞争情报公司论文开题报告范文和相关文献综述及职称论文参考文献资料下载有帮助。

摘 要:文章设计和实现了一种网络竞争情报的主题采集系统.该系统在进行主题预测时采用的基于改进的朴素贝叶斯算法提高了主题判断准确率,在进行链接预测时采用的基于规则和锚文本主题相似度结合的算法,避免了URL锚文本较短和噪声的问题.和宽度优先的采集技术相比,通过实验验证该方法具有明显的优越性.

关键词:竞争情报 主题爬虫 链接过滤 主题过滤

中图分类号: G250.2 文献标识码: A文章编号: 1003-6938(2014)05-0132-06

Focused Crawler Based Network Competitive Intelligence Acquisition

Abstract This paper designs and implements the network competitive intelligence acquisition system based on focused crawler. The Webpage"s topic is predicted by an improved Nave Bayes algorithm, which can improve the accuracy rate. The URL"s topic is predicted by the rule and anchor text similarity combined algorithm, which can avoid the problems of URL anchor text short and noise. Compared with the breadth-first acquisition techniques, experimental results show that the method has obvious advantages.

Key words competitive intelligence; focused crawler; URL filtering; topic filtering

1 引言

网络信息资源日益成为企业和政府部门的最重要的竞争情报来源,如何有效地、快速地从海量的网络信息资源中获取有价值的情报,是一个严重的问题[1].当前,很多企业和政府部门已经采用了竞争情报采集系统,所使用的情报采集技术主要有基于搜索引擎的情报采集、基于网络爬虫的情报采集和基于主题的情报采集 [2-4].基于搜索引擎的情报采集通过关键词硬匹配方法借助搜索引擎获取情报资源,实现虽然简单,但情报采集准确率不高;基于网络爬虫的情报采集较为适合在行业网站、专题网站、已知竞争对手网站等范围内情报采集,准确率较高,但同时也会漏掉很多分散的情报信息以及未知的相关网站,采集召回率较差;基于主题的情报采集通过事先确定的主题模型,只采集和特定主题相关的网页,能够在全网获取所需的信息页面,采集准确率和召回率均较高,该方式也是目前网络竞争情报采集的主流技术,本文也针对该方式提出了一种基于链接和内容预测的主题采集技术.

链接预测和正文内容预测是主题爬虫技术的核心部分,对应地也面临着两个主要问题[5]:(1)在进行URL主题预测时,可用的信息非常少,一般URL的锚文本平均长度只有3~4个单词,如果使用URL的上下文,又必然会引入噪声数据;(2)在进行正文内容预测时,多采用基于关键词的向量空间模型方法,准确率不高.

本文针对这两个问题,提出了一种新的基于主题爬虫的竞争情报采集方法.在进行链接预测时,采用基于规则和锚文本主题相似度结合的算法,避免了URL锚文本较短和噪声的问题;在进行主题预测时,采用基于改进的朴素贝叶斯分类算法,可以有效提高主题判断准确率.

2 相关工作

主题爬虫最早是由Chakrabarti等人于1999年提出的[6],其后的几年对主题爬虫的研究进入了空前繁荣的时期,目前已成为面向领域的开源信息分析和搜索引擎的信息采集的核心技术[7].学术界对于主题爬虫的研究主要集中在两个热点:一是主题的表示方法,即用户如何表示自己所需的主题;二是页面的采集策略,即如何高效的采集高质量的页面.第一个问题的研究主要采用文本分类、知识表示等技术,在此不再赘述;第二个问题的研究本质是主题相关度的判别,目前主要有基于内容评价的爬行策略、基于链接关系的爬行策略和基于分类器的爬行策略等.

基于内容评价的主题爬虫算法利用网页内容、URL、锚文本等网页文本信息来评价链接的等级,从而决定其爬行策略.这类的搜索算法主要有Best first search方法、Fish search方法和 Shark search方法等.这类爬虫容易产生主题漂移.

基于链接关系的主题爬虫算法通过分析Web的链接关系,利用页面间的链接关系预测待爬行URL,代表性算法有PageRank或其改进[8]和HITS或其改进[8-9].由于算法的复杂性,这类爬虫的计算量较大,且网页中也包含很多无关连接,容易爬取到很多无关页面.

基于分类器的主题爬虫算法从分类的角度来描述采集主题,判断待采URL的主题相关度.从主题相关度判别的力度上大致有两类网页链接预测方法,一种是通过链接的锚文本的内容和主题的相关度对链接进行预测;另一种是以链接所在网页的全部内容和主题的相关度对链接进行预测.这两种方法都有不足之处,基于链接锚文本的链接预测会导致一些和主题相关的网页链接被识别为主题无关的链接,而基于网页全部内容的链接预测则会导致大量的和主题无关的链接被下载[10].

从各类主题爬虫算法采用的主题相关性特征上主要有:网页内容特征、URL锚文本特征、页面分块特征、URL链接关系.基于内容评价的主题爬虫算法仅采用了网页内容特征,忽视了URL链接关系;基于链接关系的主题爬虫算法仅采用了链接关系特征,忽视了网页内容特征和锚文本特征.此外,在链接预测时,由于锚文本长度一般都很短,仅用单链接的锚文本特征会产生较大的错误率.本文综合考虑网页和URL的特征:在网页内容主题预测上,首先进行网页类型进行分类,然后对主题型页面进行内容分类;在链接预测上,首先对和主题相关的网页进行页面分块,利用页面规则进行第一次过滤,然后利用分块锚文本的相似度进行第二次过滤.

总结:这是一篇与竞争情报论文范文相关的免费优秀学术论文范文资料,为你的论文写作提供参考。

参考文献:

1、 基于CNKI竞争情报领域文献网络引文分析(20182018年) [摘要] 以2008-2011年CNKI中收录的竞争情报领域期刊论文为研究样本,对其参考文献中的网络引文进行统计分析,研究网络引文的数量、域名分。

2、 图书馆技术竞争情报模式分析 关键词:图书馆;技术竞争情报;服务模式摘要:文章分析了技术竞争情报的内涵,介绍了技术竞争情报服务的理论基础,探讨了图书馆技术竞争情报模式构建的。

3、 外场感知设备数据采集技术 [摘 要]企业常常面对大量分布分散的终端设备数据,这些数据在传输到数据处理服务器的过程中,以流数据的方式向上汇聚。为了能够快速处理流数据,本文设。

4、 新形势下开展企业竞争情报工作 摘 要 简要介绍企業竞争情报的基本概念,分析企业面临的竞争情报工作形势,提出开展竞争情报工作的一些思考和建议。关键词 情报 企业竞争情报 企业。

5、 基于内部供应链企业竞争情报开发 随着我国经济的发展,企业竞争情报的开发侧重点由外部供应链向内部供应链转移,实践中,企业只注重竞争对手信息情报的采集与运用,一味的注重对竞争对手的。