论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>论文范文>范文阅读
快捷分类: 毕业论文数据怎么找 统计学数据分析论文 大数据杂志 论文数据 有关大数据的论文 数据挖掘论文 基于单片机数据采集系统开题报告 数据采集文献综述 数据采集和处理开题报告 汽车远程诊断数据采集技术硕士论文 无线数据采集论文英文参考文献 数据采集和处理期刊

关于数据采集论文范文 基于网络数据采集和LDA主题模型ofo用户评论挖掘相关论文写作参考文献

分类:论文范文 原创主题:数据采集论文 更新时间:2024-01-24

基于网络数据采集和LDA主题模型ofo用户评论挖掘是关于本文可作为相关专业数据采集论文写作研究的大学硕士与本科毕业论文大数据的采集论文开题报告范文和职称论文参考文献资料。

【摘 要】 随着共享经济热潮的发展,以ofo为代表的共享单车出现在城市的各个角落.为了挖掘用户在使用共享单车过程中关注的问题,以提高用户体验,本文针对用户评论进行分析.以ofo小黄车为例,抓取了百度ofo贴吧的相关文本数据,并进行文本预处理.通过TF-IDF算法检验文本预处理的效果,同时构建所需语料库以及建立DTM文档—词项矩阵,最终通过LDA主题分析模型,将用户评论分为若干主题,由评论文本提取的用户潜在关注主题对ofo经营发展给出适当分析和建议.

【关键词】 共享单车 ofo 爬虫应用 文本挖掘 LDA主题分析

1 引言

随着信息技术的发展以及国家对共享经济的支持,从2016年底起,以共享单车为代表的共享交通行业快速发展.但是随着用户数量以及竞争对手的增加,用户对共享单车的需求层次也越来越复杂.以ofo为例,复杂的运营环境给自身的发展带来了巨大的成长空间和机遇,而如何抓住机遇是关键所在.本文认为通过文本挖掘发现用户关注祝主题,有针对性的进行单车质量改进以及营销,会提高消费者的用户体验,有助于在错综复杂的市场环境中脱颖而出.

文本挖掘主题模型分析是自然语言处理的重要应用领域之一[1].文本挖掘主要是是指从大量无结构文本信息中发现潜在数据模式,并抽取有价值知识以更好地组织信息的过程[2].主题模型,即刻画主题的数学模型,是对主题进行形式化描述的方法.Deer wester 等人于1990年提出潜在语义分析(LSA)模型[3],LSA模型用高维的向量空间模型表示文档,并通过SVM(奇异值分解)对矩阵降维分解,映射到低维的潜在语义空间中,文本分析的研究不再局限于传统的词频统计分析.考虑到LSA模型存在不能辨识同义词和一词多义的不足,Hofmann 等人[4]于1999年提出了基于概率的潜在语义分析(pLSA)模型,使用概率手段获取潜在的主题以及主题和词汇、文档之间的关系,能够为信息提取提供更好的词汇匹配.而第一个完整的主题模型是由Blei 等人[5]提出的潜在狄利克雷分布(LDA),LDA模型是基于 层次结构的贝叶斯模型.LDA模型在上述模型的基础上使用了潜在主题(topic),并基于贝叶斯网络框架采用Dirichlet先验分布,增强了模型的推广能力和稳健性.很多国内外学者在LDA 模型的基础作出了相关研究,其中国内学者应用于评论的LDA模型研究主要分为三个方面:垃圾评论的发现、情感分析和评论的特征挖掘.刁宇峰等人[6]利用 LDA 模型训练评论的主题模型,从中提取垃圾评论;吕韶华等 [7]提出了用于情感二分类的 Dependency-Sentiment-LDA 模型,模型不仅考虑了情感词所表达的话题语境,而且还考虑了情感词的局部依赖关系;阮光册[8]等结合了知网(HowNet)和 LDA 模型,将用户评论的内容映射到主题上,以此提取主题特征词.王鹏[9]等人在利用LDA模型得到文本的主题分布后,将所得分布作为特征融入传统的向量空间模型,并依据相似度进行文本聚类,再利用主题信息对聚类结果进行聚簇描述.本文主要是针对ofo贴吧文本数据进行评论的特征挖掘,找出ofo用户主要关注点,从而有针对地对ofo运营提出意见.

2 数据获取和预处理

本文分析的ofo客户体验反映数据来自百度ofo贴吧,爬取的帖子包括截止至2017年5月6日共100页内容(每页包括50个帖子),考虑到贴吧内容和主题相关程度,为了防止因余下楼层的大量灌水评论行为影响实验数据的纯度,文本爬取只选择帖子标题以及1楼发帖人的阐述内容.

使用python语言编写脚本进行文本爬取,并通过分析网页源码结构,有选择地爬取符合要求的帖子内容的文本数据,保存为按行分列的文本文件,为后期进行具体分析提供优质的原始数据.使用python语言编写脚本的原因,一方面是python脚本简洁方便的特点为案例实施提供了一定便捷,另一方面,网络数据编码较为复杂,使用集成式网络爬虫工具则会给文本数据的后期处理带来较大的难度.网络数据存在复杂的字符编码格式,尤其是基于评论的文本内容平台来源不一,导致内容编码格式的无序,若不能统一编码,必将对后期数据整理造成障碍.这也即是本文进行文本数据获取的关键所在.

同时,实验数据清洗整理部分采用python接口,保证数据在不同平台间使用的稳定性,原始文本数据最终下载为utf-8格式约700k大小的txt文本.爬虫脚本流程图如图1所示:

3 文本预处理

由于贴吧数据具有不规范性、口语化、碎片化等特点,在进行主题挖掘之前需要对数据进行文本预处理,以为后续的工作提供良好的数据源.根据本文文本数据的特征,对文本进行预处理采取以下几个步骤:特殊字符处理——处理编码——中文分词——去除停用词.

(1)去除噪声数据

对噪声数据进行筛选、清洗能够提高数据的处理效率.由于原始数据网络来源的特殊性(其中夹杂大量特殊字符),删除原始文本数据特殊字符,最终保证文本编码统一为utf-8格式.

(2)中文分詞以及去除停用词

和英文文本不同,中文是以词为最小语义单元,需要对中文文本进行分词.中文分词就是将连续的字序列按照一定的规范重新组合成词序列的过程.在真实的评论数据夹杂大量无意义的词语,例如常用的介词、连词、语气词等.这些大量使用而无意义的词(停用词)最终将影响算法分析结果.

本文使用结巴(jieba)分词进行中文分词处理.基于R语言的jiebaR包进行分词最终得到以原始文本的各个词语为单元结构的文本文件.在分词完成的基础上,根据评论类文本的常见应用词,删除分词结果中的停用词.利用ggplot2对分词结果的词频绘制平滑曲线图,用以对分词后词语分布的把握.把词频归一化到Z值(z_score),Z值表示特征值离它的平均值有多远,并用标准方差来计算,词频转换为Z值后,0代表平均值,负数是低于平均值的值,如图2所示:

总结:此文是一篇数据采集论文范文,为你的毕业论文写作提供有价值的参考。

参考文献:

1、 基于无线传感器网络的数据采集系统 摘 要: 设计一种新的基于无线传感网络的数据采集系统,其由电源模块、无线模块和控制模块组成。电源模块为无线模块和控制模块提供电能,无线模块使用智。

2、 海上无线IP网络数据传输系统应用 摘 要:目前海上通信系统主要依靠VHF通信系统、SSB通信系统和海事卫星通信系统来完成对语音以及数据的传输,但是各个系统在应用过程中存在一定的局。

3、 基于Python互联网金融数据采集 [提要] 互联网金融数据中潜藏着未知的知识价值,但也存在着巨量的数据冗余。通过Python可以进行互联网金融数据的获取、解析、提取关键信息并进行。

4、 外场感知设备数据采集技术 [摘 要]企业常常面对大量分布分散的终端设备数据,这些数据在传输到数据处理服务器的过程中,以流数据的方式向上汇聚。为了能够快速处理流数据,本文设。

5、 数据采集SCADA系统研发和应用 [摘 要] 油气集输过程中如压力、流量、温度等这些数据都需要进行实时监管来保证生产的正常运行。如何高效、可靠地采集这些关键数据,则离不开信息化技。

6、 辽宁审计厅三方面优化2018年电子数据采集工作 本报讯(记者 米太平)为扎实推进审计全覆盖,强化大数据审计,辽宁省审计厅近日全面启动了2018年省本级和各市相关部门电子数据采集报送工作。据了。