论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>本科论文>范文阅读
快捷分类:

关于倾向性论文范文 基于话题特征词情感倾向性相关论文写作参考文献

分类:本科论文 原创主题:倾向性论文 更新时间:2024-03-27

基于话题特征词情感倾向性是关于倾向性方面的论文题目、论文提纲、倾向性问题是什么意思论文开题报告、文献综述、参考文献的相关大学硕士和本科毕业论文。

[摘 要]面对民众观点日益沸腾的互联网时代,如何理解网络舆情的倾向性,并且对舆情加以合理的引导是一个日益重要的课题.本文利用PLSA模型对不同时间段上的网络舆情话题进行子话题提取,采用基于HowNet的语义相似度模型对相应的子话题进行情感分析,通过和阈值的比较得出该话题的褒贬程度.

[关键词]话题特征词;PLSA模型;语义相似度;情感倾向性

doi:10.3969/j.issn.1673 - 0194.2016.22.098

[中图分类号]TP393.09 [文献标识码]A [文章编号]1673-0194(2016)22-0-02

0 引 言

随着互联网的快速发展,网络逐渐成为民众取得和发布信息的主要平台.但是,正是由于网络的便利性和虚拟性,网络信息的真实性鱼龙混杂,而面对稂莠不齐的信息源,广大民众不仅能够随时随地接收,还能够任意转发.对网络舆论进行适当的引导是非常必要的,否则可能引发不良后果,以致形成一定程度的恐慌,更进一步影响到其他民众的正常社会生活.

因此,准确了解公众的看法,对普通民众情绪进行及时有效的引导是人们一直以来不断努力的方向.本文试图通过PLSA模型和基于HowNet的语义相似度模型,探究网络舆情的情感倾向性,从而提出对策,以满足政府和企业舆情监控以及控制的要求,为政府机构舆论引导的方向和内容提供依据明确的参考.

1 网络舆情情感倾向性分析模型

网络舆情话题情感倾向性分析模型共分为2个部分:话题提取和情感分析.其中话题提取主要采取的是PLSA模型,情感分析主要采取的是基于HowNet的语义相似度模型.

1.1 话题提取

1.1.1 文本采集

本文研究的是网络热点事件的情感倾向性,因此在数据采集过程中,首先要确定一个网络热点事件,然后利用网络爬虫到知乎、豆瓣、微博、新闻等平台上获取该网络热点事件的信息.

1.1.2 文本分词

本文主要采用ICTCLAS汉语分词系统.具体ICTCLAS文本分词处理过程如图1所示.

采用Java编程实现初步文本分词,再利用停用词表和Java程序,进行停用词处理,从而得到相应的文档-词共现矩阵.

1.1.3 子话题抽取

采用PLSA模型对子话题进行抽取,生成k个子话题,并得到特征词在k个子话题上的概率分布.具体PLSA模型的应用如下:

PLSA模型,全称为概率潜在语义分析模型,将概率统计模型和EM算法相结合,实现对子话题的抽取.PLSA的概率模型图,如图2所示.

其中D表示文档,Z表示主题,W表示观察到的单词.

在该PLSA概率模型中,已知(di,wj),Zk是隐含变量.则(di,wj)的联合分布见公式(1).

其中,P(zk|di)和P(wj|zk)都对应多项式分布,笔者通过最大期望(Expectation Maximization,EM)算法来估计多项式分布中的参数.该算法主要分为E步骤和M步骤,然后进行迭代求解.

针对PLSA模型中的参数估计,在E步骤中,使用贝叶斯公式直接计算Zk的后验概率,见公式(2).

在M步驟中,是利用E步骤中的后验概率求得P(zk|di)和P(wj|zk),然后进行迭代求解,得到参数值见公式(3)、(4).

1.2 情感分析

本文对网络舆情情感倾向性的分析主要是通过对话题特征词倾向值的度量,判断该网络热点事件的褒贬程度.其中,默认0为阈值,即倾向值大于0时判断为褒义,小于0时则判断为贬义.

对于话题特征词倾向值的度量,本文是基于知网HowNet,进行语义相似度的计算,从而计算得到相应的情感倾向值.在知网中,词语是通过义原来描述的,所以将词语的情感相似度转化为义原的情感相似度.义原相似度的计算公式为式(5).

其中,α为权值,w为词语.

将最大的义原相似度作为词语相似度,公式为(6).

其中,y词语的义原.

假设共有k对基准词,则单词w的语义倾向值计算公式(7).

其中,key-pi、key-ni分别为褒义基准词、贬义基准词,Orientation(w)为单词w的语义倾向值:

通过加权求和可以得到特征词的情感倾向性值.

2 基于话题特征词的情感倾向性实证分析

笔者通过实例进行分析,从而验证本文所提网络舆情情感分析方法的可行性.本文以2016年5月份的热点舆论“江苏高考减招”作为本文情感倾向性分析的对象.利用网络爬虫来爬取新浪微博2016年5月9日到5月11日关于“江苏高考减招”话题的所有微博,设置的时间间隔为1天,划分实验预料,在5月9日到5月11日这个时间段,新浪微博中关于这个话题的讨论热度从热烈到逐渐平缓,因此,选择这个时间段对舆情情感的变化和分布进行探究.

2.1 PLSA舆情子话题抽取

笔者将半结构化信息处理后,得到纯文本语料.随后,进行分词统计并且构建“文档-词语”的共现矩阵.接着,采用PLSA模型进行子话题抽取,得到每时段子话题及其概率矩阵.表1列出了抽取的4个时间点的子话题,以及出现概率在前5位的话题词及其概率.

在表1中,整个时间段都被一个子话题贯穿,计算后,两个子话题之间语义上的关联度均大于本文设定的阈值0.5,因此,子话题“北京本科率”存在语义上的延续性.

2.2 基于特征词的情感词提取

本文以5月9日江苏高考减招消息出现当天所产生的一个子话题为例,首先将和本话题有关的文本进行资料筛选;随后,重新进行分类整理;接着,依据特征词的不同,将句子保存到不同的特征词文档中,整理和之相对应的情感词.

笔者通过BIYING搜索引擎对上述得出的情感词进行搜索,选择出现频率最高的词汇作为基准词,选取依据为按照返回的Hits数进行排序的词组,再以特征词“减招”的情感关键词为例,通过基于How-Net的词汇倾向性计算方法得到部分词汇的倾向值,如下表所示:

通过计算,最后可得到5月9日“江苏高考减招”子话题中的特征词“减招”的情感倾向值.计算的结果表明,对于江苏高考减招,多数民众认为这一项新政策十分不公平,并且对此怀有强烈的愤怒和不满情绪,但值得注意的是,尽管不满情绪高涨,超过半数的群众还是会接受这项政策.

3 结 语

网络舆情情感倾向性分析主要包括子话题抽取和情感分析两大部分.而本文在这两大部分上都进行了一定的创新,主要创新在子话题的抽取上采用Thomas Hofmann的PLSA模型,在情感分析上采用了基于HowNet的语义相似度分析.但是,这些模型仍然需要进一步改进.第一,将不同的句子结构都统一看成是陈述句进行分析,并没有考虑其对情感表达的影响,就像反问句就和陈述句有完全不一样的句意表达效果.第二,该模型需要花费大量的时间进行文本资料的人工整理,在大数据时代下,此种模型的实用性略差.所以未来的工作主要就是将现有的模型实现完全智能化,降低人工成本;考虑语法、句子结构等因素,得到更准确的情感倾向性.

主要参考文献

[1]黄卫东,陈凌云,吴美蓉.网络舆情话题情感演化研究[J].情报杂志,2014(1).

[2]黄卫东,林萍,董怡,李宏伟.基于话题特征词的网络舆情参和情感演化分析[J].情报杂志,2015(11).

[3]Thomas Hofmann. Unsupervised Learning by Probabilistic Latent Semantic Analysis[J].Machine Learning,2001(1/2).

总结:这是一篇与倾向性论文范文相关的免费优秀学术论文范文资料,为你的论文写作提供参考。

参考文献:

1、 肖邦b小调练习曲(Op.25No.10)情感特征探析 【摘要】本文对肖邦《b小调练习曲》(Op 25 No 10)的音乐风格语言和技法进行深入地剖析,展现了肖邦的音乐创作风格,从中揭示出此曲愤懑、悲。

2、 酩馏一个通用词引出话题 酩馏,对在青海乃至全国民众而言,已是一个粮食酒的代名词。据汉代许慎《说文解字》言:酩则醉也,馏为蒸米,饭气流也;而酒为“就也,所以就人性之善恶”。

3、 苏轼词中酒情感内涵 内容摘要:苏轼虽然经历坎坷,一生颠沛流离,但他仍能不改赤子之心,有内心的坚守。在这个过程中,“酒”成为了重要的陪伴,既能带来解脱,也是他寄托感情。

4、 论苏轼涉梦词审美特征 内容摘要:苏轼的词作有三百五十首左右,其中就有近七十篇写到了“梦”,其数量在历代写“梦”的文学家中是十分罕见的,可以说苏轼是运用梦的集大成者,。

5、 三明治行情特征很明显 全场只看两只股主持人:指数整体偏弱,但是热钱并不寂寞,特别是以龙魂华峰为主导的一批次新除权及含权股,成为了本周最耀眼的明星,这批品种下周不知能。

6、 识别债券违约公司的特征 当一家公司的息税前投入资本回报率偏低的时候,债券违约的概率比较高。当一家公司的长期融资净值为负数并叠加自由现金流为负数的时点,将会爆发债券违约事。