欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
材料论文
当前位置:首页 > 材料论文
句子级的情感极性分析在对词语情感倾向的研究
来源:一起赢论文网     日期:2015-09-27     浏览数:6158     【 字体:

句子级的情感极性分析在对词语情感倾向的研究中,分析处理的对象是单独个的字或词,而在句子情感倾向性的研究中,分析处理的主要对象则是由这些字或词组成的具有特定含义的语句。句子级的情感分析是通过文本挖掘算法对主观性的句子进行分类、聚类或者关联分析,挖掘提取出其中的关键词、主题以及观点,用以判断句子的情感倾向,并计算这些句子情感倾向的强度[39]。句子级情感分析方法也有两种:基于情感词典的方法和基于特征分类的方法。表2-1句子情感倾向判断实例^ 1 Bag of ^ U J Good BadSentences Good Badwords ness nessI really like the movie. like 2/3 1/3 .67 .33I love the way they combined comedy anddrama. love 1/1 10I really like the way they matched the actorswith the roles. waste 1/1 0 1It was a waste of time and money.I did not like the selection of actors. boring 1/1 0 1It was boring.对于表2-1,如果用基于情感词典的方法。首先需要通过查询特征词在词库中的分类,识别出likelove等是积极的词汇,do not likeboring等是消极的词汇。然而,我们不能忽略一些副词,比如句子“I really like the movie’’中,like前面加上副词really,该句子正面倾向的强度明显加强。因此,我们需要提取每个关键词前面的一个或两个副词,结合2.1.1中的基于词典的词语级倾向性计算公式,给出新的句子级倾向性计算方法,式子2_5:0(w) = M“办 1 X M X -Y sim{w, ) 一 丄文 sim{w,? ) ( 2-5 )m )上式中,和别代表两个副词的强度值。而如果通过统计情感词前方的否定词,得到奇数个结果时,我们直接将其强度值定义为"-1"。最后,计算整个文本的倾向性,即为每个词语倾向性的代数和。我们在这里设置一个阈值,将词语的情感倾向划分为简单的三个区间:当某段文字0(w)的代数和为0,为中性;当大于0,这段文字为积极正面的;当小于0,这段文字为消极负面的。17领士学位论文MASTER'S THESIS(1)基于词典的情感词抽取和判别方法。英文词语情感倾向信息的获取主要是通过Word Net以及General Inquirer两种词典;而中文词语情感倾向信息的获取主要通过知网词典(HowNet)。基于词典的方法是通过计算词典中某个词的义原,与需要判断情感的新词TV的义原P2的相似度,来判断该新词的情感倾向,如式子(2-3),在后面的章节中有具体的针对义原的介绍。,Pi) = ^ ( 2-3 )a + dist{p^,p2)通过上式,我们只能计算出新词W与词典中其中一个词的相似度,接着,我们需要计算该新词与词典中所有正面情感词的相似度,得到一个正面值,然后再计算新词与所有负面情感词的相似度,得到一个负面值,通过如下计算公式(2-4),得到该词整体情感倾向:1 “ ‘“0(w) = — y"*, sim{w, poSj) y^sim(w,neg i) (2-4)? , =1 tn其中,《代表正面情感词的个数,代表负面情感词的个数。上式的计算结果如果小于零,则表示新词W为正面积极的词汇;如果大于零,这表示新词W为负面消极的词汇,并且可以通过数值的大小判断正面或负面情感的强度。但上述方法对种子情感词的质量和数量较为依赖,而且一些词语的多义性也会对词语的倾向性分析造成干扰。为避免词语的多义性,一些学者在词典中添加词语的注释信息,以完成情感词的识别和极性分析。总之,该方法的优点是获取情感词的规模大,缺点即由于存在一词多义现象,使得构建情感词典难免产生歧异词。(2)基于人工标注语料库的学习方法。该方法通过大量标记语料库,建立用于情感分类的训练集和测试集,然后运用一些监督学习算法,比如K最邻进算法、朴素贝叶斯算法来训练分类器模型,并用于测试数据的情感分类。基于语料库方法的典型的研究如WiebePn等人利用语料库中词语的搭配模式和相似度分布的词聚类方法,发现在主观性文本中的倾向性词语及其搭配关系,不过,该方法只是将形容词当做情感词,忽略了其他词性的情感词。为了解决这个问题,TumeLittoan38]提出点互信息的方法来判断某个词语是否情感词,该方法通过手工制定一些模板选取种子评价词,可以适用于各种词性情感词的识别,但对种子褒义或距义词集合的依赖性较强。随着Internet的发展,许多方法将互联网作为语料库的来源,也使得基于语料库的研究有了更加广阔的发展空间。16情感分析又被称为意见挖掘,它是数据挖掘的新兴领域,是对带有人们意见、观点、喜好和情绪的文本、图片等数据信息进行分析的过程。而本文基于Web文本的情感分析则主要是对带有情感色彩的主观性文本进行釆集、预处理、特征选择、情感倾向性计算以及情感分类的过程[35]。在日常生活中,每个人对某件事情表达的观点或态度往往有着很大的差异,这主要是每个人的出发点、立足点和个人偏好的不同所导致的,分析这些主观性的,带有偏好的文本,不仅可以更好的了解人们的情感倾向,对未来做出预测,而且可以从带有负面情感的文本中获得不尽人意的地方,尽早对其进行调整。但如果仅仅以传统的方法来处理互联网中庞大的文本信息,不仅效率低下,而且分析的程度有限。因此,我们借助Web文本挖掘技术,通过计算机对大量的文本进行情感倾向性分析,挖掘出有价值的信息。文本情感倾向的研究主要包括词语级的情感分析,句子级的情感分析和基于细粒度的情感分析。2.2.1词语级的情感极性分析对词语的情感倾向进行研究是文本情感倾向分析的基础。情感分析主要是对情感词的识别以及对情感词的极性判断。词语的情感分析包括:基于词典和基于语料库两种[36]15碩士学位论文MASTER'S THESIS基于特征分类的方法主要是使用机器学习的方法,选取大量有意义的特征来完成分类任务,该方法研究的重点在于有效特征的发现,以及特征选择和特征融合等[4<^Zhao[4i]认为句子级的情感分析可划分为三层,各层的类别标签相互作用,并使用条件随机域模型(CRF)将这些特征进行融合,{:1111[42,43]将位置信息和情感词相结合,来完成句子级的褒跃分类,并对分类特征进行泛化,取得了很好的进展。2.2.3细粒度的情感分析细粒度的情感分析,也可称为属性级情感分析,它是指从文本中提取出与情感倾向性论述相关联的各个要素,这些要素包括情感倾向性论述的持有者、评价对象等等。细粒度的情感分析主要针对于用户的商品评论,它包括两个步骤:首先,从用户评论中抽取出用户关注的商品属性,例如对于酒店企业,用户关注的包括房间、价格、地理位置以及客房服务等;其次,对于每一种属性,计算它们的情感倾向,分析消费者的意见、偏好,从而有针对性的改进产品和服务。细粒度情感分析中最主要的研究是评论对象的识别与关联。例如对于评价“房间宽敞”、“设施陈旧”和“服务周到”,“房间”和“宽敞”、“设施”和“陈旧”、“服务”和“周到”属于显性关联,我们不可能把“服务”与“宽敞”关联在一起;再比如对于两个评论“性价比很高”和"价格很高",情感词都是“很高”,但由于对象不同,两个评价的情感倾向也不同,这种关联属于隐性关联。可见,如何处理好评论对象与情感词的关联,是一个非常重要而且充满挑战的课题。

[返回]
上一篇:大数据推动农业现代化应用研究
下一篇: 非政府组织参与电子政务评估制度建设的动因分析