欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
计算机论文
当前位置:首页 > 计算机论文
基于Web文本挖掘的企业口碑情感分类模型研究
来源:一起赢论文网     日期:2015-09-03     浏览数:3992     【 字体:

随着互联网的发展,消费者越来越热衷于通过博客、点评网站等渠道分享关于各种品牌、产品以及服务的购买心得,由此产生的网络口碑会直接影响其他消费者的购买决策。一方面,积极正面的口碑可以为企业吸引更多的客户,带来更大的利润;另一方面,过多的负面口碑会降低企业的信誉度,造成客户的流失。因此,对企业网络口碑进行情感分类,分析消费者的情感倾向,不仅有助于企业对负面口碑作出及时的反应,制定有效的应对策略;同时,通过对这些口碑文本细粒度的挖掘分析,还可以发现其中的商业价值,将其应用到产品个性化推荐,用户兴趣发掘等多个方面。本文以Web文本挖掘技术为基础,以情感分析技术为主线,研究了 Web文本数据爬取,中文切词分词,停用词过滤等文本釆集与预处理的关键技术;并在此基础上研究了特征选择方法及其对情感分类的影响;然后基于情感词典构建了企业口碑倾向性计算模型,并用于酒店口碑情感分类的实证;接着利用K最邻近(KNN)算法构建情感分类器,实现细粒度的情感模型,最后同样针对酒店企业进行了细粒度的情感分类实证研究。本文的主要的研究工作包括:第一,研究了 口碑网HTML页面的DOM树结构,利用RostDM软件设计了针对酒店评论的URL抓取规则和文本数据采集规则,采集了 口碑网中两千多条,近十万字的酒店评论作为语料库。该语料库来自于消费者对酒店的主观评论,具有专业性,情感特征明显等优点,对研究Web文本的情感倾向问题具有一定的意义。第二,研究了特征选择对情感分类的影响,在训练文本分类器的过程中,特征项的选择对分类器的效率和精度有显著的影响。本文采用KNN算法训练不同维度的特征集,得出对于情感文本的分类,用于训练的特征集并非越多越好。选取适量的特征集有助于提高后续研究的效率和准确度。第三,构建了基于情感词典的口碑倾向性计算模型,该模型通过改进原有的知网词典(HowNet),重新构建了情感词词典,添加了否定词词集以及程度副词词集,将不同强度的程度副词划分为五个等级,用于口碑文本的情感倾向性计算。并在该模型的基础上对前面釆集到的近千条酒店口碑文本进行了情感分类。第四,研究了细粒度的情感分类模型,对消费者所关注的酒店的房间、价格、位置、服务等属性进行了情感倾向性分析。模型描述了构建细粒度情感分类器的具体流程,通过计算文档频度提取出评论中情感词所关联的高频属性词(比如:房间、价格、位置、服务等),将含有该属性词的文本归为一组,利用RapidMiner文本挖信息技术高速发展的今天,日益激烈的市场竞争,迅速变化的市场环境都为企业的发展带来了巨大的挑战。企业口碑作为市场最直接的反应,它的传播会对某个品牌、某种服务、甚至整个企业产生极大的影响。研究发现,口碑信息对消费者购买行为的影响力度是报刊的七倍,广告的四倍,市场促销的两倍⑴。良好的口碑传播,在使得消费者态度由否定到中立,再到认可的过程中所起的作用是广告的九倍;而不良的口碑传播,则可能带来企业的口碑危机。据统计,过去几年中70%的口碑危机都来自于互联网[2],比如2006,SK-II的“铬钱门“事件;2008,三鹿奶粉的“三聚氰胺”事故;2010,霸王的“致癌门"风波;2011年双汇的“瘦肉精”事件以及2012,老酸奶的“工业明胶”风波等等所造成的产品乃至企业的危机,最初都是通过个别网民的相互传播,在网络信息几何级数增长的"池塘效应”下,最终发展为众所周知的事件。然而,很多企业并未意识到网络口碑的作用,他们在调查消费者对某个产品的满意度时,常常花费大量的人力物力在问卷调查、投票系统以及搜集大量文章评论上,整个过程不仅效率低下,而且准确率不高。随着微博和第三方点评网站的兴起,消费者不再仅仅是冲浪者,同时也是波浪的制造者,他们可以很大程度的掌控网络信息的传播,这给企业口碑监测带来了挑战的同时也带来了机遇。消费者通过自身感受,写下带有正面或者负面情绪的文字分享给其他消费者,对其他消费者的消费倾向造成影响。据统计,在美国85%的互联网消费者,在购买商品时都会搜索并阅读其他购买者在线评论,其中81%的消费者表示参考了其他购买者的在线评论[3]。由此可见,好的口碑可以为企业吸引更多的客户,创造更大的价值,而过多的负面口碑则会降低企业的信誉度,造成客户的流失。因此,在信息大爆炸的今天如何有效的获取这些口碑,并对其进行挖掘分析,成为越来越多的研究者关注的话题。在这样的背景下,Web文本挖掘应运而生,.Web文本信息源重要性体现在:一方面,很多原来只能通过调研、访谈、数据分析等方式才能监测预警的内容,现在都可以直接通过Web文本挖掘进行获取。另一方面,很多信息只能通过文本信息获取,加之互联网信息的公幵性,使得企业获取所需的监测信息更加快捷方便。同时,由于互联网上可以选择的样本较大,分析结果的准确性也会更高。因此,企业要想全面了解消费者需求,切实提高消费者满意度,可以借助Web文本挖掘技术获得更多的技术支持。6??耻学位论文MASTER'S THESIS国外的研究还有一段差距,需要大力推进。1.2.2情感分析技术研究现状(1)国外研究现状早在八十年代,美国加州大学的Kim等人就开始对文档的主观性和以及文字的主观观点挖掘方法进行研究[12]。他们提出了观点的定义,认为观点由四个部分组成,包括:话题、话题持有者、陈述和情感。其中的情感既是对文本情感极性分析的结果。到九十年代末,对情感分析的研究取得了一些进展,但没有获得过多的关注;直到二十一世纪初,随着Web2.0产生的大规模数据以及统计学方法和机器学习方法在自然语言处理领域的大规模使用,文本情感信息挖掘才逐渐被被应用到各个领域。2003,Tumey等人提出了一种简单的无监督学习算法——PMI-IR算法,选取分别代表正面(Thumbs Up)和负面(Thumbs Down)的基准词,来判断其他词汇的语义和倾向[3]。该算法首先利用规则抽取出包含形容词和副词的词或短语作为待分析的情感词,然后通过计算某个词或短语与正面词"excellent”的关系值,并减去某个词或短语与负面词“poor”的关系值,所得的差值极为该词或短语的情感倾向,如式(1-2)S {phrase) = PMI(phrase, “ excellent") - PMI{phrase, “ poor") (1-2)如果得出的值为正值,那么该词或短语与"excellent”更相关,为正面词;如果得出的值为负值,则表明与"poor"更相关,该词为负面词。Dave等人同样釆用无监督学习方法,用一系列的规则抽取情感词,然后对每个情感词的倾向度赋予一定的值。最终整篇文章的情感倾向即将每个词的情感值叠加来判断。近几年,Tumey算法的基础上,开始出现一些改进算法,如基于知网词典的词语极性分析方法、细粒度的情感分析方法等等[14]。在情感分析的应用上,2005年底,英国Corpora软件公司开发了一套名为“感情色彩(Sentiment)"的软件,通过它来判断报纸刊登的文章对一个政党的态度是肯定还是否定。此后,Morinaga等人[15】开发了名为RSE (Reputation Search Engine)的系统,用于对目标品牌的声誉分析,该系统根据用户指定的品牌,从互联网上搜索相关意见,并标识出每个意见的极性,用图形等可视化方式显示出用户对该品牌的不同偏好,以改进生产。(2)国内研究现状情感分析在国内的起步也比较晚,主要是近年来才发展起来。这几年,国内有关人工智能、自然语言处理、数据挖掘等领域的会议开始纷纷将文本情感倾向分析4耻学位论文MASTER'S THESIS指标,同时给定规则,如果句子内部任意两个有效词之间有4个以上的无效词,则词句子不予以考虑,对符合要求的句子计算其重要性[6],公式如(1-1):= (1-1)其中A表示句子包含的有效词个数,仏为句子中所包含的词的总数。计算出的值越高,该句即成为文摘的候选句。其后,众多学者在这个基础上做了改进,包括Oswald提出的根据句子所含有效词的数量给句子赋值;Edmundson提出的关键词法、提示词法、位置法和提名法四种加权方法等,为文本挖掘技术的发展奠定了基础。到了六十年代,IE (Intemet Explorer,浏览器)技术开始兴起,而对IE的初始研究就是研究如何从自然语言文本中获取结构化信息,IE技术与文本挖掘一直保持着密不可分的关系。因此,文本挖掘技术在Web时代到来后,发展更为迅速。从文本关键词的自动获取,到文本分类聚类技术,Web文本挖掘已从最初的基于基础理论的可行性研究进入到实用化阶段,一些从事信息技术的大公司,比如ffiM,Autonomy以及Meguter等等都有开发出自己核心的智能化的文本分析挖掘产品[7]。特别值得一提的,是研究组织或机构开发的一些开源的文本挖掘工具,WekaRapid MinerSPSS Clementine等等。(2)国内研究现状国内对文本挖掘的研究始于八十年代,由于汉语语言的复杂性,这一研究相比于国外起步较晚。八十年代初,候汉清教授探讨了计算机在文本分类工作中的应用,主要介绍了国外将计算机应用于文本分类中的一些成果,包括管理分类表以及分类检索等应用,这是我国最早涉及文本挖掘的研究[8];到了九十年代末,我国在国家重点基础研究发展规划首批实施项目中,首次将文本挖掘的研究列为“图像、语音、自然语言理解与知识挖掘”中的重要内容,这一规划,促使中国科学院在多年文本挖掘工作的基础上,幵发了ICTCLAS分词系统(Institute of Computing Technologyand Chinese Lexical Analysis System) [9],很好的支持了对中文文本的切词分词,词性标注以及非规范词识别等等;近年来文本挖掘方面的研究有很大的进展,主要包括:前面提到的中科院计算机语言信息工程中心开发的汉语词法分析系统;上海交通大学计算机学院研究的构造的音字转换模型等[10]以及东北大学计算机学院研究的中文信息自动摘要、汉语文本自动分类模型、手写汉字识别等[】】]。但是,上述研究基本属于计算机领域研究范畴,而在运用文本挖掘技术分析互联网数据的应用上,国内幵展的研究还比较少,多集中在新闻的分类和热门话题的发现。总的来说,国内在文本挖掘的研究上,尤其是在文本挖掘应用的研究方面与3情感分类,作为数据挖掘的新兴领域,是对带有人们看法、观点、喜好和情绪的文本、图片等数据信息进行分析并分类的过程。消费者的口碑信息,即消费者的观点,都会带有一定的感情色彩,例如:褒义和腿义,正面和负面等。目前,国内外鲜有运用情感分析技术对网络口碑的研究。国内在中文文本情感分类的研究上,多集中在中文情感词典构建和情感分类算法,并没有多少实际的应用。实际上,情感分类有很广泛的应用前景,包括:(1)电子商务的个性化推荐:伴随着电子商务的快速发展,商家所提供的商品的种类和数量越来越多,用户如果想找到自己感兴趣的商品,就需要浏览大量的信息,这种漫无目的搜索会导致用户的不断流失,用户更倾向于系统能够推荐一些符合他们兴趣的商品[4]。电子商务推荐系统的功能就在于收集用户感兴趣的资料.并根据用户兴趣偏好主动为用户作出个性化推荐。情感分析就是该功能旳关键技术之一,它基于用户对某商品的评论,分析评论的文本倾向度和强度,结合一些个性化推荐算法将商品推荐给用户。例如协同过滤算法,就是将相似用户的感兴趣的商品推荐给用户。(2)用户兴趣挖掘:最早对用户兴趣挖掘的研究是基于国外最大的社交网站facebook,根据用户在社交网站中的发表的言论,关注的事件、人物或活动,来建立用户的兴趣模型。其中会用到情感分析技术来挖掘用户对一些热点事件的情感倾向,了解他们的兴趣偏好,用于社会关系网络的分析,或者延展到跨媒体的个性化推荐。1.2国内外研究现状1.2.1文本挖掘技术研究现状(1)国外研究现状早在五十年代末,IBMH.P. Luhn对文本信息抽取技术的研究开创了文本挖掘的趋形。H.P. Luhn在对文本的自动分类研究中第一次加入了词频统计的思想,从而宣告了文本挖掘技术的诞生。他在名为《文章摘要的自动建立》一文中,将词汇分为两大类:通用词和内容词[5]。通用词主要包括冠词、介词、连词、代词、助动词以及某些副词、形容词在内的功能词,除此之外的词均为内容词。进行词频统计时,通用词的权重为0,主要统计内容词的词频,并把同根的内容词加以合并(wordwords),对于词频超过预先设定好的阈值的内容词,即被认为可以代表文章主题的有效词(SignificantTerm)。而对于由多个词组成的句子,采用了位置和频率两个2l?l领士学位论文MASTER'S THESIS的口碑监测服务基本包括三种类型:首先,专注搜索引擎的大型门户。例如现有的谷歌、百度等作为搜索引擎提供商,拥有极其庞大的数据库和先进的技术支撑,以及广大的用户群,它们提供的口碑数据将具有很大的参考价值;其次,专业的大众^v硕士学位论文MASTER'S THESIS列为主题。2005,南京召幵的全国第八届计算语言学联合学术会议上,香港城市大学的郞嘉彦的一篇《评述新闻报道或文章色彩一一正负两极性自动分类的研究》[16],获得了研究者们极大的关注。20068,在沈阳举办的第三届学生计算语言学术研讨会上设立了一个语义分析专题组[17,IS】。2007,大连举办的第九届计算语言学联合学术会议同样增加倾向性分析专题[19]2008,中国中文信息学会信息检索专业委员会筹划举办中文倾向性分析评测(Chinese Opinion Analysis Evaluation,COAE2008)P°1,该评测致力于推动中文倾向性分析领域的学术研究和技术创新,着力探索出情感分析的新技术、新方法。目前,国内在情感分析方面还没有实用的产品和应用。香港城市大学的Tsou等人将情感分析技术应用到名人信誉分析研究上,对中国四大城市(北京,上海,香港,台北)的报刊文章进行文本倾向分析,通过挖掘四位政治名人的相关文本报道,运用语料库获得的中文文本极性元素,采取三个衡量指标,即散布(Spread)、密度(Density)、语义强度(Intensity)对文本进行统计,计算出四位名人的褒艇指数,-1010之间的数值来表示名人的信誉度[21]。熊德兰等人在Tsou的基础上进行了基于内容的名人网页褒艇性评价研究,并构造了名人评价的褒K义词典,通过抽取网上关于名人的评价信息,根据字典模型匹配量化,计算出评价信息的极性值【22]。王根等人则提出一种基于多重标记的CRF方法,通过三个层次结构来分析句子的情感极性,他们将句子分为:主客观判断、褒柩分类和褒般分级三个层级,并将三者整合到一起。首先,对句子进行主观句和客观句的分类,然后将主观句划分为褒义和柩义,再将两类各分为强烈和微弱两种强度[23]。通过这样的多层分级模型算法来计算句子的极性。以上这些研究都是基于技术和方法的研究,而且数据来源都是报刊,或专题网页,没有大型的成熟的标记语料库。近几年国内开始出现针对微博热点的情感分析,但将情感分析技术用于网络口碑的研究少之又少,也鲜有对文本进行细粒度情感分类的研究。1.2.3网络口碑研究现状口碑(Word of Mouth)来源于传播学,对口碑的学术研究最早的奠基人是Asch.B.E,他在60年代提出了口头传播带来的社会从众心理[24〗。美国密歇根大学的Eugene W Anderson将口碑定义为个体之间关于产品和服务看法的非正式传播,包括正面和负面两种观点[25],本文要研究的口碑情感分类,既是根据口碑的这一定义,将其分为正面的或负面的口碑。目前对企业网络口碑研究较多是一些专业的口碑研究机构。口碑监测在国内属于新兴行业,主要兴起于二十一世纪初期,国内外5

[返回]
上一篇: 电子政务信息服务质量评价模型研究综述
下一篇:文本挖掘工具述评