欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
MBA论文
当前位置:首页 > MBA论文
基于大数据技术的网络舆情文本挖掘研究
来源:一起赢论文网     日期:2015-08-23     浏览数:3407     【 字体:

 摘要通过分析大数据与网络舆情数据的相似特征,基于大数据思想构建网络舆情的文本挖掘模块,并在此基础上构建预警模型,对关系型数据库与分布式数据库进行了融合,使之适应模型从数据采集到分析查询的全部流程;并对大数据核心技术Mapeduce 进行扩展,改进的Mapeduce 贯穿于数据处理模块的文本特征向量提取与舆情指数的矩阵- 向量乘积运算。通过仿真实验,证明该模型具有一定的准确性与良好的时效性。速普及,互联网已成为公众获取信息、表达观点的最重要的平台,也是政府有关部门获取公众舆情信息、了解公众思想动态的重要窗口。仅中国传媒大学网络舆情研究所( II)2013 年统计的网络热点事件就达2 278条,平均每天的网络舆情可形成的网络热点事件6 个以上。因此在2013 年底的全国宣传思想工作会议上,习近平主席强调要把网上舆论工作作为宣传思想工作的头等大事,并对怎样处理好网上舆论工作,提出了新上做出了解释,认为网络舆情的主体是网民,网络舆论有官方和公众之分[1]。肖文涛认为,网络舆情的影响力在网络技术的迅猛发展和广泛普及的双重作用下,被无限放大[2]。潘芳也认为,当突发事件发生时,网络舆情在为政府有关部门的处理提供参考依据的同时,如果引导不当也存在引发社会问题的风险[3]。若想从海量的网络信息中及时准确地获取网络舆情,离不开配套的信息处理技术。丁菊玲在构建网络舆情预警指标的基础上,将BP 神经网络的数学模型运用到网络舆情预警,实现网络舆情预警的定量分析[4]。语义分析是网络舆情定量分析的重要环节,但义评价的可靠性和精确性,利用基于三角模糊数的模糊层次分析法和模糊德尔菲法,分别对网络舆情预警指标进行两次筛选和权重的确定5相对于上述传统的信息处理技术,大数据技术具有处理海量数据的优势,并逐渐进入学者的视野喻国明以2009 2012 年百度搜索词数据库为研究对象,采用大数据的挖掘与分析技术,探讨将碎片化的舆情信息整合处理并进行舆情模型构建的方法,在此基础上分析了当下中国社会舆情的结构性特征6唐涛认为网络舆情分析方法已超出了现有常用的分析框架,必须在大数据的思维下有所创新,作者在概述了常用的网络舆情分析方法的基础上,提出了网络舆情分析要向大数据分析方向发展的观点7相对于国内学者对网络舆情进行的定性和定量方面的研究,国外的起步则较早,主要原因在于网络在欧美发达国家的普及较早国外学者对网络舆情的研究始于危机传播代表人物是美国学者Kathleen FeamBanks 认为网络舆情的扩散正如危机的网络传播8Kling 等认为网络的隐匿性互动性以及即时性等特点,不仅加快了舆情的形成过程,更使舆情生产过程超出控制之中9Sznajd 从理论上对网络舆情的演变过程进行了研究10并且国外学者将研究重点锁定在探讨虚拟社交群体网络传播行为及其社会影响等方面,如Ampofo 2010 年英国大选期间利用Twitter上的数据研究民众对选举的信心与信任11;Signorini同样使用Twitter 追踪美国在甲型HlNl 流感大流行期间的疾病活动水平和公众关注12; Thelwall 利用MySpace 挖掘社会网络传播中的情绪数据,并研究性别差异的影响13综上所述,国外学者更多关注的是对网络舆情传播的研究,而国内学者则更关心网络舆情的本质问题以及预警研究本文研究的重点是借鉴大数据技术处理海量数据的优势来构建网络舆情文本挖掘模块,并在此基础上构建网络舆情的预警模型1 大数据技术1 1 大数据与网络舆情的相似特征大数据并不单单指海量数据,而是包括海量数据以及对海量数据的处理方法网络舆情并不是网络世界中直接存在的数据,而是通过相关技术从海量网络数据中经过提取并分析得来的结果网络舆情的获取正好体现出了大数据的思想大数据的4V 特征14与网络舆情有着密不可分的联系,如表1 所示大数据的特征与网络舆情基本符合,究其深层次的原因在于大数据与网络舆情分析有着同样的目标及时准确的预测这在理论上论证了大数据思想与技术应用于网络舆情预警的可行性1 大数据与网络舆情的相似特征大数据的4V 特征网络舆情特点体量(Volume) 分析网络舆情的数据来自于网络中的海量数据多样性(Variety)不仅包括结构化数据,更多的是半结构化和非结构化数据价值密度(Value)从海量的网络数据中发现网络舆情就如海里捞针一般速度(Velocity) 网络舆情的预警就在于能及时准确的发现问题以往处理网络舆情的技术主要是,首先建立一套指标体系,再基于网络爬虫的网络数据获取数据的预处理( 主要有中文分词特征提取建立VSM 模型等),最后进行数据分析但是网络舆情的预警在于及时准确地发现舆情,准确取决于数据是否全面算法模型是否合理,而及时则更多的取决于信息技术平台的处理速度传统的数据处理技术更多关注于处理的准确性,对处理时间的要求并不高;这正是与网络舆情预警格格不入的1 2 关系型数据库与分布式数据库各自优缺点关系型数据库(DB) 在经过了将近40 年的发展,成为了一门成熟的主流数据管理和分析技术但在扩展性方面遇到了巨大的障碍,无法胜任大数据分析的任务而以Mapeduce 为代表的分布式数据库(HBase)异军突起,以其高度的扩展性容错性和大规模并行处理的能力,在数据管理与分析的诸多领域和关系型数据管理技术展开了竞争关系型数据库的优势在于,由于具有标准化的SQL 语言以及完整性约束,使之具有良好的数据处理性能和数据完整性HBase DB 的区别在于其是一种面向列的分布式数据库,传统关系型数据库并没有考虑到数据规模的扩展性,以及单点系统失效时的系统可靠性,虽然经过了近40 年的技术发展,然而受限于理论和实现上的约束,关系型数据库的扩展性还是不能超过百个服务器节点;HBase 从一开始就是为了TB 乃至PB 级别的海量数据存储和高速读写而设计的分析网络舆情的数据来自于整个互联网,以及为了实现各个部门网络舆情监测的信息共享,单靠关系型数据库的百个服务器节点是远远不够的著名的数据库技术专家Stonebraker 对基于分布式数据库的大数据主要应用平台之一Hadoop 与基于关系型数据库的应用平台Vertica 进行实验对比发现,Hadoop 具有高度扩展性容错性和大规模并行处理的能力,但在查询分析功能方面不如Vertica15基于关系型数据库和分布式数据库的管理系统的各自优缺点如表2 所示__

 
 
[返回]
上一篇: 电子政务的国际研究特点及启示
下一篇:基于人群搜索算法的上市公司的 Z- S c o r e 模型财务预警研究