欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
计算机论文
当前位置:首页 > 计算机论文
利用灰色预测与模式识别方法构建网络舆情预测与预警模型
来源:一起赢论文网     日期:2013-12-28     浏览数:4380     【 字体:

[摘 要]针对网络舆情主题多样、内容复杂、数据海量等特点,构建一个由三级指标构成的多层次网络舆情研判指标体系;在此基础上,运用灰色预测方法建立网络舆情预测模型,运用模式识别方法建立网络舆情预警模型,并选取60个网络舆情事件为训练样本,确立舆情警级分类规则,对该模型的可用性进行验证; 鉴于网络舆情预测与预警所需要的数据量大、计算复杂,提出网络舆情预测与预警系统建设的整体架构,以进行数据处理。
[关键词]灰色预测 模式识别 网络舆情 预测 预警.[Abstract]Asthenetworkpublicopinionpossessesthefeaturesof varioustopic,complexcontent andlargeamountdataetc. ,thispaper constructsamulti-level indexsystemof networkpublicopinionanalysiswhichis consistedof threelevel indicators. Andthen,networkpublicopinionforecastingmodel isestablishedwiththegreyforecastingmethod,andtheearly-warning model is established through the pattern recognition method. This paper selects 60 network publicopinioneventsas training samples,establishes the classifying discipline of networkpublic opinionlevel,andtests theusabilityof theforecastingandearly-warning model. The forecasting andearly-warning needlarge amount of data andcomplicatedcalculation,thenit putsforwardthewholeframeof constructingthesystemtoprocessdata.
[Keywords]greyforecasting patternrecognition networkpublicopinion forecasting early-warning
  网络舆情所具有的传播速度快、受众范围广、互动能力强等特点,使得其在当今政治、经济、生活中产生了巨大影响。网民的自发性、非理性和情绪化等特点,使得网络舆情与谣言难以辨识,舆情的真实性面临巨大考验,如近年发生的“皮革奶粉”、“抢盐风波”、“蛆橘事件”、“军车进京”等谣言,都成为社会不稳定因素的重要来源。因此,加强网络舆情的实时监测,准确把握网络舆情发展趋势并识别舆情影响程度,对于充分发挥网络舆论在社会管理与政治民主等方面的积极作用具有重要意义。
  1 相关研究综述目前,关于网络舆情预测与预警的研究得到了学界和业界关注,主要涉及以下方面:
  1.1 关于网络舆情研判指标体系的研究王青等从舆情热度、强度、倾度、生长度4个维度构建了网络舆情监测与预警指标体系[1]; 李耘涛等运用灰色理论提出了网络舆情灰色预警评价程序,构建了评价体系及指标权重[2]; 陈越等引入区间数、AHP方法构建了舆情威胁评估指标体系及其权重[3]; 戴媛等从传播扩散、民众关注、内容敏感、态度倾向4个维度构建了网络舆情安全评估指标体系[4]; 中国传媒大学网络舆情( 口碑) 研究所从网络舆情参与度、波及度、评价度 三方面构建 了“网络舆情 指数体系( IRI) ”[5]; 曾润喜利用层次分析法构建了警源、警兆、警情三类因素的网络舆情预警指标体系[6]。
  1.2 关于网络舆情预测与预警模型、运算的研究张一文等构建了基于贝叶斯网络建模的网络舆情态势评估与预测模型[7]; 林琛等基于模糊推理规则建立了网络舆情预警模型[8]; 丁菊玲和勒中坚建立了柔性舆情挖掘、观点演化和网络舆情危机识别预警模型[9]; M. Eirinaki 等通过对Web日志的数据挖掘,构建了网络舆情监测与预警模型[10]; E. Andrea研究了用于观点挖掘的词汇资源自动生成模型、算法及应用[11];D. Martens等利用单一粒度的观点挖掘算法构建了网络舆情监测和预警模型[12]; GaoHui 等构建了一个基于云计算平台的对海量Web信息进行舆情识别和监测的系统[13]; A. Goyal 等基于频繁模式挖掘算法研究了社会化网络中舆论领袖和意见群落的行为特征及发展趋势[14]。ZhouHengmin等提出了运用情感信息挖掘网络舆论意见领袖并预测其影响力的模型[15]。
  1.3 网络舆情的信息系统建设目前,国内比较知名的舆情监侦、预测和预警系统主要有方正智思舆情监测系统、乐思舆情监测系统、7 2利用灰色预测与模式识别方法构建网络舆情预测与预警模型杜智涛 谢新洲TRS网络舆情监控系统、Autonomy网络舆情监测系统、军犬网络舆情监控系统、ES-Focus科技舆情监测系统、Goonie网络舆情监测系统、鹰隼网络舆情监控系统、优捷信达网络舆情监测分析系统、麦知讯网络舆情监测系统等,这些系统通过对新闻网站、BBS、BLOG、微博等信息源的实时监测,把握网络舆情热点问题,描述舆情发展路径。本文在上述研究的基础上,利用灰色预测与模式识别方法,针对网络舆论主题多样、内容复杂、数据海量等特点,尝试构建一个网络舆情预测与预警模型。
  2 网络舆情研判指标体系的构建衡量网络舆情状态至少应该包括三个维度: 传播强度,从总量的角度来测量舆情的讨论热度、被关注程度与影响力情况; 网民情绪态度,从传播受众的角度来考察舆情的情感倾向及态度分布; 发展进度,从时间演进与历程扩散的角度来探究舆情发展路径。因此,本研究从这三个方面来构建研判指标体系。同时,采用层次化设计方式,一级指标显示舆情的不同维度,二级指标显示舆情的测度内容,三级指标为便于数据采集的定量指标,其值可直接从网络中采集,或通过一定的算法对采集到的数据进行处理而得到。首先通过对相关研究的总结和经验假设,提出初始指标集; 其后通过对专家进行调查,运用灰色统计法,对初始评判指标集进行筛选。筛选后的指标如下:
  2.1 传播强度
  2.1.1 曝光度 一般来讲,相关主题的新闻发布数量、原创主题帖发布的数量越多,这一主题的曝光度越强,舆情强度越大。其测度指标为相关新闻数、原创主题帖数( 包括论坛原创主题帖、原创博客与原创微博) 。
  2.1.2 关注度 这是从受众视角来测度舆情强度。关注的人越多,则舆情强度越大,所产生的社会影响力越大。测量指标包括总浏览量、回复( 包括留言、评论等) 数、转载( 或转发、分享等) 数。
  2.1.3 覆盖度 包括两个方面: 网站覆盖率,即相关主题内容在多少网站上刊发,测度标准为刊载该主题信息的网站数占样本网站总数的比重; 区域覆盖率,即关注相关主题的人覆盖哪些区域,测量指标为这一舆情关注者所属地级市IP的总数。
  2.1.4 权威度 这是从媒介质量角度来考察舆情传播载体的重要程度。包括三个方面: 网站级别,测量标准为网站的百度权重或谷歌PR值; 意见领袖引导力,系根据本研究构建的“网络意见领袖舆论引导能力的评判体系”,从所有关注者中挖掘出意见领袖,计算其舆论引导力; 精华率,即该主题帖、新闻被推荐、置顶、加色等操作的总次数。
  2.2 情绪态度
  2.2.1 主题敏感性 根据人民网舆情监测室的研究,目前国内有四大突发公共事件、六大关系、十六大热点问题是公众关注的热点、焦点、敏感话题[16],这些话题是舆情生成的策源地和社会矛盾的引爆场。其测量标准有两个: 主题归类,判断主题是否属于敏感话题;敏感词数量,通过建立敏感词库,统计该主题下所有内容中敏感词出现频数,频数越大,主题越具有敏感性。
  2.2.2 内容倾向性 指受众对该主题内容所持有的态度倾向,分为正面、中性、负面三个属性。测量标准采用自然语言处理的情感倾向分析方法和技术,对舆情内容进行语义极性分析和观点抽取。
  2.2.3 投票率 公众不仅通过发言方式来参与舆情传播,还通过投票等方式表达观点,实际上,这是一种非常显性的、直接的网络参与行为,更能够体现出公众的态度。这一指标的测量标准是支持性投票占总投票数的比例。
  2.2.4 观点离散度 舆论的形成是多数人意见、态度、情绪等逐步汇集、统一的过程,持有相同意见的人越多,则舆论影响力越大; 相反,公众意见越不统一,越难以形成有影响力的舆论。因此,可用公众观点离散程度反映舆情强度,测量标准是根据内容倾向性中对于受众情感倾向的分析数据,计算样本态度的方差,其值越大,舆情的强度越小。
  2.3 发展进度
  2.3.1 扩散速度 描述舆情发展的速度,以加速度来测量,即相关主题的信息增加量与这一变化所用时间的比值。测量数据包括三个方面: 新闻与主帖加速度、回复与评论加速度、浏览量加速度。
  2.3.2 迁移程度 用于衡量公众由对一个主题事件的关注向其他主题转移的程度。如河南义昌大桥垮塌事故中,网民开始对“鞭炮炸桥”的事故原因有极大质疑,后来看到国家安监局总局副局长王德学穿军大衣抹眼泪的镜头,又将这种情绪迁移到王德学身上,质疑他是在做秀,甚至还对其进行“人肉搜索”。迁移程度越高,舆情影响越大。该指标测量标准是与该舆情主题相关联的其他舆情主题的数量。
  2.3.3 突变程度 网络舆情的自组织性,使其发展过8 2第57卷 第15期2013年8月程中会存在诸多变数。这种突变性会给舆情的预测带来很大干扰,突变程度越大,则舆情预测的效度、信度越小。由于意见领袖往往是舆情演化进路中的关键节点,可以用意见领袖观点的离散程度来测度。首先,挖掘出意见领袖样本; 其次,对意见领袖的观点倾向进行判别; 最后,计算出意见领袖观点的方差值。值越大,舆情突变程度越大,舆情发展趋势越难预测,舆情强度也相对较弱,反之亦然。上述指标可归纳为表1:表1 网络舆情研判指标体系及测度标准一级指标二级指标三级指标 测度标准传播强度情绪态度发展进度曝光度关注度覆盖度权威度主题敏感性内容倾向性投票率观点离散度扩散速度迁移程度突变程度相关新闻数 相关主题下所有相关新闻总数原创主题帖数 论坛原创主题帖、原创博客与原创微博的总数总浏览量 相关新闻、主题帖的总PV( pageview) 值回复数 相关新闻、主题帖的所有回复、留言、评论等发帖总数转载数 相关新闻与主题帖的转载、转发、分享等总数网站覆盖率 刊载该主题信息的网站数占总样本网站的比重区域覆盖率 该主题关注者所属地级市IP的总数网站级别 网站的百度权重或谷歌PR值意见领袖引导力 根据网络意见领袖舆论引导能力的评判体系计算精华率该主题发帖、新闻被推荐、置顶、加色、加闪烁标识等操作的总次数主题归类 判断主题是否属于敏感话题,取值为1、0变量敏感词数量 该主题下所有内容中敏感词出现的频数- 对舆情内容的语义极性分析和观点抽取- 支持性投票占总投票数的比例- 网民受众情感倾向的方差新闻与主帖加速度相关新闻与主题帖增加量与这一变化所用时间的比值回复与评论加速度相关主题的回复与评论增加量与这一变化所用时间的比值浏览量加速度受众相关主题的浏览增加量与这一变化所用时间的比值- 与该舆情主题相关联的其他舆情主题的数量意见领袖观点离散程度意见领袖观点倾向的方差值
  3 网络舆情预测模型的构建网络舆情预测与预警包括两个阶段: 通过现有数据预测未来趋势; 二 是根据一定的判别规则,基于预测值判断警级。本研究运用灰色预测方法进行第一阶段的预测[17],运用模式识别方法进行第二阶段的预警[18]。
  3.1 基于系统灰预测方法构建网络舆情预测模型在具有不确定性和信息不完备的环境下,处理数据、分析现象、预测趋势、决策判断需要用到灰色系统理论。灰色预测方法是灰色系统理论的重要内容,它利用灰色微分函数对信息不完备和不确性的系统发展变化进行分析和预测。如果一个系统具有多种行为变量,则对此系统的预测需要用到系统灰预测方法。网络舆情具有不确定性、信息不完整性和多指标性,因此需要运用系统灰预测方法建模。系统灰预测模型需要用到嵌套解法,即将GM( 1,1) 模型嵌入GM( 1,N) 模型求解,以获得各行为变量的预测值。
  3.1.1 构建系统灰预测模型 在N个变量系统中,系统灰预测模型为:x(0)( k) +AZ(1)( k) =Bx(1)( k) +b,k=1,2,…,m( 1)上式中,x(0)( k) 为不同时刻的各变量观察值序列,x(0)( k)=[x(0)1( k) ,x(0)2( k) ,. . . ,x(0)N( k) ]T;x(1)( k) 为x(0)( k) 的 一次累加生 成序列( I -AGO) ,x(1)( k) =[x(1)1( k) ,x(1)2( k) ,. . . ,x(1)N( k) ]T;z(1)( k) 为x(1)( k) 的均值序列,z(1)( k) =[z(1)1( k) ,z(1)2( k) ,…,z(1)N( k) ]T,参数A和B、b分别为发展系数矩阵、灰作用量矩阵:A=a1 0a20 a NB=0 b12b13 … b1N0 0 b23 … b2N  0 0 0 … bN-1,N0 0 0 0b=[0,0,…,bN0]T参数向量为PGM(1,N) =[a1,b12,b13,…,b1N]T,其辨识算式采用最小二乘式,PGM(1,N) =( BTB)-1BTyN,B为高矩阵,行数大于列数B=-z(1)1( 2) x(1)2( 2) … x(1)N( 2)-z(1)1( 3) x(1)2( 3) … x(1)N( 3)   -z(1)1( k) x(1)2( k) … x(1)N( k )yN=[x(0)1( 2) ,x(0)1( 3) ,…,x(0)1( k) ]T3.1.2 系统灰预测模型嵌套求解步骤第一步,求xN 的预测值,即^ x(0)N( k) =[^ x(0)N( m+1) ,^ x(0)N( m+2) ,…,^ x(0)N( m+) ]求解方法:^ x(0)N( 2) = N0 - Nx(0)N( 2)^ x(0)N( k) =( 1- N) x(0)N( k-1) ,k=3,4,…,m,m+1,…,m+ ( 3)9 2利用灰色预测与模式识别方法构建网络舆情预测与预警模型杜智涛 谢新洲式中,N0 =bN01+0.5aNN=aN1+0.5aN第二步,求xN-1的预测值,即^ x(0)N-1( k) =[^ x(0)N-1( m+1) ,^ x(0)N-1( m+2) ,…,^ x(0)N-1( m+) ]求解方法:^ x(0)N-1( k) = N-1,N-x(0)N( k) +( 1- N-1)x(0)N-1( k-1) ( 4)式中,N-1,N=bN-1,N1+0.5aN-1N-1 =aN-11+0.5aN-1第三步,求xN-2的预测值,即^ x(0)N-2( k) =[^ x(0)N-2( m+1) ,^ x(0)N-2( m+2) ,…,^ x(0)N-2( m+) ]求解方法:^ x(0)N-2( k) = N-2,N-1x(0)N-1( k) + N-2,Nx(0)N( k) +( 1- N-2) x(0)N-2( k-1) ( 5)式中,N-2,N-1 =bN-2,N-11+0.5aN-2,N-2,N =bN-2,N1+0.5aN-2,N-2 =aN-21+0.5aN-2……第N步,求x1 的预测值,即^ x(0)1( k) =[^ x(0)1( m+1) ,^ x(0)1( m+2) ,…,^ x(0)1( m+) ]求解方法:^ x(0)1( k) =Ni=11ix(0)i( k) +( 1- 1) x(0)1( k-1) ,i =2,3,…,N ( 6)式中,1 与1i的求解方法与前述同理。
  3.2 基于模式识别方法构建网络舆情预警模型
  3.2.1 确定分类规则 根据预测值,按照一定的判别规则可对网络舆情进行预警。本文运用模式识别方法来建立预警模型。先确定对预测值的分类规则,然后根据危机发生概率,识别预测值的等级。按照舆情的影响力将警级状态划分为“低、中、高”三级,“低级”是指该主题的舆情处于萌芽期,有人发帖讨论,也有人参与回复、评论、转发等,但还未形成一定规模; “中级”是指该主题的舆情处于平稳发展阶段,已经有一定规模,但还未形成较强的影响力; “高级”是指该主题的舆情不但有较大的规模,而且已经具有一定的影响力,这种影响力不仅仅体现在网络空间,甚至进一步会对现实产生影响。用w表示警级状态,w=w1 表示低级,w=w2 表示中级,w=w3 表示高级。本研究是要对网络舆情的N个观察量x1,x2,…,xN 进行分析,这些特征的所有可能的取值构成了N维特征空间,x=[x1,x2,…,xN]T为N维特征向量。由于表1中的二级指标能综合、全面地反映网络舆情的特征,以二级指标作为观察量,即N=11,当然,二级指标要通过系统采集三级指标并赋权加和后获得。如果在特征空间有某一向量x就是N维特征空间上的某一个点,那么需要考虑的是: 把x分到哪一类w才合适,即确定网络舆情警情等级的分类规则。为了尽量减少分类错误,采用基于最小错误率的贝叶斯决策方法作为判别依据。利用贝叶斯公式P( wi|x) =p( x|wi) P( wi)3j =1p( x|wj) P( wj),i,j=1,2,3 ( 7)得到的条件概率P( wi|x) 称为状态的后验概率。因此,贝叶斯公式实质上是通过观察x,把状态的先验概率P( wi) 转化为状态的后验概率P( wi| x) 。这样,基于最小错误率的贝叶斯决策规则为: 若P( wi|x) =maxP( wj|x) ,则x wi。定义一组判别函数gi( x) ,i =1,2,3。若使gi( x)>gj( x) 以一切j i 成立,则将x归于wi 类。这里,gi( x) =P( wi|x) 或gi( x) =p( x|wi) P( wi) 或gi( x) =ln[p( x|wi) P( wi) ] ( 8)根据上述判别函数可以设计分类器( 如图1所示) ,先计算出判别函数gi( x) ,再从中选出对应于判别函数为最大值的类作为决策结果。图1 分类器的构成
  3.2.2 多元正态分布的模式识别 N个特征观察值x的分布预先可以通过大量的统计数据估算出,由于正态分布具有物理上的合理性和数学上的简便性,这里考虑x呈正态分布时的算法。多元正态分布的概率密度函数为:P( x|wi) =1( 2 )N2| |exp -12( x- )T -1( x-{ } )( 9)上式中,=E{x}表示各分类x的N维均值向量,即 =[1,2,…,N]T; 是N×N维协方差矩阵,=E{( x- ) ( x- )T},-1是 的逆矩阵,| | 是的行列式。在多元正态分布下,令最小错误率判别式为:gi( x) =ln[p( x|wi) P( wi) ] ( 10)根据式( 9) 和式( 10) ,在多元正态概率( p( x|wi)~N(i,i) ,i =1,2,3) 下,得到判别函数: gi( x) =-0 3第57卷 第15期2013年8月12( x- i)T -1i( x- i) -N2ln2 -12ln|i| +lnP( wi)( 11)上式中,N2ln2 与i 无关,可忽略。因此简化后得到:gi( x) =-12( x- i)T -1i( x- i) -12ln|i| +lnP( wi) =xTWix+wTix+wio( 12)式中,Wi =-12-1i( n×n矩阵) ,wi =-1i i( n维列向量) ,wi0 =-12Ti-1i i -12ln|i| +lnP( wi)
  3.2.3 错误率估计 在模式识别分类过程中,用错误率来衡量分类器性能的优劣。由于本文将网络舆情的警级分为“低级、中级、高级”三类,因此,特征空间可以分割成R1 时R2 时R3 三个区域。可能错分的情况很多,P( e) 为平均错误率。P( e) =[P( x R2|w1) +P( x R3|w1) ]P( w1) +[P( x R1|w2) +P( x R3|w2) ]P( w2) +[P( x R1|w3) +P( x R2|w3) ]P( w3) =3i=13j =1j i[P( xRj|wi) ]P( wi) ( 13)直接求P( e) 的计算量较大,故以计算平均正确分类概率P( c) 代之,则:P( c) =3j =1[P( x Rj|wj) ]P( wj) =3j =1RiP( x|wj) P( wj) dx ( 14)P( e) =1- P( c) ( 15)3.3 模型应用举例3.3.1 分类选取训练样本 从本研究前期建立的网络舆情事件库中,选取20个影响最大的舆情事件作为舆情高警级训练样本,如番禺“房叔”、神木“房姐”、微笑“表哥”、铜须门、甘肃校车、毒胶囊等事件。这些事件的共同特点是引起了全国性的关注、由网络延伸到现实、由该话题迁移到了其他话题。选取赵本山与邓亚萍国籍、王大治婚情、两会提案等20个事件作为舆情中警级训练样本。这些事件的共同特点是具有一定的关注度,但对现实社会的冲击与影响有限,话题迁移性不强。选取奶茶妹妹、蓝可儿、郑爽整容、大众汽车召回等20个事件作为舆情低警级训练样本。这些事件的特点是有一定关注度,但关注者局限于某一群体,规模不大,且关注热度消退较快,舆情的生命周期很短,对现实的影响及话题迁移性很弱。2.
  3.2 确立训练样本的参数及判别函数 网络舆情研判三级指标有20项,二级指标有11项。首先,需要将采集到的三级指标进行统一量纲的标准化处理,采用Min-max标准化方法对原始数据进行变换,将原始值映射成在区间[0,1]中的值。标准化公式为: 新数据=( 原数据-极小值) /( 极大值-极小值) 。其次,通过三级指标计算出11个二级指标的值。再次,经过参数估计,60个训练样本的二级指标均服从多元正态分布,先验概率分别是: 低警级舆情P( w1) =0.3; 中警级舆情P( w2) =0.4; 高警级舆情P( w3) =0.3。条件概率密度函数P( x|wi) 的参数1、2 和3 分别是11×11矩阵,1,2,3 均是11维列向量。由于数据量较多,仅列出部分数据。根据式( 12) 得出判别函数:g1( x) =x1x2x11T0.310 -0.905 … -0.649-0.905 0.237 … -0.255  … -0.649 -0.255 … 0.347x1x2x11+0.2180.0930.552Tx1x2x11+1.981 ( 16)g2( x) =x1x2x11T0.463 -0.252 … 0.133-0.252 0.370 … 0.163  … 0.133 0.163 … -0.209x1x2x11+0.3430.4160.071Tx1x2x11+3.525 ( 17)g3( x) =x1x2x11T0.571 0.239 …0.1380.239 -0.192 …0.093  … 0.138 0.093 …0.364x1x2x11+0.9630.8850.471Tx1x2x11+6.041 ( 18)3.
  3.3 计算指标的预测值 本文以“周九耕事件”为例来检验模型的可行性。信息源涉及新浪、网易、猫扑、天涯等310个网站。采集并统计每天的指标数据,运用Minmax标准化方法统一指标数据的量纲,计算出每天舆情状1 3利用灰色预测与模式识别方法构建网络舆情预测与预警模型杜智涛 谢新洲态值,并描述出其发展变化的路径。同时,为了更好地展示模型的效果,将数据与艾利艾咨询( IRI) 绘制的“周久耕事件网络舆情指数趋势图”进行对比。由于本研究的指标值与IRI舆情指数值测度标准不同,为便于比较,将本研究的舆情研判指标转化为百分制数据。IRI与本研究描述的“周久耕事件”舆情发展如图2所示:图2 “周九耕事件”的网络舆情发展路径由图2可见,本文描述的舆情趋势与IRI 的大体相近,特别是在重要拐点上,都有较明显的识别。如12月19日,纪委在网民的压力下开始对周久耕进行调查,使虚拟的网络舆情真正产生了现实的影响力。此外,本研究所描述的舆情发展曲线更加平滑,使得舆情总体趋势的预测性更强。为了验证本模型的效果,假设“周九耕事件”在12月18日、19日的舆情状态未知,以12月12-17日的数据作为已知观察值,来预测18日、19日的舆情走势并识别舆情警级。将采集到的各指标的数据代入式( 2) 至( 6) ,部分数据如表2所示:表2 “周九耕事件”舆情预测值部分数据指标时间 k1. 曝光度2. 关注度……10. 迁移程度11. 突变程度^ x( 0)1( k)^ x( 0)2( k) …… ^ x( 0)10( k)^ x( 0)11( k)观察值08.12.12 1 0.5631 0.4532 …… 0.2364 0.233408.12.13 2 0.6592 0.5561 …… 0.2515 0.331608.12.14 3 0.4431 0.6692 …… 0.3310 0.201708.12.15 4 0.5102 0.6310 …… 0.2714 0.109508.12.16 5 0.3314 0.7439 …… 0.3926 0.069108.12.17 6 0.6135 0.8235 …… 0.2253 0.0563预测值08.12.18 7 0.5783 0.8541 …… 0.2617 0.054108.12.19 8 0.6562 0.8842 …… 0.3148 0.04133.3.4 计算判别函数 将预测值代入式( 16) 、( 17) 、( 18) 中,比较各判别函数值的大小,若g1( x) 值最大,则网络舆情警情为“低级”状态; 若g2( x) 为最大,则为“中级”状态; 若g3( x) 为最大,则为“高级”状态。经计算,此事件中,18日的舆情警级状态为g1( x) =2.21,g2( x) =3.05,g3( x) =3. 89; 19日的舆情警级状态为g1( x) =3.36,g2( x) =3.27,g3( x) =4.15。可见,该主题在这两天舆情警级都处于“高级”状态,舆情影响力趋势是不断加强的,这与图2所示的实际情况相符,说明本模型具有一定的准确度。3.3.5 模式识别的错误率检验 将上述计算获得的值代入式( 14) 和式( 15) ,求得错 误率P( e) =1.391%,笔者认为最大出错概率不超过5%为可接受程度。因此,运用上述模型对网络舆情进行预测和预警的结论是可以置信的。
  4 网络舆情预测与预警系统的构建网络舆情预测与预警所需的数据量大、计算复杂,必须通过构建信息系统进行数据处理。此系统应由三个模块构成( 见图3) : 数据采集与挖掘模块具有两个功能: 一是通过网络爬虫自动抓取网站信息,并进行页面统计和数据挖掘; 二是对于一些自动抓取效果不太理想的指标,可以手动录入数据。 舆情预测与预警模块,本文利用灰色预测与模式识别方法建立的网络舆情预测与预警模型是这一模块的核心内容,包括两个子模块: 一是舆情预测子模块,通过灰预测模型对舆情发展趋势进行预测,按照一定的模型对采集到的三级指标数据进行运算处理,在此基础上得到二级指标,通过二级指标进行舆情预测; 二是警级识别子模块,基于对样本的训练确立判别规则,并建立分类器对预测值进行警级分类,同时进行可视化显示。 危机预控与处理模块,根据对预测与预警结论,提出干预对策和建议。知识库用于储存和管理网络舆情危机案例,由案例库和方案集构成。系统从知识库中寻找相似危机处理方案,若既有方案可用,则直接用于解决当前问题,并作为应用案例加入知识库; 若不可用,则运用推理技术产生新方案,并把新方案加入知识库。图3 网络舆情预测与预警系统架构2 3第57卷 第15期2013年8月5 结 语本文构建了网络舆情研判指标体系,在此基础上,运用灰色预测和模式识别方法建立了网络舆情预测与预警模型,并以“周九耕事件”为例验证了模型的可行性。同时,针对模型数据量大、计算复杂的问题,提出了网络舆情预测与预警信息系统的基本架构与实现方案,当然,模型准确性与可信度还需要经过多案例的验证。需要说明的是: 本文为简化处理,将指标变量定义为多元正态分布,当指标变量呈均匀分布、卡方分布等其他函数分布时,也可以类似地求解; 由于训练样本的选择决定着预警过程中的分类规则以及分类识别的准确性,因此,训练样本数量应尽可能地多,且分布应尽可能地均衡,尽可能具有代表性; 网络舆情预测与预警的目的是为了更好地对危机进行预知、预控和处理,因此,建立起危机预案库、知识库以及相关危机管理机制等非常重要,这些将是本研究下一步努力的方向。
  参考文献:[1]王青,成颖,巢乃鹏. 网络舆情监测及预警指标体系构建研究[J]. 图书情报工作,2011,55( 8) :54-57.[2]李耘涛,刘妍,刘毅. 网络舆情灰色预警评价研究[J]. 情报杂志,2011,30( 4) :24-27.[3]陈越,李超零,于洋,等. 基于TOPSIS方法的网络舆情威胁评估模型[J]. 情报杂志,2012,31( 3) :15-19.[4]戴媛,郝晓伟,郭岩,等. 基于多级模糊综合评判的网络舆情安全评估模型研究[J]. 信息网络安全,2010( 5) 2:60-62.[5]IRI 网络舆情指数体系介绍[EB/OL].[2010-06-25].http: //www. iricn. com/index. php? option=com_content&view= article&id=44&Itemid=4.[6]曾润喜. 网络舆情突发事件预警指标体系构建[J]. 情报理论与实践,2010( 1) :77-80.[7]张一文,齐佳音,方滨兴,等. 基于贝叶斯网络建模的非常规危机事件网络舆情预警研究[J]. 图书情报工作,2012,56( 2) : 76-81.[8]林琛,李弼程,王瑾. 基于模糊推理的网络舆情预警方法[J].信息工程大学学报,2011,12( 1) :72-76.[9]丁菊玲,勒中坚. 一种面向网络舆情危机预警的观点柔性挖掘模型[J]. 情报杂志,2009( 10) :152-154.[10]Eirinaki M,VazirgiannisM. Webminingfor personalization[J].ACMTransactionsonInternet Technology,2003,3( 1) : 12-13.[11]Andrea E. Automatic generation of lexical resources for opinionmining: Models,algorithms andapplications[D]. Pisa: Universitydipisa,2008.[12]Martens D,Bruynseels L,Baesens B,et al. Predicting goingconcernopinionwithdatamining[J]. DecisionSupport Systems,2008,45( 4) :756-777.[13]GaoHui,Jiang Jun,She Li,et al. A new agglomerativehierarchical clusteringalgorithmimplementationbasedonthemapreduce framework[J]. International Journal of Digital ContentTechnologyandItsApplications,2010,4( 3) :95-100.[14]Goyal A,Bonchi F,LakshmananLV. Discovering leaders fromcommunityactions[C]// Proceedingsof the17thACMConferenceon Information and Knowledge Management. New York: ACM,2008:499-508.[15]Zhou Hengmin,D. Zeng,Zhang Changli. Finding leaders fromopinion networks[C]//Proceedings of 2009 IEEE InternationalConference on Intelligence and Security Informatics,2009: 266-268.[16]人民网舆情监测室. 如何应对网络舆情: 网络舆情分析师手册[M]. 北京: 新华出版社,2011:48-70.[17]邓聚龙. 灰预测与灰决策[M]. 武汉: 华中科技大学出版社,2002.[18]边肇祺,张学工. 模式识别[M]. 北京: 清华大学出版社,2000

[返回]
上一篇:软件项目风险的神经网络预测模型
下一篇:基于模糊综合评价法的网络舆情预警模型