欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
博士论文
当前位置:首页 > 博士论文
基于加权关联规则和文本挖掘的金融新闻传播 实现
来源:一起赢论文网     日期:2015-09-16     浏览数:3584     【 字体:

 计算机应用与软件 &!< 年题,如式( &) ,可能会从数据中发现一个加权关联规则 5$ %,其中 5 % 是连接词#这条规则直观的意义是数据库中新闻标题包含在 5 中的项,往往也包含在 % 中的项#以中文新闻标题为这类规则的一个例子,包含%中国货币&也包括%增值",在这种情况下,5 i { 中国货币} % i { 增值} !与每个规则关联的两个数表示规则的加权支持度和加权置信度,本文中,规则 5$ % 的加权支持度表示既包含 5 又包含 %的原始数据库的新闻标题百分比,规则 5$ % 的加权置信度表示包含项在 5 中也包含在 % 中的新闻标题百分比#! 列出了新闻标题传输代理训练过程中加权关联规则算法检测复合项的例子#复合项记录在数据库中供日后参考,加权支持度和加权置信度分别为 &% !% # D 加权关联规则算法发现的复合项例子5 $ % 加权支持度 加权置信度增值$中国货币 $<%# ""% ""增值$货币 (<%<= !!% ""增值$ FL 美元 <<% (# !>% !经济$中国货币 (%!& !$% #<利率上升$ FL 美元 &$% "< &$% &<中国货币$经济 &(%$> !=% #=中国货币$汇率 (#%#= !!% "$中国货币$利率上升 <<%!( #(% !"货币$增值 &"%=$ !$% <(D% F 关键字加权计算新闻标题传输代理训练过程期间从新闻标题提取名词$动词和复合项,据观察,这三类对决定下一个交易日 AL7VKU 的波动是重要的,需要注意的是,要使用 !%& 节提出的加权关联规则算法收集复合项#通过下式为这些关键字分配不同的权重:<[:KX#CK8KC&( !’)式中,K8KC指的是下一个交易日 AL7VKU 收盘价的波动,关键字 K出现在训练集中第 C 天的一些新闻标题中,& 表示关键字 K 出现在新闻标题上的总天数#如果由式( !) 给出的权重大于预设的正阈值,则将关键字分配到正类,反之如果权重小于负阈值,则将其分配到负类#权重落在正负阈值之间的关键字不能参与到本文新闻标题重要程度的计算中,因为这类关键字对股票指数的上升1下降无影响#现在假设新到的新闻标题有 @ 个关键字,新闻标题的重要程度可表示为:N X#@, X !<):[,( !!)式中,<):[,指的是从新到新闻标题中提取的第 , 个关键字的权重,当 N 大于一些预设的正阈值或小于负阈值时,认为这个新闻标题对股市有影响#本文也试图检测一些训练过程中没有记录到样本数据库中的突发事件的关键字,不管怎样,它们对下一个交易日股市的上升1下降是有影响的#本文采取的方法是: 当下一个交易日股市存在急性波动时检测一天之内在新闻标题中出现频率比其他关键字更高的关键字,此外,股市经历了剧烈波动或连续数天之后,连续检测到新闻标题中出现关键字的天数越多,这些关键字对股市的影响越大#权重值表明一天内新闻标题中出现的目标关键字比其他关键字更频繁,其值由下式给出:<$>,X D$>,#@C X !>C( !&)式中,>,是目标关键字出现的次数,, 是目标关键字的指数,@是一天内关键字出现的总数,$ 是常数,正确设置这个值可以扩大目标关键字和其他不怎么重要关键字之间的间隙#当关键字连续几天出现在新闻标题时,它的权重可以由下式得到进一步加强:<2N X#2C X !3+//C#C, X !/C( !()式中,2 指的是目标关键字出现在新闻标题的连续天数,/C是第, 个连续日目标关键字发生的数目,值得注意的是,目标关键字的权重值设置为由式( !&) 和式( !() 得到的值,以较大值为准#如表 ! 所示#E E% D 数据集为了评估本文方法,执行了一系列实验获取代理选择的新闻标题准确率和召回率# &!! = 月到&!! ! AL7V8KU 收盘价和收集的国内领先电子新闻报发行的金融新闻标题作为训练数据,以 &!! 年十一月的新闻标题作为评价数据#如表 & 所示,从领先电子新闻报获得的金融新闻标题总数为!& #(’,通过 CPUK 的关键字数目为 #&$&#因此,每条新闻的关键字平均数目为 $%=,重要关键字的数目为 =($# E 新闻标题的特征数据库数据类型 数量新闻标题的数目 !& #(’金融新闻标题的数目 !>"!关键字总数 #&$&重要关键字数目 =($每个标题的平均关键字数目 $% =E% E 实验结果文献中,已经评价了信息检索过程,基于所谓的准确率和召回率度量#召回率是从给定查询检索到的所有相关新闻标题与那个查询集合中存在的所有相关新闻标题的比率,另一方面,准确率是从给定查询检索到的相关新闻标题数目与这个查询返回的新闻标题总数目之间的比率#准确率和召回率的定义如下式:准确率 X检索到的相关新闻的数目相关新闻总数目( !$)召回率 X检索到的相关新闻的数目相关新闻总数目( !<)所选新闻标题的准确率$召回率和预测精度列于表 ( 所示#从表 ( 可以观察到: 本研究获得的平均预测精度和平均召回率分别高达 #<% &=#"O ><% (>#&O#高准确率和预测精度是协助投资者在市场做出正确决策的重要因素# 张人上等: 基于加权关联规则和文本挖掘的金融新闻传播 SJD6/ 实现 !#"包括 ("& 个关键字,关键字是由几个专家定义的能在任一方向影响股市的典型流行语,他们的研究还关注了股市开市前几个小时可用的日常数据和信息,作者称通常很短时间内就可将新信息纳入股价#文献[!!]提出了股价趋势预测的另一种方法,新闻文章内容与趋势必须在金融时序下相关,该方法关注的是! 分钟时间间隔可用的盘中股价,不考虑先验领域知识,交易策略为: 利益在 !O或以上时,立即或者等待 = 分钟再买进,必要时承担损失,这个策略导致每个交易的平均利润是 % &(O#文献[!&]随后重用了相同的数据来确定持有期的最佳时间,根据结果,购买或少量卖出一般会延后 & 分钟,但是该文献没有进行市场模拟来确认这些结果#文献[!(]提出了金融文本挖掘系统,试图利用一个或多个关键字组合预测股市,如股指反弹$$$强债券,文章中每个关键字的权重或发生频率产生概率规则#上述方法都在一定程度上缓解了股票预测难题,但是,预测的实时性及准确性仍然不能满足投资者的需求#基于上述分析,提出了一种实时金融新闻标题传播 SJD6/实现方法,通知投资者领先电子报发行的重要实时政治和经济新闻,投资者从代理接收到消息后再决定在市场买卖股票#文本挖掘[!$]和加权关联规则[!<]技术用于确定发行的新闻是否有足够的重要性传输给投资者#本文提出的算法计算简单,非常适合用作实时信息传输代理设计的核心技术,实验结果表明本文提出的方法确实能获得令人满意的性能,证明了它在股票投资者实时传输金融新闻应用中的可行性#D 方案提出图 ! 本文提出的金融新闻传输代理的训练过程图 ! 显示了本文提出的金融新闻传输代理的训练过程#&!! 年前 !! 个月期间收集的股票交易金融价格指数( AL7VKU) 收市价和领先电子报发行的金融新闻标题作为训练数据#首先将每个新闻标题送入中文 ( CPUK) 系统[!=]分离出中文单词,应用加权关联规则算法检测那些经常同时出现在一条新闻标题中的多个术语,然后提取名词$动词和复合语,如果有的话将其转换成对应的常见同义词,根据新闻供给市场第一个交易日股票交易金融价格指数为这些提取的关键字分配权重# & 实时新闻标题传输过程图 & 显示了金融新闻传输代理的传输过程#同样,首先经 CPUK 将最新发布的新闻标题分离成单独的关键字,用一些同义词代替每个关键字,然后通过上述训练过程构建的关键字权重数据库获得每个关键字对应的权重,通过总结每个单个关键字的权重推导出新到新闻标题的重要程度#如果新闻标题的重要程度高于一些预设阈值或新闻标题符合任一股市专家构建的例外规则,则立即将它传输给投资者#DI D !?+$首先由 CPUK 系统将历史新闻标题 -,分割成单个的词,说明见图 ( 所示# CPUK 将每个新闻标题 -,分割成单个单词,其中,:,!:,&&:,@表示 @ 个分割的单词,这里 :,C是一个有序对,包含一个有意义的词和这个词所属的类,类别如名词$动词$形容词$副词和介词等#:,CX f ),C<2,Cm ( !)式中,),C是第 , 条新闻中分离出来的第 C 个单词,<2,C指的是词),C所属的类# ( 使用 CPUK 进行词分割然后每个新闻标题 -,可表示如下:-,i ( :,!:,&&:,@)i ( w ),!<2,!q w ),&<2,&&),@<2,@q ) ( &)D% E 加权关联规则据观察,金融新闻标题中两个或多个关键字的组合对下一个交易日 AL7VKU 波动起重要作用,于是本文应用加权关联规则算法检测新闻标题中的重要复合项# D & 个新闻标题的集合,如下:D X { )!)&&)&} ( ()式中,),表示每个单个新闻标题#假设 - 是记录提取的关键字样本的数据库:- X { ,!,&&,@} ( $)式中,每个 ,!,&&,@表示一个提取的关键字#每个新闻标题 ),和关键字样本数据库 - 之间的关系可表示为:),2 -( <)加权关联规则是如下所示的蕴含式:5 $ %( =)式中,5% 2 - 5 - % 2 7 ,这里 5 % 分别为规则的前项和后项# >( 5) 为新闻标题集合 5 出现的概率,>( % c 5) 5 出现条件下新闻标题集合 % 出现的概率,:.KK$L)( 5) 定义为新闻标题的分数,),& D 使得 5 > ),,如下:>( 5)$ :.KK$L)( 5) ( >)根据式( =) ,定义规则 5$ % 的加权支持度为:(#),&( 5.%)<,) :.KK$L)( 5$ %) X (#),&( 5.%)<,) >( 5 . %) ( #)式中,<,为每个新闻标题 ),在下一个交易日 AL7VKU 收市价的波动,值得注意的是: <,用于表现新闻标题中复合项对股市价格变化的影响#加权关联规则 5$ % 的可靠性度量称为加权置信度 ( 5$%) ,定义如下:(#),&( 5.%)<,) 2$&8,N(&2(( 5$ %) X(#),&( 5.%)<,) >( 5 . %)(#),&5<,) >( 5)X(#),&( 5.%)<,) :.KK$L)( 5 . %)(#),&5<,) :.KK$L)( 5)( ")给定一个新闻标题集合,使用一组枚举项表示每个新闻标基于加权关联规则和文本挖掘的金融新闻传播 )]@23 实现张人上!曲开社&!( 山西财经大学信息管理学院 山西 太原 (’’’=)&( 山西大学计算机与信息技术学院 山西 太原 (’’’=)收稿日期: &!( B !& B &#国家自然科学基金项目( =!>!’’,>">!#) !张人上,讲师,主研领域: 数据挖掘,网络安全,计算机应用#曲开社,教授# 针对传统的金融预测系统仅仅依靠股票价格和市场指数等定量数据而不能很好地满足实时性和高准确性的问题,提出一种基于加权关联规则和文本挖掘的新闻传播 SJD6/ 实现方法#首先,利用中文知识与信息处理系统将每个新闻标题分离得到每个中文单词; 然后,利用加权关联规则算法检测频繁出现在同一条新闻标题中的多个术语,并提取名词$动词和复合语; 最后,根据新闻供给市场第一个交易日股票交易金融价格指数为提取的关键字分配权重,并根据新闻标题的权重值判断其对股票价格的影响程度#新闻标题特征数据库上的实验验证了该方法在金融新闻标题的实时信息发布应用中的可行性,实验结果表明,相比其他几种预测方法,该方法取得了更高的预测准确率和召回率#关键词 加权关联规则 金融专家系统 文本挖掘 SJD6/ 实现 消息传播中图分类号 AK("" 文献标识码 S NTU: !%("="1a% :556% !’’’8(#=% &!<% =%$>0’+78&’. )--"!+)&+", (%*’- ),. &’Q& #+,+,7ZM)-’. )7’,&(’)*+-)&+", "/ /+,),!+)* ,’0- -$(’).+,7[.46J GD65.46J!cR P4:5.D&T( 9$**(( $8 M&8$L@#),$& G#&#(@(&)-"#&F, O&,P(L:,)A $8 4,&#&2( #&N J2$&$@,2:E#,A.#& R^RRR_-"#&F,9",&#)Q( -2"$$* $8 9$@K.)(L #&N M&8$L@#),$& E(2"&$*$A-"#&F, O&,P(L:,)AE#,A.#& R^RRR_-"#&F,9",&#)):;3<=>3 A,4-:/:+64; ]:6463:4; 0,D-:3/:+6 5_5/D95 3466+/ 2D;; 54/:5]_ E+/. ,D4;8/:9D 0,+0D,/_ 46- .:J. 433R,43_ ED34R5D /.D_ ,D;_ +6WR46/:/4/:^D -4/4 +] 5/+3I 0,:3D5 46- 94,ID/ :6-DD5 +6;_% V+, 2.:3.2D 0,+0+5D /.D 2D:J./D- 455+3:4/:+6 ,R;D5 46- /D/ 9:6:6J8E45D- SJD6/,D4;:54/:+6 +] 6D25 50,D4-:6J% V:,5/:/ D90;+_5 C.:6D5D I6+2;D-JD 46- :6]+,94/:+6 0,+3D55:6J 5_5/D9 /+ -:^:-D D^D,_ 6D25 .D4-;:6D :6/+ 5:6J;DC.:6D5D 3.4,43/D,5% A.D6:/ R5D5 *SG 4;J+,:/.9 /+ -D/D3/ 9R;/:0;D /D,9:6+;+J:D5 ],DWRD6/;_ 400D4,:6J :6 549D 6D25 .D4-;:6D546- D/,43/56+R6^D,E 46- 3+90;D ;46JR4JD5 45 2D;;% V:64;;_:/ 455:J65 2D:J./5 /+ /.D D/,43/D- ID_2+,-5 433+,-:6J /+ /.D ]:,5/ -4_5 ]:6463:4; 0,:3D:6-D +] 5/+3I /,46543/:+65 :6 6D25 5R00;_:6J 94,ID/46- D5/:94/D5 /.D :6];RD63D -DJ,DD +] 2D:J./D- ^4;RD5 +] 6D25 .D4-;:6D5 +6 5/+3I 0,:3D5%A.D D]]D3/:^D6D55 +] /.D 0,+0+5D- 9D/.+- :6 400;:34/:+6 +] ,D4;8/:9D :6]+,94/:+6 -D;:^D,_ +] ]:6463:4; 6D25 .D4-;:6D5 .45 EDD6 ^D,:]:D- E_ /.DD‘0D,:9D6/5 +6 6D25 .D4-;:6D5 3.4,43/D,:5/:3 -4/4E45D% 7‘0D,:9D6/4; ,D5R;/5 5.+2 /.4/ /.D 0,+0+5D- 9D/.+- 43.:D^D5 .:J.D, 433R,43_ ,4/D 46-,D34;; ,4/D :6 0,D-:3/:+6 /.46 5D^D,4; +/.D, 0,D-:3/:+6 9D/.+-5%?@6A1<B; *D:J./D- 455+3:4/:+6 ,R;D ( *SG) V:6463:4; D‘0D,/ 5_5/D9 AD‘/ 9:6:6J SJD6/ ,D4;:54/:+6 QD25 50,D4-:6JC 言股票预测是最具挑战性的现代时间序列预测问题之一,大部分现有金融预测系统只是单纯地依靠股票价格和市场指数这类定量数据[!#近几年,学者们试图研究如何使用货币市场新闻标题预测金融市场活动,这类方法的创新在于它不是基于定量数据分析,而是基于金融报上出现文章的文本预测[&],这是挖掘金融知识的一个有吸引力的资源,可能会引发股票市场份额的立即波动,因为人类行为总会受到新闻等大众媒体的影响[(#一旦新闻影响大家的决策,这些决策就会影响股票价格,也就是新闻会反过来直接影响股市[$#近年来,由于万维网的普及,传统的报纸已将其服务扩大到在网络上提供在线新闻#对于投资者,实时金融新闻对他们的投资决策尤其重要,因为网络上的信息更新非常频繁,信息过载是一个重要的问题,投资者不可能一条一条把新闻全读完[<#尽管越来越多的研究进行了文本文件挖掘,但其低准确率和召回率使投资者最终在网上浪费了大量时间,而获取的有用信息却极少[=#文献[>]提出了一种文本挖掘方法,根据实时新闻标题和汇率报价预测国外交易市场短期走势#文献[#]使用 I 近邻和各种类型神经网络在香港股市开市之前分析了从五个可用金融网站收集的新闻文章,该模型用于预测恒生在即将到来的交易时段会往上走$往下走还是保持稳定,获得的平均精度为 $=O#文献["!’]分别提出了一种系统框架,使用广播新闻文章预测股票走势,仅使用那些对股票有影响的新闻预测股票趋势,字典第 = 张人上等: 基于加权关联规则和文本挖掘的金融新闻传播 SJD6/ 实现 !"! F 新闻标题传播代理的准确率和召回率( )分类 准确率 召回率正 #(%#>!! >=%$>= #=%===> >$%&#<>E% F 比较及分析为了更好地体现本文方法的优越性,将其准确率$召回率与几种其它文献中的预测方法进行了比较,包括文献[>(文献[#(文献["(文献[!’](文献[!&(文献[!(]提出的方法,这部分自己做了实验,各方法均进行了 & 次实验,取所有实验的最优准确率$召回率进行比较,参数设置分别参照各自所在文献,比较结果如表 $ 所示# G 各方法的最优准确率$召回率比较( )方法 分类 准确率 召回率文献[>]正 $(%"(& (=%$&& $$%("&! ($%(&!<文献[#]正 $<%"("& (#%#(&$ =>%’’$& <=%<#"文献["]正 =#%"$$ =!%$#<’负 <%(&#< $%$<’文献[!’]正 <!%<#(& $&%<("& <(%<$< $!%$&文献[!&]正 =$%<#( <=%$(& =>%"<( <$%<#("文献[!(]正 >$%<"$ =<%"<& >>%$#&! =$%!(&本文方法正 #(% #>!! >=%$>= #=%===> >$%&#<>从表 $ 可以看出,不管分类为正或负,本文方法的准确率和召回率均为最高,甚至比文献[>]方法高出近 $O,各比较方法中,文献[!(]的方法取得了最高的准确率和召回率,却仍然比本文方法低近 !O,由此体现了本文方法的优越性#F 语本文提出了一种实时金融新闻标题传播 SJD6/ 实现方法,用以协助投资者在接收到代理传输的实时新闻后决定在市场买卖股票#加权关联规则和文本挖掘技术用于确定领先电子报最新发行的每个新闻标题的重要程度#实验结果表明,本文方法确实获得了令人满意的性能,证明了其在实时金融新闻传播应用中的可行性#未来计划将金融新闻的重要程度和几个关键技术指标反馈到一些先进的机器学习分类器中,如支持向量机等,预测下一个交易日股票市场指数的上升1下降,进一步提升预测的准确率和召回率# 献[! 黄舟% 基于 KCS ?S8@K 网络对股票预测研究[N% 华东理工大学,&!(%& 张鑫,肖新平% 非等间距 ?M ( !!) 模型在股票预测中的优化[Z% 统计与决策,&!&(&( !!) : #<8##%( 朱建平,魏瑾,谢邦昌% 金融高频数据挖掘研究评述与展望[Z%经济学动态,&!!(!( =) : <"8=&%$ 张文霄% 基于 KLT 优化的 @K 神经网络股票预测模型[N% 哈尔滨工业大学,&!%< 张宇林% 基于混沌时间序列及弹性反馈算法的股票预测方法研究[N% 南京航空航天大学,&!&%= 肖冬荣,杨子天% 基于粒子群训练的神经网络股票预测模型[Z%统计与决策,&’’"&"( !&) : &8&&%> M+;+-/5+^4 AK40D;; N X% K.+D6: /4_;+, ,R;D D3.46JD ,4/D ]+,D345/:6J-R,:6J /.D ]:6463:4; 3,:5:5N% F6:^D,5:/_ +] X+R5/+6 9:9D+&!%# *R/.,:3. @C.+ YHDR6J LD/ 4;% N4:;_ 5/+3I 94,ID/ ]+,D345/ ],+9/D/R4; 2DE -4/4C1 1 L_5/D95M4646- C_ED,6D/:35!""#% !""#U777 U6/D,64/:+64; C+6]D,D63D +6% U777!""#(: &>&8&>&<%" 金苏静% 通过股市新闻和股票价格预测股票市场[Z% 企业导报,&!(&(( !!) : !!&8!!<%!’] 张圣荣% 财经预测新闻为何常成%假新闻"? Z% 华人时刊,&!&(( !) : &8&&%!! 赵国顺% 基于时间序列分析的股票价格趋势预测研究[N% 厦门:厦门大学,&’’"%!& 桂新志% 数据挖掘在股票分析中的研究与应用[N% 华中科技大学,&!!%!( 甘甜甜% 基于文本挖掘的财经领域趋势分析技术研究[N% 北方工业大学,&!&%!$ 郭峰% 基于观点挖掘的股价走势预测[N% 上海: 复旦大学,&’’"%!< 卢锦% 时间序列关联规则在 UA 上市企业股价趋势分析中的应用研究[N% 华东交通大学,&!%!= 崔桓,蔡东风,苗雪雷% 基于网络的中文问答系统及信息抽取算法研究[Z% 中文信息学报,&’’$!#( () :"""""""""""""""""""""""&$8(!%( 上接第 DNG )容错处理$实时性及抗干扰等性能都优于之前,使得划膜仪具备了更广阔的市场和应用前景# 献[! 陈曦,代丙媛,李玲% 往复式 QC 膜划膜仪[Z% 仪表技术与传感器,&!&( !) : &$8&<("%& 胡文翔,蔡政,郭伟玮,等% 面向 GL8$#< 控制网络的 M+-ER5 协议扩展及应用[Z% 自动化仪表,&!(($( $) : <"8=!=<%( 汪义旺,崔鸣,祁春清% GL8$#<1M+-ER5 VVF 控制系统中的应用[Z% 自动化仪表,&!’,(!( =) : ("8$!$$%$ 乔永卫,程帅% 基于 M+-ER5 协议的自动控制系统的通信研究[Z%自动化与仪表,&!&( #) : ($8(>%< 王书根,王振松,刘晓云% M+-ER5 协议的 GL$#< 总线通讯机的设计及应用[Z% 自动化与仪表,&!!&=( <) : &<8&#%= 程鲲,李震% GL8$&&1$#< 隔离技术及应用讨论[Z% 山西电子技术,&!&( &) : <8<!<"%> 邢毅川,牟宪民,章艳% 隔离 GL8$#< 的通信接口设计[Z% 单片机与嵌入式系统应用,&!&!&( ") : #8#!%# 胡文涛% 一种基于协议的提高 GL$#< 实时性的方法[Z% 现代电子技术,&!(( !#) : !8!&%" 郝涛,陆宣博% 基于 GL$#< 主从串口通讯协议的设计[Z% 装备制造技术,&!(( () : (#8$%

[返回]
上一篇:一种基于网络爬虫技术的价格指数计算模型
下一篇:社会科学信息分析中的文本挖掘