欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
计算机论文
当前位置:首页 > 计算机论文
基于文本挖掘技术对股票论坛的分析
来源:一起赢论文网     日期:2015-09-20     浏览数:4333     【 字体:

浙江大学硕士学位论文       绪论上,一般的个人计算机根本没有能力分析这种数据。海量的第二个维度是指网络信息能提供的变量种类大大超过我们在一般经济理论中所涉及到的变量,而且变量的格式也不仅仅限于过去的数字,文字、图像、视频都可以作为有价值的潜在数据出现。例如,如果我们要研究投资者情绪,由于无法直接观测情绪,所以我们常用封闭式基金折价率、每月新增开户数等变量替代。然而以股吧为代表的网络股票社区的出现则为我们直接观测投资者情绪提供了一个窗口。在这些网络股票社区中,投资者们用文字直接表达自己的情绪,加上网络的匿名性,这些情绪资料可谓目前最能反映投资者内心真实想法的数据。另外一个例子是C2C以及B2C'交易平台的迅速发展为我们打开了观察微观交易的窗口。在这些交易平台上,每笔交易的曰期时间、成交价、供货商所在地、购买后评价等信息都列在网页上。总而言之,网络上呈现的这些微观信息可谓经济研究中的宝库,将为我们打开往曰经济理论中的“黑箱”提供强大的帮助。然而,正是因为网络的海量信息,导致我们容易被信息的汪洋大海所掩没,这就对信息的过滤与提取提出了很高的要求。其次,网络信息具有半结构化的特点。我们将存储在数据库中,以“表”的形式存在的信息称作结构化的数据,它的特点是每一条数据记录都可以用若干变量(字段)进行说明,而且每条记录都具有相同的变量。最常见的就是各大金融数据库提供的证券市场的数据,每个股票每天的数据都可以用诸如曰期、开盘价、最高价、最低价、收盘价、成交量、成交金额等变量来描述,而且每个变量都具有固定的格式,这种格式不随着记录的增减而改变;而半结构化指的是,数据虽然经过一定整理,不是全部杂乱无章的,但是距离结构化的要求又有很大距离。最典型的就是网页的源代码。网页的源代码由html ( Hypertext Markup Language的缩写,即超文本标记语言。它是用于创建可从一个平台移植到另一平台的超文本文档的一种简单标记语言)语言写成。由其定义可知,既然是能够跨平台的语言,必须要遵守一定的格式规范,例如,html语言中所有的标题内容都夹在〈ti tie〉和</t i tle>两个标签之间,所有的表格都夹在< table〉和〈/table〉两个标】Consumerto ConsumerBusinessto Consumer,天猫商城与京东商城就是两者的典型代表3浙江大学硕士学位论文       绪论签之间,非常容易辨认。但是,只要我们任意打开一个网页,查看一下该网页的源代码,就会看到非常混乱的一片代码,毫无规律性可言。这是因为网页是千差万别的,不同html标签随着网页揞建者的创造可以自由组合,就好比语言是有语法规定的,但语言却可以表达无穷多种的含义。半结构化对我们获取网页数据产生了很大的障碍,需要我们用特殊的技术抓取网页的代码并过滤出有价值的信白? Nil?最后,时效性强的特点很容易让人理解,网络上的信息都是即时更新的,但它也给我们提出了挑战:虽然在一段时间内我们可以追溯过去的信息,但这也是有限度的,我们不可能无限制地回溯过去的信息。该特点意味着:为了能有效利用网络信息,我们不仅要能够将他们抓取并过滤,更要求我们能够高频率地抓取。在一般的经济理论与应用中,月度甚至季度数据都可以称得上高频了,但是对于网络信息而言,每周抓取一遍数据都可能无法赶上信息更新的速度,我们甚至要做到每日抓取一遍数据才能保证数据无遗漏。总之,以上提及的网络信息三大特点迫使我们采用新的数据抓取与分析手段,这就是我们在本文将釆用的网络爬虫与数据(文本)挖掘方法。1.2.2理论意义从理论意义上看,综合利用金融学、计算机语言学等研究工具深入挖掘互联网上所体现的投资者情绪生成及其演变规律、探讨网络信息对股票市场的影响有助于进一步理解中国个体投资的行为模式,推进行为金融理论的演进。近年来兴起的行为金融理论,以投资者的有限认知为假设前提,为解释金融市场异常现象提供了生动的解释。从行为金融理论目前的发展趋势来看,研究投资者的认知偏差和情绪有两个方法。第一是“至下而上”的微观研究方法,分析过度自信、保守主义、启发式等代表性的认知偏差,解释其对资产定价的影响,这种方法所面临的问题在于市场与投资者之间的相互作用太过复杂,难以用有限的几种行为模式进行概括,而且不同行为模式之间往往基于截然不同或者是互相独立的假设,难以用一个普遍的理论将他们都包括在内,这也是目前大部分对该种研究方法的批评所在。事实上,如果进行足够多次的尝试,某种特定的行为模式总能够解释41.1问题的提出信息对于证券市场的影响始终是学者们关注的热点之一。以前,学者们往往将官方或平面媒体(例如公司公告、证券交易所公告、华尔街曰报)作为信息来源,研究他们对证券的收益率、成交量等的影响。然而,随着互联网进入Web2. 0时代,由平面媒体和门户网站所垄断信息来源的时代已经一去不复返了。Web2. 0的特点在于打破了信息在门户网站与浏览者之间的界限,每个人都有权利上载自己的内容。最为突出的表现是网络社区(SNS, Social Networking Services,即社会性网络服务,比如人人网)以及博客、微博的兴起。目前,人们所接受的信息再也不是由若干个主流媒体可以控制的了,相反,人们越来越多地愿意接受自己的朋友、亲人所发布的信息,即使他们的信息的准确性值得怀疑。如果说,以前的投资者还愿意花大量的时间去阅读报纸中的财经专栏,去观看电视上的财经节目的话,那么现在的投资者,特别是中小投资者,更愿意从互联网上,包括各种股票论坛、著名财经人士的博客、微博中寻找市场未来的可能走向。由此带来的结果是,有时人们甚至会感到“小道消息”似乎还比官方信息更加准确。例如,针对公司盈利的预测,Bagnoli,Beneish以及Watts ( 1999 )考察了两类信息来源:一类是来自专业机构First Call,由分析师给出的盈利预测;另一类则是非官方的“小道消息”。这些小道消息来源于包括互联网文本信息在内的各种媒体。作者指出,来自于First Call的预测倾向于低估公司的盈利公告,而“小道消息”则比专业预测更加准确.此外,GruhlKumar ( 2005 )发现网络聊天行为能够预测图书的销量,Mishiie(2006 )通过测度博客的情绪来预测电影票房,LiuHuang ( 2007 )也通过对博客情绪的测度来预测商品的销量。所以,我们有必要研究网络文本信息,特别是个人发布的信息对于证券市场有着怎样的影响。这是一个很新但发展迅速的研究方向。2004年之后,每年在诸如Journal of Finance这类的顶级期刊里,我们都可以找到该主题的文献。1浙江大学硕士学位论文    绪论一部分的市场异象(当然不能够解释全部)。第二种方法是“至上而下”的宏观研究方法,因此需要利用市场数据(例如换手率、封闭式基金折价率等),汇总市场的总体情绪特征,并追踪其对股票市场的影响。此种方法可以不受有关理论的约束,先从实证的角度讨论情绪与市场波动之间的关系,然后再在实证的角度上建立理论模型。目前,第二种研究方法主要是基于市场“数值型”的数据,如新增开户数等。本文认为网络信息中不只包含数值型数据,文本的作用不可小觑。文本型数据内涵丰富、蕴含情感、表现方式直观,在研究投资者情绪上具有特殊的价值。本文在分析市场“数值型”数据之外,将利用文本挖掘工具挖掘“文本型”网络信息的情绪特征,为描述市场情绪提供更为深入的证据,揭示投资者情绪影响股票价格的规律。1.2. 3现实意义从现实意义上看,理清网络信息影响投资者认知过程的途径、规律和机理,有助于金融市场监管当局对网络信息体现的大众舆论进行科学的研判,并采取积极的预警措施防范群体极化型网络信息可能对股票市场稳定发展产生的负面影响。目前,网络成为了民众意见交换最主要的渠道,网络舆论监管是当前社会管理的重要话题。通过对网络舆情的监管,我们不仅可以了解到投资者“现在”在想什么,更可以挖掘出投资者“未来”可能会怎么做。通过对舆情的预判,我们就能为舆情爆发争取到宝贵的反应时间。关注网络信息还能帮助我们认识到:在什么情况下网络信息会引发群体情绪极化,并对股票市场稳定性产生极端的负面影响;如何通过网络信息挖掘发现影响股票市场安全的突变因素,并由此分析网络舆论监管的必要性以及可能的监管方式。通过研究网络信息传播影响的方式,我们还能有效提高资本市场的有效性。根据资本市场有效性的定义,一个市场是否有效,关键在于信息在市场中能否充分传播.互联网由于其匿名性以及免费性,为信息的传播提供了绝佳的传播平台,但是,我们的市场是否由于互联网的出现而变得更加有效了呢?从现实中来看,如今的中小投资者的确比十年前有着更多的信息和更宽的交流渠道,但是不可否浙江大学硕士学位论文       绪论而且由于该方向与计算机学科有着紧密的交叉,许多计算机背景的学者也从事着类似的研究,将该领域的前沿大大向前推进着。在本篇文章中,我们将信息来源聚焦在中小投资者信息交流讨论的主要平台—一股吧上。选取股吧作为研究的信息源是因为它已经成了目前中国中小投资者信息交流最密集的地方,对中小投资者的投资情绪有很大影响。在后文,我们会具体介绍股吧的数据特征。1.2研究背景与意义1. 2. 1研究背景(1)网络信息对于股票市场的影响信息对股票市场的影响是金融学研究的核心问题。近年来随着经济发展和信息技术水平的提升,我国的网民数量持续上井,互联网已经成为中国社会各阶层利益表达、情感宣泄、思想碰撞的重要渠道。由于股民与网民的高度重叠,我国股票市场始终是网络舆论的焦点之一。以2008年为例,在国际金融危机冲击和国内经济增长前景不明朗等因素的影响下,我国股市发生了剧烈的波动,大量网民通过网络论坛、博客等形式表达了对股票市场发展的观点,悲观情绪的传染进一步引发了股票价格的过度波动和持续低迷。与传统媒体的信息传播方式不同,网络信息具有匿名性、互动性、及时性等特征。在互联网时代,股票市场的信息结构发生了深刻的变革,上市公司、监管当局不再是仅有的信息提供者,信息发布成为大众投资者的自发行为。在这一背景下,利用文本挖掘技术提取网络信息中体现的投资者情绪特征,研究网络信息与股票市场的关联机制具有重要的理论意义与现实意义。(2)网络信息的特点但是,如何充分利用网络信息一直是一个难题,原因在于网络信息具有海量、半结构化、时效性强的特点。海量有两个维度,第一个维度是指数据量的庞大。目前,一旦谈及挖掘网络数据,数量级最少都在GB,更多的都在TBPB甚至EB'1       1TB=1024GB 1PB=1024TB 1EB=1024PB2浙江大学硕士学位论文       绪论认的是,内幕交易仍旧大量存在,中小投资者的利益仍然受到严重侵害(至于是否应该鼓励中小投资者入市,则是另一个课题的研究方向了)。为什么会这样呢?当仔细考察网络信息时,我们会发现,网络世界鱼龙混杂,真假难辨,虽然真信息多了,但假信息可能比真信息更多,若中小投资者无法区分信息的真假,那么市场的有效性并没有实质性的提升。为了探究市场有效性的变化,我们必须要对网络信息对于市场的影响机制有个透彻的了解。一旦我们掌握了这方面的知识,有关部门就可以出台相关网络行为的规范措施,从而提高资本市场的有效性。1. 3论文结构在相应研究方法的指导下,本论文结构如下:第一章:绪论。在简要介绍了本文的研究背景与研究意义后,本文对于网络数据的特点作了介绍。由于网络数据和以往的数据有很大不同,我们从海量性、半结构性、实时性三个角度进行了具体描述,指出了研究网络数据所面临的困难以及克服方法。其次,我们从理论与现实两个淘度讨论了本文的意义。在这之后介绍了论文结构、并提出了本文的创新点与不足之处。第二章:文献综述。由于本文的侧重方向在于实证,所以我们主要介绍研究网络信息所用到的实证方法。首先我们将文献按照网络信息的不同量化方式分类,其次我们按照所考察的证券市场的不同特点进行分类。通过比较前人的大量文献我们指出,用文本挖掘方法对网络文本进行分析是目前投资者情绪研究的前沿方向,并呈方兴未艾之势。第三章:理论基础。这一章主要为后面的实证研究做准备,首先明确了文本挖掘技术在整个数据挖掘技术中的地位;随后简要介绍常见的文本挖掘方法并具体介绍了我们所用的文本挖掘算法一一朴素贝叶斯算法,并对该种算法的有效性作一简单介绍。最后,我们汇报了分类结果。第四章:实证分析。我们采用相关性分析以及回归分析两种方法考察网络信息与证券市场之间的关系,指出网络信息确实充分反映了来自证券市场的波动,并且对股票行为具有一定的预测能力。第五章:结论与建议。首先总结了实证分析的主要结论,随后在理论与实证6浙江大学硕士学位论文  文献综述2文献综述目前,已经有一批考察网络信息对于股票市场影响的文献出现,以外文文献为主。我们将用两条主线简要介绍它们:先介绍文献中量化网络信息的方法,再介绍检验网络信息影响的方法。2. 1量化网络信息的方法要分析网络信息对于证券市场的影响,首先要找到量化网络信息的方法。目前,网络信息主要有两种,一种直接以数字方式体现,例如发帖量.搜索强度、发帖者打分等;另一种则是文本信息.前者是结构化的,处理起来相对容易;后者是非结构化的,需要用特定的方法转化成计算机可以处理的数据,相对比较复杂。以下我们将对这两种方法分别进行阐述。2. 1. 1以发帖量或搜索强度等数字指标量化网络信息在早期的研究中,学者们还没有使用文本挖掘等工具来量化网络信息,他们更多的采用网络文本中自带的数字指标来量化网络信息,例如发帖量、搜索强度或者股票论坛自带的评分功能。具有代表性的有如下几篇文献。浙江大学硕士学位论文       绪论多。事实上,这也是目前整个学术界所面对的难题,毕竟,一方面人的情绪与行为难以建模,另一方面情绪对市场价格的影响渠道颇为复杂,难以梳理清楚。我们期望来来能有学者在这一方面做出突破,可以预料,这种突破必将是革命性的.第三,缺乏高频数据。我们获得的发贴数数据是高频的,故在此基础上构建的情绪指数也是高频的。但是,受制于数据来源的限制,我们无法获得股票行情的高频数据。所以,即使有高频的情绪数据,它也难以充分发挥作用。8浙江大学硕士学位论文      绪论分析的基础上提出一定的政策建议,最后指出了未来可能的研究方向。1.4本文的创新与不足1. 4. 1创新点本文所研究的投资者情绪已经是学术界讨论比较充分的话题了,但是本文对于数据来源作了突破,对投资者情绪这个课题给出了新的解释与回答。本文的创新点主要体现在方法论上,具体如下。数据来源与处理方法的创新。由于我们的数据来源于网络,所以我们需要一套特殊的技术将其转换为可以分析的数据.我们使用如下两步走的方法进行处理.首先运用网络爬虫工具Gooseeker在互联网上24小时不停爬行抓取股吧(guba. eastmoney. com)网站的网页,扫描底层代码,将每一条帖子都记录下来,并将所得数据保存在本地数据库中。然后用数据清洗工具将需要用到的变量过滤清洗出来,我们共得到200只股票约600万条帖子的历史数据。最后,我们运用朴素贝叶斯算法将文本转化为可以计算的文本向量模型,通过学习事先给出的训练数据集,计算机会自动将每一条帖子分成(-1, 0, 1)三类,分别代表消极情绪、中立情绪(含噪音)以及积极情绪,以此完成情绪的量化。.1. 4. 2不足之处第一,样本容量有限。本文只研究了 200只创业板股票的发帖数据,并没有考察主板的股票。而且由于创业板股票一直在陆续发行,导致样本中时间跨度为最长的约2,而最短的只有几十天。这主要是受制于计算机的限制,如果要将所有的主板股票的数据都囊括进来,并且延长抓取的样本期,估计的原始数据集的将会在100G以上,这大大超出了笔者所拥有的计算机的处理极限。可喜的是,目前我们已经加大了对硬件的投入,试图搭建了 一个小型服务器集群,一旦成功,处理能力将大大提高。第二,理论模型有待搭建。由于我们采用了投资者情绪研究的第二种方法,即从实证结果到理论建模的途径,本文的侧重点就是在于量化文本信息并考察其对于股价的影响,而对于其间具体的传导机制,也就是理论模型的搭建则着墨不

[返回]
上一篇: 基于Hadoop 的分布式网络爬虫技术
下一篇: 电子政务运维的服务质量评估模型与方法研究