社会科学信息分析中的文本挖掘 |
来源:一起赢论文网 日期:2015-08-25 浏览数:3848 【 字体: 大 中 小 大 中 小 大 中 小 】 |
〔摘要〕认为信息分析方法可以用于社会科学研究,具有客观、系统和定量的特点。内容分析作为一种典型的信息分析方法展示了这些特点。但它也具有抽样过程的人为性、手工标引的低效率、人工作业的低信度问题。网络时代出现的文本挖掘方法能够处理海量文献、处理非结构化数据,其研究品质远远高于手工信息分析方法。〔关键词〕文本挖掘信息分析内容分析信息分析的基本目标是通过科学的研究方法从公开信息源中发现有意义的信息。在科技情报时代,这种研究更多地应用于科学技术领域,如通过文献分析了解技术前沿水平,通过专家调查预测学科趋势。随着社会科学的发展,信息分析方法也用于社会科学研究。科学方法在社会科学中应用是现代社会科学的产物。传统社会科学因远离社会应用,其研究方法要么是书斋中思辨,要么是经验的描述。贝尔纳在《历史上的科学》一书中质疑过这种社会科学: “企业、工业组织、行政管理、法律和政治都是实际的社会活动,但是这些社会活动远远不是应用社会科学。事实上,许多社会科学不过是把各行各业通行的实际办法,用学术文字写下来罢了”[1]。造成这种现象的原因固然有传统社会科学价值取向的问题,但传统社会科学研究方法方面的缺陷,往往使得社会科学家即使从事了应用研究,也很难有效地支持社会决策活动。一般认为,1945 年二战结束到20 世纪70 年代这段时间,是社会科学研究方法变革的年代。丹尼尔·贝尔认为,“人们有理由把1945 年到1970 年当作一个单一的时期,在这段时期中,在学科、方法论和技术方面,以及在各种社会规划方面,展现了一系列新的希望,标志着社会科学时代已经到来”。“随着尖端新技术的急剧进展,特别是在引进计算机以后,理论不再仅仅是一些观念或辞藻,而是一些可以用经验和可检验形式加以阐述的命题。再用专门的术语来说,社会科学正在变成像自然科学一样的‘硬’科学”[2]。现代社会科学是社会管理的重要工具。在面向应用的现代社会科学研究中,信息分析方法的客观性、系统性和定量性使其有了更加广泛的应用空间。有了这些特征,信息分析方法在社会科学研究中表现出无可替代的特定的优势。在社会科学研究领域,信息分析方法属于一种具有客观、系统和定量特征的研究方法:①客观性。客观性是信息分析方法区别于其他主要依靠思辨方式进行的社会科学方法的一个重要特征。信息分析方法以一整套可操作的研究步骤规范了研究者的行为,使其尽可能做到客观地表现文献中有意义的信息。②系统性。系统性是指在研究的各个阶段必须遵循共同的准则,避免信息分析出现因人因时而异的情形。信息分析通过研究的效度与信度指标实现研究的系统性。③定量性。信息分析研究总是尽可能地对研究对象或分析单元进行计量,然后用数学方法或数学模型对量化数据进行描述或分析。具备了客观、系统、定量特征的社会科学研究,能够摆脱传统社会科学的思辨性特征,在面向决策支持或社会应用的研究中具有更强的理论指导能力。信息分析方法追求客观、系统和定量的方法论特征,目的是发现信息源中有意义的信息。在社会科学研究中,有两种场合需要采用信息分析方法发现信息源中有意义的信息: ①信息生产者在公开信息产品中刻意隐藏了某些有意义的信息。在竞争性领域,如国际政治、商务、金融等领域、信息拥有者们受制于法律或舆论压力,需要公开某些信息。但他们出于各种目的,不愿意将全部信息示人,于是以各种手法在公开信息中刻意隐瞒某些关键信息。信息分析方法能够帮助情报人员辨别真伪,或发现真相。这类分析方法包括知识发现的过程,是信息分析方法的最高境界。②文献量过大,超出文献利用者解读文献内容的能力。由于当今社会信息生产量越来越大,某些研究信息虽然存在于公开信息源中,但超出了研究者在特定时机解读并用于研究需要的能力。这时信息分析方法可以将大量公开信息浓缩或可视化,表述为有意义的信息。这种方法看似简单并且没有知识发现过程,但同样是达到了在公开信息源中发现有意义的信息的目的。情报学领域考察信息分析方法的优劣,不是看它模型是否复杂,结论是否花哨,而是看它是否能有效实现信息发现。或者说,只有能够从原始信息源中有效发现新信息或新知识的方法,才是最好的信息分析方法。2 内容分析的优势与局限以往用于社会科学研究的信息分析诸方法中,内容分析是非常典型的一种方法。通过对于内容分析的剖析可以较为清晰地看到信息分析用于社会科学研究的方法论特征。内容分析从公开媒体中获取有意义的信息,或获取常规阅读难于获得的信息。内容分析产生于20 世纪初,早年用于学术研究。人们对于公开文献的词或句子进行量化处理,通过对量化数据的处理和分析,寻找文献中人们常规阅读难于发现的隐含意义。二战期间,由于战时情报工作的需要,内容分析方法受到管理层重视,传播学家H. 拉斯韦尔等人通过轴心国公开媒体定量研究轴心国情报,实现了内容分析方法的大规模应用,借此契机,拉斯韦尔于1938 - 1950 年间将内容分析发展为一个完整的领域和一种独具风格的定量研究方法。此后,P. 斯通于1961 - 1968 年间将其改善,使内容分析成为一种重要的社会科学研究方法,并受到社会科学界的广泛重视。1971 年,哈佛大学多伊奇等人在著名的《科学》上杂志发表论文,列举1900 - 1965 年世界社会科学的62 项重大进展,拉斯韦尔等人1938 - 1950 年间发明的内容分析名列其中[2]。内容分析用于社会科学研究的一般工作流程为( 假定分析对象为媒体文章对某些主题的态度,如果分析单元为句子、段落或文章,流程大同小异) : 确定分析问题所需要的信息源,如几种报纸; 抽样确定信息源样本,如周末版,或国际版; 确定编码标引语词体系,编制编码表,即将需要从公开媒体中提取的主题组织成为类似问卷调查表的表格; 预编码,测评信度、修订编码表; 对样本编码标引,即判断样本文献对于编码表主题的相似度并进行记录; 统计分析,将编码表数据录入计算机,按事先确定的权重体系进行统计,按某种分析模型进行分析; 分析结果处理,对统计分析结果进行定性分析,得出结论。这一研究过程可以将研究人员常规阅读无法提取的信息客观地提取出来,表述为简洁的量化方式。客观、系统和量化正是内容分析的特点。尽管内容分析有许多独特的优势,但在实际应用中,以下局限却很难避免。这些弱点也是很多手工操作或半手工操作的信息分析方法所共同具备的,包括:2. 1 抽样调查的人为性抽样研究的目的是通过某种科学的方法从总体中抽出的能代表总体的部分单元。人们之所以需要进行抽样,主要是对总体进行研究过于困难。内容分析的抽样也是如此。内容分析所处理的公开媒体数量往往十分庞大,手工处理很难,因此需要从总体中抽取部分样本。无论这种抽取所依据的方法多么科学有效,样本将不可避免地丢失信息。更重要的是,由于内容分析的对象一般并非具有同一属性的单元,因此内容分析中的抽样很难遵循统计学中随机抽样原理,而是更多地加入人为因素,如以由研究者根据经验判断一周中的某天或报纸的某版为样本。这样的抽样,很大程度上已经失去了内容分析方法所声称的客观性特征。2. 2 手工标引的低效率内容分析能够将非结构化的媒体内容转换为量化和结构化的内容进行分析,这是内容分析方法的最具__独特之处。内容分析对媒体内容的量化和结构化转换,基本方法是编码标引,即由编码人员对样本媒体的内容逐一进行阅读判别,并将判别结果标引到编码表中。这一过程需要标引者找出样本文献,阅读文献,判别文献的内容,并将此解读填写到编码表中。这个过程是一个效率极为低下的纯手工操作过程。电子媒体出现后,计算机可以辅助标引,例如帮助标引者查找样本文献甚至找到文献中的关键词,但“阅读- 判别- 记录判别结果”的过程无法改变,而这一核心过程正是最耗费人工的低效率过程。2. 3 长期作业或集体作业的信度问题由于内容分析需要以一定数量的文献标引结果形成统计分析结果,而手工标引的效率极低,因此在实际的分析作业中,研究者或者用极少的标引人员长时间作业,或者动用多位标引人员集体作业,以保证完成较大量的样本的标引。这就导致标引一致性问题,或研究信度问题。内容分析要将媒体内容转换为定量指标进行分析,转换是否客观真实是内容分析能否成立的根本,而信度则是衡量转换是否真实、客观的指标。在内容分析标引作业中,无论一个人对一批样本长时间进行标引,还是多人对一批样本同时标引,都可能导致标引的不一致问题。尽管内容分析方法理论上解决了信度问题,但除非由受过专门训练的标引员操作,否则实际标引中很难避免信度不高的问题。进入网络时代后,公开信息源的体量与日俱增,文献总量达到了依靠手工标引量化无法企及的程度。而这些信息源缺少媒体编辑这样一类信息看门人的把关,信息源中隐藏的信息数量虽然不少,但有意义的信息变得越来越稀薄。对于这样的信息源,如果沿用手工方法实现公开信息源的量化和信息发现,相当于在极为稀薄的矿体中手工采矿,可行性极差。即使计算机能够帮助人们选定样本甚至找到信息源中的主题词,但对主题的判读仍需要人工。由于信息源中有意义的信息过于稀薄,这种方法仍很难大规模应用。总体上看,内容分析虽然理论上能够针对海量文献实现隐性内容的提取,并试图以科学的手段解决研究的信度问题,但在网络时代,内容分析成本高、效率低的方法论弱点更加突出。这种弱点,也是其他用于社会科学研究的信息分析方法所共同具备的。3 作为信息分析方法的文本挖掘网络时代,在社会科学中有望取代内容分析的方法是文本挖掘。文本挖掘与内容分析一样,是一种系统地、客观地、定量地获取隐性信息的方法,同样以非结构化信息为研究对象。但文本挖掘也具有许多内容分析不具备的特征,在信息分析活动中具有更加独特的优势。文本挖掘与内容分析一样是一个方法群,它涉及众多领域,如统计学、自然语言处理、信息抽取、可视化技术等。同很多新兴领域一样,文本挖掘目前并没有统一的定义,连其名称也有“文本数据挖掘”、“文本知识发现”、“文本分析”等不同说法。由于没有统一的定义,也没有完全一致的方法与模型,所以Feldman 和Sanger 在《文本挖掘手册》中用了一个很笼统的定义:“可将文本挖掘大致定义为一个知识密集的过程,在此过程中用户与文档集合通过分析工具进行交互”[3]。文本挖掘方法的直接来源是数据挖掘,这从它早期名称“文本数据挖掘”中可以看出来。但文本挖掘的确可以归于信息分析的方法群。上述《文本挖掘手册》中所说的知识密集的过程,是典型的信息分析过程。在这一过程中,人们分析的对象是海量文本,使用的工具是计算机,包括基于计算机的各种分析软件和分析模型,分析的目的是发现新的知识。Ah - HweeTan 有个广为流传的文本挖掘定义: “文本挖掘是指为了发现知识,从文本数据中抽取隐含的、以前未知的、潜在的有意义的模式的过程”[4]。这一定义中的发现知识,抽取“隐含的、以前未知的、潜在的”信息的过程,则是代表信息分析的最高境界的分析过程。与其他信息分析方法一样,文本挖掘可应用的领域很多。但文本挖掘方法在社会科学研究中的应用却有特殊的意义。3. 1 处理海量信息网络时代给情报工作带来的最大变化是公开信息的总量急剧增长,给信息分析带来的变化就是公开文献的品种与数量越来越多,人们不但无法完整阅读一个学科或主题的全部文献,甚至无法浏览或知晓一个学科或主题的全部文献; 另一方面,公开文献中有意义的内容变得稀薄,由于原始文献发布变得越来越容易,人们往往将来不及加工的信息变成文献发布。对于年轻一代,许多人在做学问时不但无法如上一代学者一样穷尽文献,甚至有“搜索不到的文献就是不存在的”之倾向。学者们并非不知道这对于许多研究领域都是致命的问题,但面对海量文献,常规阅读已经无法应对内容稀薄而数量庞大的文献了。文本挖掘中的挖掘一词,也可译为采矿。它的基本意义是从稀薄的岩石中将有价值的矿物提取出来。也可以说,文本挖掘就是__专门为处理上述情况而出现的专门方法。尽管赫斯特认为“挖掘”一词具有采矿的意思,用于这种方法并不妥,但他却肯定了文本挖掘独特的知识发现的功能[5]。Spinakis 和Chatzimakri 在讨论文本挖掘的方法论优势时指出,“通过文本挖掘可以分析和解构海量文献”[6],所指就是这一特征。3. 2 处理非结构化数据文本挖掘方法类似数据挖掘,其目的都是通过对数据源的有意义模式的鉴定和探索,实现知识的有用浓缩。然而对于文本挖掘,数据源是文档集合,有意义模式是这些文档集合中的非结构化文本数据而非数据库中的结构化记录。随着管理信息化的发展,企事业单位在管理活动中普遍使用信息系统,能够自动地在事务活动中生成结构化的管理数据。与之相对应的,处理结构化数据的软件工具也大量出现,管理人员对于结构化数据的决策支持工具的依赖程度大大提高。盖特纳公司的G. Herschel 指出,由此产生的副作用是,管理人员熟悉了使用结构化数据支持决策后,往往会习惯性地使用结构化数据处理非结构化决策,如战略决策。而这对于决策而言是有风险的———“用结构化数据支持战略决策的风险在于缺少一些关键数据点和关键洞察力”[7]。文本挖掘继承了内容分析处理非结构化文档的优势,在决策支持类研究或战略决策研究中具有重要意义。3. 3 研究品质高社会科学研究成果是否能够有效应用于社会领域,以及这些成果是否具有足够的可信度,取决于研究方法的品质。从已有资料看,文本挖掘方法在研究中表现出比以往内容分析更高的研究品质。从研究方法的客观性看,文本挖掘以机器操作为主,信息自动处理能力强,无论是购买的全文数据库,还是网络上可以公开访问的文本,都能够比较方便地通过计算机程序对海量文本进行自动处理。因此,文本挖掘完全不需要进行抽样分析,避免了抽样分析所导致的潜在的人为性。当然,在具体的分析中,一旦进入新的、挖掘工具不熟悉的领域,需要建立样本文本库进行机器学习或模拟挖掘,但这相当于在实验室做实验,与通过样本推断总体的方法论思路完全不同。从研究信度看,文本挖掘从根本上解决了包括内容分析在内的手工操作所导致的信度问题。文本挖掘面对同一研究课题,一般采用同一程序和语法对海量文本进行一致性分析,从而从根本上避免了由多人操作或个人长时间操作所导致的分析信度不高的问题。即使在挖掘过程中发现语义解析方面的问题,或挖掘过程中机器学习导致发现必须改变挖掘语法,研究者一般只需要修改语法后对全部文本重新分析,信度不高的问题不易出现。4 结语了解信息分析方法的情报学家都有一个困惑: 信息分析方法可广泛用于决策支持和科学研究,它具有一般社会科学研究方法所不具备的某些方法论优势,但情报学产生至今的数十年时间里,信息分析方法养在情报学深闺不为外人知晓。以内容分析为例,尽管早在1971 年内容分析方法就被多伊奇等人评为20 世纪世界社会科学62 项重大进展之一,但它在社会科学中的应用始终难入主流,甚至鲜为人知。除了奈斯比特集团通过媒体对于美国社会“大趋势”的探索性研究和图书情报部门的少量应用外,一般社会科学家很少采用内容分析的方法,甚至根本不知晓这种方法。造成这一现象的原因是什么? 我们认为,除了情报学对本领域的理论与方法缺乏有效的宣传之外,信息分析方法本身的效率问题是制约其大规模进入应用领域的关键因素。随着计算机技术的日渐成熟,高效率的信息分析方法得到迅速发展,文本挖掘它作为一种优秀的社会科学研究方法将有更好的发展。 |
[返回] |