文本挖掘在人文社会科学研究中的典型应用述评 |
来源:一起赢论文网 日期:2015-08-29 浏览数:4034 【 字体: 大 中 小 大 中 小 大 中 小 】 |
调研文本挖掘在人文社会科学领域的应用现况,介绍国际上文本挖掘在这些领域应用的成功案例与经验,展现目前文本挖掘在人文社科领域的最新研究进展,给国内相关研究的开展提供一定的启示文本挖掘的概念最早出现在20 世纪80 年代中期,它继承了自然语言处理和数据挖掘的部分技术与理念,至今已有30 多年的历史。早期,文本挖掘经历了一个曲折而缓慢的起步过程,其科学性一度受到质疑和诟病。近10 年来,随着计算机技术的突飞猛进,这一领域取得了前所未有的进步和发展,逐渐成为一种主流方法论[1]。当前,国际上文本挖掘的主要研究成果集中在自然科学领域,成绩令人瞩目。在人文社会科学领域的应用则相对薄弱,不仅数量上不及自然科学领域的25%,质量上也存在一定差距。在人文社科领域,国外学者及其研究成果是文本挖掘应用与实践的主流; 反观国内,其应用研究在数量和质量上都与国外差距甚大。不过,CNKI 反映的文献增长趋势与国外研究过往类似,说明该领域正越来越多地受到国内相关学者的重视。值得一提的是,就人文社会科学而言,国内外研究的侧重点区别较大。国外的相关研究主要集中于社会科学,目前应用比较成熟的学科包括经济学、管理科学、教育学、行为学、心理学、公共管理学、法学、社会学等; 国内的研究则偏重于文史哲等人文科学,社会科学领域的相关成果不多。与传统思辨方法相比,人文社科研究中运用文本挖掘方法的优势有: ①文本挖掘可以针对海量的文本进行整体趋势挖掘,具有传统研究中针对单个文本进行解构无法比拟的优势。如通过对海量立法文件的分析,可以发现政治家之间的社会网络关系[2]; 针对文学大文本集,可以实现作品中人物性别特征的挖掘[3 - 4];针对大规模历史档案,可以实现某一历史时代人们对科学、宗教、进步等观点变化的挖掘[5]。②文本挖掘可以辅助文本内容研究,发现一些隐藏的结论。如教育学中,文本挖掘可以用于辅助在线协作平台的建设,帮助学习小组更深入地交流[6 - 7]; 人文作品的自动分类中,通过对分类指示词的研究可以拓展对作品研究的思路,对构成作品风格的特征有更深入的认识。③文本挖掘方法可以帮助解决某些人工难以解决的问题。如通过警方数字档案文本分类自动实现罪犯性格特征发现[8]; 通过分类、聚类的方法可以对文档作者归属进行研究。在这样的背景下,对文本挖掘的典型应用进行述评,引入国外研究的优秀经验,显得尤为重要。特别是,通过观察文本挖掘方法在国际人文社会学科领域的成功应用,可以给国内人文社会科学的发展带来借鉴作用。2 文本挖掘应用中的方法特点文本挖掘方法来源于自然科学,其技术涉及深度在自然科学与人文社科中大致相当,包括特征提取、文本检索、文本分类、文本聚类、关联规则、观点分析、文档摘要等。文本挖掘在人文社科研究中的应用有其不同于自然科学的特性,这主要是由两类学科的研究目标与语料特点所决定的。人文科学方面,除了以直接的科学发现为挖掘目标外,还经常运用文本挖掘方法来进行一些辅助研究。以文学领域的文本分类为例,分类的准确度并不是其目标,构成不同类别的指示词( predictor) 才是探究文学语言模式的关键。此外,在算法的选择和使用上,人文领域的文本有其独特的特征,主要表现在语料的文学性上。因此,将计算机科学中的相关算法应用到该领域时需进行适当的调整。又如在文学研究中,有些停用词( stop words) 、词语的不同形态( stemming 处理)是作品特点的重要表征,因此特征选择需谨慎。社会科学方面,文本挖掘在社会科学中的应用往往由现实世界的需求所致,具体的应用成果都是用来解决现实社会中存在的问题。比如, 2001 年震惊世界的“911”事件引起了犯罪网络可视化的研究热潮; 2005年美国国会爆发的“权利贩卖( influence-peddling) ”丑闻直接导致了政治学中人物关系发现的兴起等。文本挖掘在社会科学领域的应用价值和研究意义很高,部分的领域应用已经比较成熟,比如政党立场分析、人物关系发现、犯罪网络可视化、新闻认同度分析、在线协作学习等,不仅应用的语料资源十分庞大,而且技术发展也非常深入,暗网技术( dark web) 甚至得到了美国政府的重视与关注。文本挖掘案例分类的标准可以有很多,如按学科、技术、典型性、成熟度分类等。由于文本挖掘过程复杂、环节步骤多,很难有一种既全面又精确的分类方法,有时甚至无法界定一种应用更应属于哪一类。本文介绍文本挖掘的典型应用,主要按挖掘层次进行分类,即将文本挖掘应用分为简单的初级挖掘和深层的高级挖掘,区分初级与高级的标准是: 是否发现了新的知识、模式、模型或规则。其中,初级文本挖掘主要是指传统的词频统计与简单文本分析方法,高级文本挖掘包括篇章分析、情感分析、本体构建、人物关系、可视化网络等。3 基于词频统计及简单文本分析的典型案例述评词频统计与分析是一种较为初级的文本挖掘分析方法,它通过统计一定长度的语言材料中每个词出现的次数,使用聚类分析、共词分析、社会网络分析等文本分析方法研究词频统计结果,以描绘词汇规律,发现隐藏在文章中的信息。这种形式的文本挖掘实现难度较低,在国内外应用已经十分广泛,此处列举两个典型代表:3. 1 《红楼梦》作者归属判断作者归属是指通过对文章风格特征的分析来确定文本作品( 尤其是年代久远的古典文学作品) 的作者,最具影响力的研究当属对《红楼梦》一书的作者归属进行的一系列探讨。1980 年6 月,美国威斯康星大学陈炳藻教授在首届国际《红楼梦》研讨会上宣读了一篇《从词汇上的统计论< 红楼梦> 的作者问题》的文章,开创了该领域的先河。陈炳藻教授利用计算机对《红楼梦》前80 回和后40 回的用字进行了测定,从数理统计学的观点出发,推断出前80 回与后40 回的作者均为曹雪芹一人的结论。但随后,复旦大学数学系李贤平[9]教授给出了与之相反的回答。李贤平教授把120 回看成120 个样本,选取了47 个虚词作为特征向量,进行了聚类分析,发现前80 回聚为一类,后40 回聚为一类,得出了红楼梦不是出自一人手笔的结论。这引发了相关研究和探讨的兴起。施建军[10]对李贤平教授运用聚类分析对红楼梦作者进行判断的方法进行了具体剖析,指出了方法的不严谨之处,认为以同一部作品为对象的聚类分析不能够进行作者的判定。他以鲁迅和瞿秋白的18 部作品为例,以131 个常用汉字的使用频率作为两个作家的风格特征向量,进行了聚类分析的实验,得出运用聚类方法判断古典文学作品作者的可信度值得商榷。虽然文本挖掘没有给出《红楼梦》作者是谁的定论,但是它启发了类似研究的开展。在这之后,学者武晓春[11]、年洪东[12]等对其他作家的不同作品也做了大量的研究和实验。3. 2 互联网儿童保护计划随着网络的普及和开放,在线儿童侵犯行为日益猖獗,逐渐引起了英国政府的密切关注。为了抑制恋__童癖的犯罪活动,英国Lancaster 大学启动了Isis 项目。该项目由EPSRC/ESRC 资助[13],旨在为监管社会网站的执法部门开发一个基于社会伦理与道德的监测框架和工具,用以保护上网儿童。近年来在线社会网络使用的快速增长对儿童构成了两大主要威胁: ①恋童癖者试图通过聊天室等社区引诱儿童; ②恋童癖者通过各种途径传播分享虐童视频。目前,该项目组通过计算语言学和基于大规模语料库的自然语言处理手段,识别了不同用户的词汇使用习惯和语言风格,用来鉴别网络社区用户的真实身份、识破伪装成儿童的恋童癖者。对于识别涉及虐童的网络媒介,项目组通过对Gnutella( 一种基于P2P 协议的内容分享平台) 搜索记录和搜索返回值的文本分析与相对频率分析,获得了恋童癖者在网络中搜索相关的非法媒体文件的检索关键词以及这些媒体文件名中包含的特定关键词。在这些关键词的基础上,借助领域专家的协助,可以构建虐童领域的专门术语集[14]。在获得术语集后,进行相应的文件分类,侦查非法文件并将其拦截或屏蔽。通过词频统计和文本分析技术,该项目可以在网络社区中识别恋童癖者以及传播虐童视频的主要成员[15]。一般而言,儿童对其所交谈的对象是成年人还是儿童的判断成功率只有20%,而Isis 项目所开发的软件的识别成功率可达到94%。这个项目的成果有望在不久的将来进入实际应用[16]。4 基于知识发现的文本挖掘案例述评一般情况下,初级的文本挖掘已经可以得出一定的结论,但仍未能触及文本挖掘技术的真正核心。文本挖掘是从文本数据中抽取隐含的、以前未知的、潜在有用的模式的过程,知识发现是其本质与精髓所在。本节将分场景介绍文本挖掘在人文社会科学中的主流应用,包括篇章分析、情感分析、本体构建、人物关系、可视化网络等。4. 1 篇章分析方向所谓篇章分析,就是指利用文本挖掘技术对不同学科、不同领域内的文本资料进行挖掘,从而发现新知识的过程。篇章分析的范围十分广泛,几乎可以在每一个领域内加以运用,包括政治要文分析、案情文档分析、哲学文本分析、文学作品分析、历史资料分析、犯罪记录分析等。4. 1. 1 通过政治文本分析政府行为政治要文包括总统演说、就职演讲、政府大会报告等。因为文本的特殊性,挖掘这些重要文本往往能产生许多有说服力的结论。法国是典型的两头政治( dyarchy) ,总理的就职演讲是其最重要的政治宣言,集中表达了执政者的执政理念与政治诺言。传统认为,在演讲中被赋予较大优先级的公共领域将获得更多的财政预算。法国学者Martial Foucault 和Abel Francois[17]把法国自第五共和国成立( 1958 年) 至2007 年的所有17 届总理的就职演讲与财政预算做了一个基于文本挖掘的关联分析。作者通过基本量化分析以及迭代的方法提取了323 个就职演讲中与公共政策相关的关键词,如“大学”、“电信”、“恐怖主义”等; 再从年度预算数据库中分门别类地获取各个年度的预算金额,将其与先前得到的关键词做相关性分析。研究发现,就职演讲与政府预算没有必然联系,原因包括两头政治下总理对管理部门没有绝对控制权和普通民众的愤世嫉俗。4. 1. 2 案例文档中自动寻找匹配判例英联邦国家多为判例法,当前案件的判决会参照过去的先例,律师需要查阅判决先例为其代理案件进行辩护准备。如今案件范例库越来越大,传统的搜索方法已不能满足专业人士的特定需求。英国伦敦大学的Adam Wyner[18]等人尝试使用文本挖掘的方法实现自动寻找相关先例。通过信息抽取将非结构化的案例结构化,揭示文档的语义特性和关系,分别采用不同的研究思路( 包括证据文本标准化、证据特点识别、证据推理等) 对AraucariaDB、Mochales and Moens、Wyner and Milward 三个语料库进行实验,均获得了一定的识别成功率。MarkChaudhary[19]等人研究了美国1990 年至今的3 000 万份案件观点( caselaw opinion) 和4 000 万份法庭记录( court docket) 。在相似的结构化步骤后,通过结合贝叶斯网络方法、TF - IDF 相似度等方法构建命名实体与关系,分析出了涉案公司的诉讼趋势和分布规律。4. 1. 3 对文章进行情感分析以判别作者情绪文章情感分析是指对文学作品的情感倾向进行机器智能分析,在诗歌、散文等情感倾向较明显的文学体裁中应用广泛。文章情感分析是内容相关的,国内对唐诗宋词的“豪放婉约”进行自动判别的研究有丰富的成果; 国外则更多地分析诗歌、小说等体裁的情感特征。基于No One Remember Acronyms( NORA) 项目提供的工具,Tom Horton 等[20]将19 世纪美国的小说( 包括著名的《汤姆叔叔的小屋》等) 中的每一章按照情感强度标记为高、中、低,然后进行机器学习,再对新的小说文本进行测试; Plaisant 等[21]对美国19 世纪著名女诗人艾米莉·迪金森的书信进行了挖掘,通过文本分类探究其诗歌中色情( erotic) 特征的表现方式,该项研究通过与迪金森研究专家的交互共同完成。Yu Bei[22]利用朴素贝叶斯和支持向量机两种分类模型对迪金森信件中的色情特征和19 世纪美国小说中的情感特征进行了比较研究,认为计算机领域的相关模型和算法运用到文学领域还需要更多的实践经验。4. 2 情感分析方向情感分析,包括观点挖掘、态度分析、倾向性分析、评论挖掘、意见挖掘等一系列针对文本中表达出的人的潜在情感的分析过程,是文本挖掘的一大重要分支,相关的研究可以应用在各种领域,如个性化服务、推荐系统、舆情监督、产品调研等。4. 2. 1 基于新闻的认同度分析英国National IdentityScheme 计划在全国范围内推行电子身份识别系统。该系统为身份鉴定、商务应用、反恐带来诸多便利的同时,引发了人们对隐私、安全等问题的担忧。NCESS( 英国国家数字科学中心) 通过调查报纸新闻上的争论情况,得出了民众对于该项目的主要态度[23]。项目搜集了计划实施前4 个月英国主要报纸上的相关新闻和LexisNexis 中以“UK ID”为关键词的全部文章,筛选确定280 篇高相关的文本作为数据源,涉及报纸的各个版块。项目组根据框架分析思路( 框架分析集合了文本获取、内容标引、搜索词扩展和结果聚类等一系列过程,常被用来分析媒体报道) ,使用Atals. ti 工具不断归纳和迭代完成对所有文章的标引,再通过软件分析出这些报道的关系和模式,进而得出公众认可度。结果表明,民众对于National ID Scheme 的态度是负面的,其主要意见包括: ①不够安全; ②强制的,而非可选; ③可能引发移民问题; ④自由和安全需要更好的平衡等。项目研究结果对英国当局改善National IDScheme 的实施发挥了实际作用[24]。4. 2. 2 文学评论挖掘现在网络中有许多针对人文资源的用户评论,如在线小说、评论网站以及众多的论坛、博客、WiKi 等。这些评论非常具体,不仅包括了评论者的个人观点,也包含了被讨论的作品的重要背景信息和语境信息。因此,文学研究者通过文本挖掘技术分析这些评论可以研究相关文学作品对读者的影响。评论挖掘来自传统的评论分析,是利用机器学习方法进行评论分析的新思路。Hu Xiao 等[25]构建了一个评论挖掘系统,对图书、音乐和电影的评论进行了类别的自动分类和自动评级,并探究了书评和影评以及现实与非现实书籍评论的区别。文章的实验表明,朴素贝叶斯分类模型在该领域有较好的应用前景。此外,他们的另一篇文章又对音乐评论进行了单独的挖掘实验,取得了较理想的分类结果[26]。4. 2. 3 政党立场与意识形态对政党立场和意识形态的研究可以追踪到若干年前。早期,人们通过专家调查法来调查政党立场[27]。近年来,文本分析方法Wordscores[28] 和Wordfish[29] 逐渐流行起来。最近,Thomas Konig 和Bernd Luig[30]等人研究了不同政党立场对立法效果的影响。他们抽取GESTA 数据库( 1983- 1993 年) 中法案文件的关键词,按照关键词所属领域将相关语句划分到相应部门,比如“税收”属于“财政”领域,相应的政党宣言内有关讨论税收的语句都会被归纳到财政部门。作者改进Wordfish 的核心算法,对政党宣言中高度包含关键词的句子进行标引,得到了14 个职能部门的“术语- 文档”矩阵。研究结果显示,FDP( 德国自由民主党) 对“劳工政策”的立场与Laver 和Hunt[31]的专家调查结果基本保持一致,均为偏右,并且额外发现FDP 的立场存在一个变化过程———它在1983 年是中立的,然后才逐渐右倾。课题观察到联合执政的政党间意识形态距离不断缩小,政党执政后期更容易使立法获得通过。4. 3 本体建构方向本体提供一套概念、术语和关系来描述某一领域的结构。除了跨系统知识重用分享的需要,作为语义挖掘实现前提的领域本体构建具有不言而喻的重大意义。传统的本体建设方法依赖于人、耗时耗力、效果不佳,基于文本挖掘进行自动、半自动的本体构建是未来的趋势。4. 3. 1 “国共合作”的历史领域本体中国国家自然科学基金资助的“基于本体的数字图书馆检索模型研究”课题中,董慧等[32 - 34]构建了“国共合作”历史领域本体,开展了基于语义关系的本体推理规则研究和基于描述逻辑的本体检错推理研究,进而对数字图书馆中的人文历史学科资源进行知识组织和知识表现。项目所构建的“国共合作”历史领域本体描述了从“五四”运动开始到连战访问大陆这段历史时期涉及的概念、术语、关系、个体,包括以“国共合作”为轴线涉及的人物、组织、事件、资源等以及政治、经济、文化教育、军事等多学科领域知识。已建的本体库包含了167 个本体类、108 个关系属性、100 个推理属性和13 142 个实例,平均关系复杂度为5( 目前该领域研究的平均关系复杂度为2) 。相对于本体类数量,如此庞大的实例数已达国际先进水平。4. 3. 2 InPho 哲学本体构建美国国家人文基金__ |
[返回] |