欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
经济管理论文
当前位置:首页 > 经济管理论文
文本挖掘在人文社会科学研究中的典型应用述评
来源:一起赢论文网     日期:2015-08-29     浏览数:3897     【 字体:

 调研文本挖掘在人文社会科学领域的应用现况,介绍国际上文本挖掘在这些领域应用的成功案例与经验,展现目前文本挖掘在人文社科领域的最新研究进展,给国内相关研究的开展提供一定的启示文本挖掘的概念最早出现在20 世纪80 年代中期,它继承了自然语言处理和数据挖掘的部分技术与理念,至今已有30 多年的历史早期,文本挖掘经历了一个曲折而缓慢的起步过程,其科学性一度受到质疑和诟病10 年来,随着计算机技术的突飞猛进,这一领域取得了前所未有的进步和发展,逐渐成为一种主流方法论1当前,国际上文本挖掘的主要研究成果集中在自然科学领域,成绩令人瞩目在人文社会科学领域的应用则相对薄弱,不仅数量上不及自然科学领域的25%,质量上也存在一定差距在人文社科领域,国外学者及其研究成果是文本挖掘应用与实践的主流; 反观国内,其应用研究在数量和质量上都与国外差距甚大不过,CNKI 反映的文献增长趋势与国外研究过往类似,说明该领域正越来越多地受到国内相关学者的重视值得一提的是,就人文社会科学而言,国内外研究的侧重点区别较大国外的相关研究主要集中于社会科学,目前应用比较成熟的学科包括经济学管理科学教育学行为学心理学公共管理学法学社会学等; 国内的研究则偏重于文史哲等人文科学,社会科学领域的相关成果不多与传统思辨方法相比,人文社科研究中运用文本挖掘方法的优势有: 文本挖掘可以针对海量的文本进行整体趋势挖掘,具有传统研究中针对单个文本进行解构无法比拟的优势如通过对海量立法文件的分析,可以发现政治家之间的社会网络关系2; 针对文学大文本集,可以实现作品中人物性别特征的挖掘3 4;针对大规模历史档案,可以实现某一历史时代人们对科学宗教进步等观点变化的挖掘5文本挖掘可以辅助文本内容研究,发现一些隐藏的结论如教育学中,文本挖掘可以用于辅助在线协作平台的建设,帮助学习小组更深入地交流6 7; 人文作品的自动分类中,通过对分类指示词的研究可以拓展对作品研究的思路,对构成作品风格的特征有更深入的认识文本挖掘方法可以帮助解决某些人工难以解决的问题如通过警方数字档案文本分类自动实现罪犯性格特征发现8; 通过分类聚类的方法可以对文档作者归属进行研究在这样的背景下,对文本挖掘的典型应用进行述评,引入国外研究的优秀经验,显得尤为重要特别是,通过观察文本挖掘方法在国际人文社会学科领域的成功应用,可以给国内人文社会科学的发展带来借鉴作用2 文本挖掘应用中的方法特点文本挖掘方法来源于自然科学,其技术涉及深度在自然科学与人文社科中大致相当,包括特征提取文本检索文本分类文本聚类关联规则观点分析文档摘要等文本挖掘在人文社科研究中的应用有其不同于自然科学的特性,这主要是由两类学科的研究目标与语料特点所决定的人文科学方面,除了以直接的科学发现为挖掘目标外,还经常运用文本挖掘方法来进行一些辅助研究以文学领域的文本分类为例,分类的准确度并不是其目标,构成不同类别的指示词( predictor) 才是探究文学语言模式的关键此外,在算法的选择和使用上,人文领域的文本有其独特的特征,主要表现在语料的文学性上因此,将计算机科学中的相关算法应用到该领域时需进行适当的调整又如在文学研究中,有些停用词( stop words) 词语的不同形态( stemming 处理)是作品特点的重要表征,因此特征选择需谨慎社会科学方面,文本挖掘在社会科学中的应用往往由现实世界的需求所致,具体的应用成果都是用来解决现实社会中存在的问题比如, 2001 年震惊世界的911事件引起了犯罪网络可视化的研究热潮; 2005年美国国会爆发的权利贩卖( influence-peddling) 丑闻直接导致了政治学中人物关系发现的兴起等文本挖掘在社会科学领域的应用价值和研究意义很高,部分的领域应用已经比较成熟,比如政党立场分析人物关系发现犯罪网络可视化新闻认同度分析在线协作学习等,不仅应用的语料资源十分庞大,而且技术发展也非常深入,暗网技术( dark web) 甚至得到了美国政府的重视与关注文本挖掘案例分类的标准可以有很多,如按学科技术典型性成熟度分类等由于文本挖掘过程复杂环节步骤多,很难有一种既全面又精确的分类方法,有时甚至无法界定一种应用更应属于哪一类本文介绍文本挖掘的典型应用,主要按挖掘层次进行分类,即将文本挖掘应用分为简单的初级挖掘和深层的高级挖掘,区分初级与高级的标准是: 是否发现了新的知识模式模型或规则其中,初级文本挖掘主要是指传统的词频统计与简单文本分析方法,高级文本挖掘包括篇章分析情感分析本体构建人物关系可视化网络等3 基于词频统计及简单文本分析的典型案例述评词频统计与分析是一种较为初级的文本挖掘分析方法,它通过统计一定长度的语言材料中每个词出现的次数,使用聚类分析共词分析社会网络分析等文本分析方法研究词频统计结果,以描绘词汇规律,发现隐藏在文章中的信息这种形式的文本挖掘实现难度较低,在国内外应用已经十分广泛,此处列举两个典型代表:3 1 红楼梦作者归属判断作者归属是指通过对文章风格特征的分析来确定文本作品( 尤其是年代久远的古典文学作品) 的作者,最具影响力的研究当属对红楼梦一书的作者归属进行的一系列探讨1980 6 月,美国威斯康星大学陈炳藻教授在首届国际红楼梦研讨会上宣读了一篇从词汇上的统计论红楼梦的作者问题的文章,开创了该领域的先河陈炳藻教授利用计算机对红楼梦80 回和后40 回的用字进行了测定,从数理统计学的观点出发,推断出前80 回与后40 回的作者均为曹雪芹一人的结论但随后,复旦大学数学系李贤平9教授给出了与之相反的回答李贤平教授把120 回看成120 个样本,选取了47 个虚词作为特征向量,进行了聚类分析,发现前80 回聚为一类,后40 回聚为一类,得出了红楼梦不是出自一人手笔的结论这引发了相关研究和探讨的兴起施建军10对李贤平教授运用聚类分析对红楼梦作者进行判断的方法进行了具体剖析,指出了方法的不严谨之处,认为以同一部作品为对象的聚类分析不能够进行作者的判定他以鲁迅和瞿秋白的18 部作品为例,以131 个常用汉字的使用频率作为两个作家的风格特征向量,进行了聚类分析的实验,得出运用聚类方法判断古典文学作品作者的可信度值得商榷虽然文本挖掘没有给出红楼梦作者是谁的定论,但是它启发了类似研究的开展在这之后,学者武晓春11年洪东12等对其他作家的不同作品也做了大量的研究和实验3 2 互联网儿童保护计划随着网络的普及和开放,在线儿童侵犯行为日益猖獗,逐渐引起了英国政府的密切关注为了抑制恋__童癖的犯罪活动,英国Lancaster 大学启动了Isis 项目该项目由EPSRC/ESRC 资助13,旨在为监管社会网站的执法部门开发一个基于社会伦理与道德的监测框架和工具,用以保护上网儿童近年来在线社会网络使用的快速增长对儿童构成了两大主要威胁: 恋童癖者试图通过聊天室等社区引诱儿童; 恋童癖者通过各种途径传播分享虐童视频目前,该项目组通过计算语言学和基于大规模语料库的自然语言处理手段,识别了不同用户的词汇使用习惯和语言风格,用来鉴别网络社区用户的真实身份识破伪装成儿童的恋童癖者对于识别涉及虐童的网络媒介,项目组通过对Gnutella( 一种基于P2P 协议的内容分享平台) 搜索记录和搜索返回值的文本分析与相对频率分析,获得了恋童癖者在网络中搜索相关的非法媒体文件的检索关键词以及这些媒体文件名中包含的特定关键词在这些关键词的基础上,借助领域专家的协助,可以构建虐童领域的专门术语集14在获得术语集后,进行相应的文件分类,侦查非法文件并将其拦截或屏蔽通过词频统计和文本分析技术,该项目可以在网络社区中识别恋童癖者以及传播虐童视频的主要成员15一般而言,儿童对其所交谈的对象是成年人还是儿童的判断成功率只有20%,而Isis 项目所开发的软件的识别成功率可达到94%这个项目的成果有望在不久的将来进入实际应用164 基于知识发现的文本挖掘案例述评一般情况下,初级的文本挖掘已经可以得出一定的结论,但仍未能触及文本挖掘技术的真正核心文本挖掘是从文本数据中抽取隐含的以前未知的潜在有用的模式的过程,知识发现是其本质与精髓所在本节将分场景介绍文本挖掘在人文社会科学中的主流应用,包括篇章分析情感分析本体构建人物关系可视化网络等4 1 篇章分析方向所谓篇章分析,就是指利用文本挖掘技术对不同学科不同领域内的文本资料进行挖掘,从而发现新知识的过程篇章分析的范围十分广泛,几乎可以在每一个领域内加以运用,包括政治要文分析案情文档分析哲学文本分析文学作品分析历史资料分析犯罪记录分析等4 1 1 通过政治文本分析政府行为政治要文包括总统演说就职演讲政府大会报告等因为文本的特殊性,挖掘这些重要文本往往能产生许多有说服力的结论法国是典型的两头政治( dyarchy) ,总理的就职演讲是其最重要的政治宣言,集中表达了执政者的执政理念与政治诺言传统认为,在演讲中被赋予较大优先级的公共领域将获得更多的财政预算法国学者Martial Foucault Abel Francois17把法国自第五共和国成立( 1958 ) 2007 年的所有17 届总理的就职演讲与财政预算做了一个基于文本挖掘的关联分析作者通过基本量化分析以及迭代的方法提取了323 个就职演讲中与公共政策相关的关键词,如大学”、“电信”、“恐怖主义; 再从年度预算数据库中分门别类地获取各个年度的预算金额,将其与先前得到的关键词做相关性分析研究发现,就职演讲与政府预算没有必然联系,原因包括两头政治下总理对管理部门没有绝对控制权和普通民众的愤世嫉俗4 1 2 案例文档中自动寻找匹配判例英联邦国家多为判例法,当前案件的判决会参照过去的先例,律师需要查阅判决先例为其代理案件进行辩护准备如今案件范例库越来越大,传统的搜索方法已不能满足专业人士的特定需求英国伦敦大学的Adam Wyner18等人尝试使用文本挖掘的方法实现自动寻找相关先例通过信息抽取将非结构化的案例结构化,揭示文档的语义特性和关系,分别采用不同的研究思路( 包括证据文本标准化证据特点识别证据推理等) AraucariaDBMochales and MoensWyner and Milward 三个语料库进行实验,均获得了一定的识别成功率MarkChaudhary19等人研究了美国1990 年至今的3 000 万份案件观点( caselaw opinion) 4 000 万份法庭记录( court docket) 在相似的结构化步骤后,通过结合贝叶斯网络方法TF IDF 相似度等方法构建命名实体与关系,分析出了涉案公司的诉讼趋势和分布规律4 1 3 对文章进行情感分析以判别作者情绪文章情感分析是指对文学作品的情感倾向进行机器智能分析,在诗歌散文等情感倾向较明显的文学体裁中应用广泛文章情感分析是内容相关的,国内对唐诗宋词的豪放婉约进行自动判别的研究有丰富的成果; 国外则更多地分析诗歌小说等体裁的情感特征基于No One Remember Acronyms( NORA) 项目提供的工具,Tom Horton 2019 世纪美国的小说( 包括著名的汤姆叔叔的小屋) 中的每一章按照情感强度标记为高低,然后进行机器学习,再对新的小说文本进行测试; Plaisant 21对美国19 世纪著名女诗人艾米莉·迪金森的书信进行了挖掘,通过文本分类探究其诗歌中色情( erotic) 特征的表现方式,该项研究通过与迪金森研究专家的交互共同完成Yu Bei22利用朴素贝叶斯和支持向量机两种分类模型对迪金森信件中的色情特征和19 世纪美国小说中的情感特征进行了比较研究,认为计算机领域的相关模型和算法运用到文学领域还需要更多的实践经验4 2 情感分析方向情感分析,包括观点挖掘态度分析倾向性分析评论挖掘意见挖掘等一系列针对文本中表达出的人的潜在情感的分析过程,是文本挖掘的一大重要分支,相关的研究可以应用在各种领域,如个性化服务推荐系统舆情监督产品调研等4 2 1 基于新闻的认同度分析英国National IdentityScheme 计划在全国范围内推行电子身份识别系统该系统为身份鉴定商务应用反恐带来诸多便利的同时,引发了人们对隐私安全等问题的担忧NCESS( 英国国家数字科学中心) 通过调查报纸新闻上的争论情况,得出了民众对于该项目的主要态度23项目搜集了计划实施前4 个月英国主要报纸上的相关新闻和LexisNexis 中以UK ID为关键词的全部文章,筛选确定280 篇高相关的文本作为数据源,涉及报纸的各个版块项目组根据框架分析思路( 框架分析集合了文本获取内容标引搜索词扩展和结果聚类等一系列过程,常被用来分析媒体报道) ,使用Atals ti 工具不断归纳和迭代完成对所有文章的标引,再通过软件分析出这些报道的关系和模式,进而得出公众认可度结果表明,民众对于National ID Scheme 的态度是负面的,其主要意见包括: 不够安全; 强制的,而非可选; 可能引发移民问题; 自由和安全需要更好的平衡等项目研究结果对英国当局改善National IDScheme 的实施发挥了实际作用244 2 2 文学评论挖掘现在网络中有许多针对人文资源的用户评论,如在线小说评论网站以及众多的论坛博客WiKi 这些评论非常具体,不仅包括了评论者的个人观点,也包含了被讨论的作品的重要背景信息和语境信息因此,文学研究者通过文本挖掘技术分析这些评论可以研究相关文学作品对读者的影响评论挖掘来自传统的评论分析,是利用机器学习方法进行评论分析的新思路Hu Xiao 25构建了一个评论挖掘系统,对图书音乐和电影的评论进行了类别的自动分类和自动评级,并探究了书评和影评以及现实与非现实书籍评论的区别文章的实验表明,朴素贝叶斯分类模型在该领域有较好的应用前景此外,他们的另一篇文章又对音乐评论进行了单独的挖掘实验,取得了较理想的分类结果264 2 3 政党立场与意识形态对政党立场和意识形态的研究可以追踪到若干年前早期,人们通过专家调查法来调查政党立场27近年来,文本分析方法Wordscores28Wordfish29逐渐流行起来最近,Thomas Konig Bernd Luig30等人研究了不同政党立场对立法效果的影响他们抽取GESTA 数据库( 1983 1993 ) 中法案文件的关键词,按照关键词所属领域将相关语句划分到相应部门,比如税收属于财政领域,相应的政党宣言内有关讨论税收的语句都会被归纳到财政部门作者改进Wordfish 的核心算法,对政党宣言中高度包含关键词的句子进行标引,得到了14 个职能部门的术语文档矩阵研究结果显示,FDP( 德国自由民主党) 劳工政策的立场与Laver Hunt31的专家调查结果基本保持一致,均为偏右,并且额外发现FDP 的立场存在一个变化过程———它在1983 年是中立的,然后才逐渐右倾课题观察到联合执政的政党间意识形态距离不断缩小,政党执政后期更容易使立法获得通过4 3 本体建构方向本体提供一套概念术语和关系来描述某一领域的结构除了跨系统知识重用分享的需要,作为语义挖掘实现前提的领域本体构建具有不言而喻的重大意义传统的本体建设方法依赖于人耗时耗力效果不佳,基于文本挖掘进行自动半自动的本体构建是未来的趋势4 3 1 国共合作的历史领域本体中国国家自然科学基金资助的基于本体的数字图书馆检索模型研究课题中,董慧等32 34构建了国共合作历史领域本体,开展了基于语义关系的本体推理规则研究和基于描述逻辑的本体检错推理研究,进而对数字图书馆中的人文历史学科资源进行知识组织和知识表现项目所构建的国共合作历史领域本体描述了从五四运动开始到连战访问大陆这段历史时期涉及的概念术语关系个体,包括以国共合作为轴线涉及的人物组织事件资源等以及政治经济文化教育军事等多学科领域知识已建的本体库包含了167 个本体类108 个关系属性100 个推理属性和13 142 个实例,平均关系复杂度为5( 目前该领域研究的平均关系复杂度为2) 相对于本体类数量,如此庞大的实例数已达国际先进水平4 3 2 InPho 哲学本体构建美国国家人文基金__

[返回]
上一篇: 2015年国际电子政务研究的主题和趋势
下一篇:人文社会科学研究中文本挖掘技术应用进展