人文社会科学研究中文本挖掘技术应用进展 |
来源:一起赢论文网 日期:2015-08-25 浏览数:3751 【 字体: 大 中 小 大 中 小 大 中 小 】 |
〔摘要〕指出作为处理海量数据的有效工具,文本挖掘技术近年来在人文社科领域得到广泛重视。概述文本挖掘的相关技术和研究现状,介绍信息抽取、文本分类、文本聚类、关联规则与模式发现等常用的文本挖掘方法在人文社科研究中的具体应用,以拓展文本挖掘的应用领域,并为人文社科研究的方法创新提供新的思路。〔关键词〕文本挖掘人文社科技术应用1 文本挖掘概述文本挖掘( text mining) 是一个跨学科的交叉研究领域,涉及到数据挖掘、机器学习、统计学、自然语言处理、可视化技术、数据库技术等多个学科领域的知识和技术。目前关于文本挖掘并没有统一的定义,关于文本挖掘的名称亦有“文本数据挖掘( text data mining) ”或“文本知识发现( knowledge discovery in text) ”等不同说法。一个比较广泛使用的定义是: 文本挖掘是指为了发现知识,从文本数据中抽取隐含的、以前未知的、潜在有用的模式的过程[1]。它是一个分析文本数据,抽取文本信息,进而发现文本知识的过程。一个完整的文本挖掘过程一般包括预处理、模式挖掘、模式评价等多个步骤,其中包含了多种文本处理与挖掘技术,如数据预处理技术中的分词、特征表示、特征提取技术,挖掘分析技术中的文本结构分析、文本摘要、文本分类、文本聚类、关联规则、分布分析与趋势预测等技术以及信息展示中的可视化技术等。文本挖掘技术拓展了现有的数据挖掘技术,把挖掘的对象从结构化的数值数据扩展到非结构化的文本数据,因此可以帮助我们从海量的文本数据中发现新的模式、模型、规则、趋势等知识,目前在很多领域得到了广泛应用。文献计量的结果表明,近年来国际上文本挖掘的研究论文呈迅猛上升势头。以“text mining”为主题词在Web of Knowledge( WoK) 中检索可得与文本挖掘相关的论文3 049 篇( 截至2010 年) ,且呈逐年上升的趋势( 见图1) 。从WoK 学科统计来看,目前文本挖掘技术的研究主要集中于计算机科学、计算生物学、数学、医药信息学、生物化学与分子化学、信息科学、医学等自然科学领域,论文总数占文献总量的82%。相比而言,人文社会科学领域的论文则较少,两者之和为18%,其中人文科学仅为1%( 见图2) 。由于互联网时代学术资源生产与传递方式的变化,以新的方法和技术从海量文本中发现隐含的知识和模式,成为情报学中最有前景的领域之一。由于人前端技术,信息抽取技术在改善信息检索、辅助知识发现方面在人文社科研究中有着较多的应用。2. 1 改善信息检索传统的信息检索只能通过关键词与文档的匹配返回与用户需求相关的文档,而信息抽取则可以帮助用户直接定位所需的信息,无需阅读文档的全部内容。由于在处理海量数据时具有出色表现,信息抽取在多个人文社科领域得到了应用。在古典文学研究领域,德国莱比锡大学承担的eAQUA 项目[5]从古典文献资料( 公元前3000 年- 公元600 年) 中抽取特定领域的知识,并通过eAQUA 门户免费提供这些知识。在文献[6]中,英国伦敦国王学院的Matteo( 2010) 介绍了一个信息抽取在古典文学中的应用研究项目,该项目旨在对当代关于古希腊和拉丁文学作品进行研究的二手文献进行实体抽取,并提供与原始文献之间的关联,从而提供更高级的信息展示和检索功能。在社会学领域,英国联合信息系统委员会( JISC) 资助的ASSERT[7]项目综合利用信息抽取、文本聚类等技术提供了一个自动生成文献综述的系统。信息抽取技术与信息检索技术互相融合渗透,为人文社科领域海量信息资源的获取提供了极大的便利。2. 2 辅助知识发现除了在精确信息检索中的应用,信息抽取在辅助知识发现中同样有着广泛的应用。在文学研究中,信息抽取技术与社会网络分析相结合被用来对文学作品中人物的社会网络关系进行自动分析。Elson 等( 2010年) [8]对60 部19 世纪的英国小说和期刊进行了社会网络关系挖掘。通过识别由引号标记的人物对话,然后指派给特定角色,构建了小说中人物的社会网络关系,并研究了抽取的人物的社会网络特点、社会网络之间的关系以及社会网络与小说背景和特征的关系。文献[9 - 10]则研究了如何从文学作品中自动抽取人物社会网络关系的方法。在历史学研究中,信息抽取可以抽取相应的历史文本中的地名、人名等特定信息,通过信息可视化发现历史事件随时间和空间的演变规律。相关项目有英国艺术与人文研究委员会( AHRC)资助的Hestia 项目[11]、美国国家人文基金( NEH) 资助的北德州大学的历史领域文本挖掘与可视化应用项目[12]等。在经济学研究中,信息抽取可以用来自动抽取相关经济体的属性数据和关系数据。丁堃[13]以我国31 个省、市、自治区的区域经济发展为研究对象,以各区域《政府工作报告》为数据源,通过抽取各区域经济的属性数据和区域经济间相互引用的数据,对区域__经济的聚合状况和相互关系进行了研究。在法学研究中,信息抽取帮助对法律案件进行论据的抽取以辅助案情的分析[14],用于识别犯罪网络[15]。在政治人物研究中,利用词汇集中度等信息抽取方法可以识别哪些是参议院的重要成员[16]。在社会学研究中,信息抽取可以分析会议记录并抽取关键决策要素[17]。可以看出,作为文本挖掘技术中关键性的基础技术之一,信息抽取在人文社科研究中已经发挥了巨大的作用。在知识发现中,信息抽取主要是作为一种辅助技术,通常需与社会网络分析、聚类分析、可视化等方法相结合,以发现文本中隐含的深层知识。从这一点来看,文本挖掘的精度很大程度上取决于信息抽取技术的发展。3 文本分类应用文本分类是指利用计算机自动将一篇文档归入预先定义的几个类别中的一个或几个的过程。文本分类一般包括了文本的表达、特征选择、分类器的选择与训练、分类结果的评价与反馈等过程。由于分类模型的训练需要通过人工标注等方式给出类标签,因此文本分类是典型的有监督( supervised) 机器学习应用。在涉及海量数据处理的领域如搜索引擎、数字图书馆、档案管理等,文本分类有着广泛的应用。在人文社科研究中,文本分类除了基本的应用( 如按主题对文档进行分类外) ,还有着更广阔的应用前景。这是因为很多问题如作者归属、文本过滤、情感判断、话题跟踪等都可以转化为基本的分类问题。根据文档的不同特征,文本可以按照基于主题、情感、风格等多种方式进行分类,这些分类任务各自都有着不同的用途。3. 1 基于主题的分类基于主题的分类又叫基于内容的分类,可以对文档按主题进行自动归类,是研究较多的一类分类问题。在文学研究中,通过对图书、音乐和电影的评论进行分类可以探究相关作品对读者的影响,通过反馈进一步促进文学创作和研究的发展。Hu Xiao 等( 2006年) [18]构建了一个评论挖掘系统,对图书、音乐和电影的评论进行了类别的自动分类和自动评级,并探究了书评和影评以及虚构与非虚构类书籍评论的区别。在教育学研究中,基于主题的文本分类被用来对英语阅读选篇进行自动选择[19]。在法学研究中,通过文本分类可以对法律案情文本进行自动分流,减轻工作人员的负担[2基于情感的分类基于情感的分类,又叫情感计算、情感分析、观点挖掘或文本意见挖掘等。情感的分类可分为两个层次: 一个层次主要提供关于一个对象、一个话题或事件的看法的总体概况,不能发现观点的具体细节; 另一个层次是基于特征的观点挖掘和比较语句与关系挖掘,它深入到语句层次,识别特定观点针对的对象和属性。自动的情感分析在人文社会科学研究中应用非常广泛。通过对大规模的文本进行情感分析,可以发现隐含在其中的观点,而无需阅读全文。目前情感分析在社会调查、政党立场评价、网络舆情分析等领域得到了广泛的应用。Pieri( 2008 年) [21]主持了一个由JISC资助的社会科学项目。该项目旨在调查国家报纸上人们关于议会提出的National Identity Scheme 计划的争论,通过挖掘报纸上人们对引进这一项目的反对或肯定评论,得出民众对于该项目的主要态度,以辅助决策。Benoit( 2009 年) [22]、Knig( 2010 年) [23]等则探究了观点挖掘方法在政党立场、意识形态分析中的应用。3. 3 基于风格的分类基于风格的分类不同于基于主题和情感的分类。基于主题的分类实质上是在内容上的分类,也就是在词汇、句子乃至整个篇章所传达的主要思想上的分类。而基于风格的分类是在形式上的分类,也就是文章的语言特色上的分类。文章风格分析主要是利用计算机辅助的技术对作者在用词、句式等方面的特点进行定量统计分析。文章风格的分析有多种用途,最重要的一类应用是对作者归属( authorship attribution) 的研究。作者归属指通过对文章风格特征的分析确定身份不明的作品的作者。通过文章风格的统计分析进行作者归属的研究是基于这样的假设,即每个作者的风格都有某些无法被有意篡改的独特特征,风格分析的目的正是识别一个作者区别于另一个作者的特征[24]。作者归属在确定年代久远的古典文学作品的作者、判定匿名邮件的作者身份以辅助案件的破获方面很有价值。张运良等( 2009 年) [25]利用分类器研究了红楼梦的作者问题。年洪东等( 2010 年) [26]对现当代文学作品的作者身份识别进行了研究。日本同志社大学的金明哲利用文本作者身份识别方法帮助日本警视厅侦破了一起故意杀人案件。金明哲通过文章作者身份识别的方法判定作为线索的信件均为嫌疑人伪造,最终破获了这起悬而未决的案件。除了对作者的身份进行识别外,基于风格的分类 |
[返回] |