欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
博士论文
当前位置:首页 > 博士论文
基于 WordNet 的短文本语义网挖掘算法研究
来源:一起赢论文网     日期:2013-08-07     浏览数:4136     【 字体:

摘要:的到来,信息技术的广泛应用和快速普及,数据信息呈爆炸式增长,人们对信息处理技术的需求进一步增强,语义研究特别是语义相似性研究成为前沿和热点课题,不断涌现的科研成果在词义消歧、自动摘要、文本聚类与分类、概念抽取和自然语言处理等方面应用,展现了语义相似性等技术应用广阔发展前景。
  短文本语义相似性计算是语义应用的基础,该技术在文本相关性判断、Web网页检索与分类、文本信息挖掘、QA 问题研究、摘要提取等方面扮演着越来越重要的角色。近几年语义相似性计算技术快速发展,形成了很多语义相似性计算算法,当前语义相似性算法多集中于长文本以及大文档的相似性计算,短文本的相似性计算算法还不多,表达形式尚需进一步完善。开展语义相似性算法研究,改进语义相似性计算方法,提高计算效率和质量,完善语义相似性应用系统,对于提高计算机应用技术水平具有重要意义。
  本文在对概念、短文本等语义相似性相关问题深入研究的基础上,提出了基于本体知识库 WordNet 的语义网概念相似性挖掘算法和短文本语义相似性挖掘算法,并进行了实验验证、分析等工作。
  语义网概念相似性挖掘算法
  1、多语料库信息量参数基于知识库 WordNet 以及词法库 The Brown Corpus,提出了信息内容 IC 计算参数模型IC-CW。IC-CW在考虑概率信息之外,还考虑了概念在WordNet和Brown语义库中的语义信息,与传统 IC 算法比较,更好地反映了概念的语义信息。
  2、概念相似性计算算法基于 IC-CW,本文提出了概念相似性计算方法 SS-CW,与传统算法相比,该算法不需要领域相关知识,并且考虑了概念在知识库中的共享信息、概率信息等,实验表明该算法与人工判断具有较高的一致性。
  3、扩展关系模型挖掘算法以 Nuno 算法为基础,考虑 WordNet 中的上位、下位关系,并且引入部分、整体关系影响因素,综合考虑上位、下位、部分和整体等关系,提出了基于扩展吉林大学博士学位论文II关系的信息量计算方法 IC-ER,实验结果优于 Nuno 等计算方法。
  4、路径和信息量相结合的挖掘算法以传统的语义树路径相似性计算算法为基础,综合考虑概念概率信息量对相似性的影响,本文提出了路径和信息量相结合的词语语义相似性计算方法 SS-PI,实验结果较好。
  二、语义网短文本相似性挖掘算法
  1、基于概念概率信息的短文本语义相似性挖掘算法基于概念信息量参数 IC-CW 和概念相似性计算法 SS-CW,本文提出了短文本语义相似性计算方法 ST-CW。该算法综合考虑了概念的相似性信息和句子的句法信息,其中将主要概念在句子中的顺序信息与句法信息关联,同时算法还采取措施避免录入错误等影响,在 R&B 数据集上进行了实验验证,实验结果验证了算法的有效性。
  2、基于最大值的短文本语义相似性挖掘算法以概念数据集的语义相似性最大值做为主要参考因素,提出了基于最大值的短文本语义相似性计算算法 ST-MAX,该方法以路径、信息量、概念间多种关系为基础,算法简练,计算效率高,实验证明算法可行性和有效性。
  3、资源匹配挖掘算法通过对 RDF 数据集整合的研究,针对当前 RDF 算法缺少系统性和可实用数据集整合工具等问题,在深入研究的基础上,提出了在领域本体指导下,资源属性表象与语义关系相结合驱动匹配的解决方案 SS-RDF。实现了 RDF 数据集图的自动抽取算法;配置了灵活的新资源匹配算法集合包,集合包采用了模糊字符串比较、语义相似性和词关系计算等技术,开发了实用的 RDF 数据集整合系统。知识库 WordNet、词法库 The Brown Corpus 是经过多年实践验证,能够有效表达语义信息的重要数据库之一。
  本文的语义相似性算法研究工作主要基于本体知识库 WordNet、词法库 The Brown Corpus,利用这两个数据库,保障了研究工作所使用基础数据及研究成果的典型性、代表性和可扩展性。同时利用 RG、PS1、PS2 和 Li 等数据集,通过实验验证了本文算法的可行性、有效性。
  关键词:语义网,概念,短文本,语义相似性

目 录

I

目 录

第一章 绪 论 ...........................................1

1.1 研究背景及意义 .................................... 2

1.2 语义相似性研究现状及发展趋势 ...................... 6

1.3 本文的组织结构 ................................... 12

1.4 本文的研究内容及成果 ............................. 12

第二章 短文本语义网相似性挖掘算法基础 ....................17

2.1 语料库 ........................................... 17

2.2 概念语义相似性及参数 ............................. 22

2.3 常用概念语义相似性挖掘算法 ....................... 28

2.4 常用的文本相似性挖掘算法 ......................... 32

2.5 本章小结 ......................................... 35

第三章 概念相似性的挖掘算法 ..............................37

3.1 概念信息内容参数(IC-CW) ........................ 37

3.1.1 信息内容参数算法模型..........................37

3.1.2 算法实现及结果分析............................39

3.2 基于信息参数的概念相似性挖掘算法(SS-CW) ........ 41

3.2.1 信息参数概念相似性挖掘算法....................42

3.2.2 信息参数概念相似性挖掘算法实现................43

3.2.3 实验结果与分析................................43

3.3 基于扩展关系的信息量计算挖掘算法(IC-ER) ........ 45

3.3.1 基于扩展关系的信息量计算挖掘算法模型..........45

3.3.2 基于扩展关系的信息量计算挖掘算法实现..........48

3.3.3 实验结果与分析................................48

3.4 路径和信息量相结合的挖掘算法(SS-PI) ............ 52

3.4.1 路径和信息量相结合的挖掘算法模型..............52

3.4.2 路径和信息量相结合的挖掘算法及实现............53

3.4.3 实验结果与分析................................54

3.5 本章小结 ......................................... 57

第四章 语义相似性挖掘算法 ................................59

4.1 短文本语义相似性计算算法(ST-CW) ................ 59

4.1.1 概念词序相似性计算 CW-SS ......................59

4.1.2 字符串相似度的计算 NSS ........................60

4.1.3 短文本语义距离计算算法 ST-CW 实现..............61

4.1.4 实验结果与分析................................63

4.2 基于最大值的短文本语义相似性计算方法(ST-MAX.... 64

4.2.1 最大值短文本语义相似性算法与实现..............65

4.2.2 实验结果与分析................................66

4.3 资源匹配挖掘算法 ................................. 69

4.3.1 算法模型......................................70

4.3.2 算法及实现....................................73

4.3.3 实验结果分析..................................76

4.4 本章小结 ......................................... 82

第五章 总结及展望 ........................................85

5.1 总结 ............................................. 85

5.2 展望 ............................................. 87

参考文献 .................................................89

 绪 论
  随着信息技术的发展,人们获得信息的渠道越来越多,获得的信息内容越来越丰富。一方面人们通过网络获得信息、查阅资料,更好的工作、学习和生活;另一方面,面对海量的信息,利用搜索工具获取信息,由于命中率不高等原因,需要人工进行干预才能使用。此外,还有好多“垃圾”信息干扰了人们的正常学习和生活,对垃圾信息进行自动识别和阻断,成为当今急需解决的问题。目前,对文本信息分类处理研究工作取得了很多成果。主要技术有统计分类和机器学习等,如向量空间模型、最近 K 邻居、决策树模型、朴素贝叶斯模型、支持向量机和神经网络等。在对文本信息进行初步分类基础上,进一步对文本进行处理的技术就是语义相似性技术。本文重点研究语义相似性问题。
  在科研、生产、生活中,我们所获得的很多信息基于短文(sentence,即句子,通常包含 50-100 个词的文本数据),如文章摘要、电子邮件、QA 问题等。如何妥善处理这些短文本信息,对计算机应用研究提出了新的课题,短文本相似性计算就是有效解决这些问题的重要方法之一。短文本相似性计算是自然语言处理的一个分支,其处理对象为各种形式的短文本语料。单个短文本语料由于长度短,很难挖掘出有效特征和有价值的信息,因此,短文本相似性计算一般都是针对整个短文本语料,从整体文本集合中挖掘出有用的信息。在心理学研究领域中,相似性是感知对象对人的刺激所产生的心理反应。例如,母女相似是人们在感知了母亲以及女儿的神态、身体特征、行为等信息后,在大脑中形成的一种心理反应。但是,这种心理反应仅仅体现了定性比较,没有进行定量的综合分析和表示。在科研、生活和生产实践中,需要从定量高度计算出对象间的相似程度来表示相似性的指标,这个相似性指标称为相似性或相似度。相似性计算的研究是信息检索、数据挖掘、知识管理、人工智能等科学研究领域的基本问题。怎样才能将相似性定量计算转化为可计算化和形式化的过程是心理学和计算机科学需要共同研究的重要内容之一。随着本体研究的深入和本体技术的广泛应用,越来越多的学者把利用本体技术进行相似性研究做为重点研究方向,并将其应用于语义分析中。因此,基于 WordNet[1]等本体库进行语义相似性的应用研究具有非常重要的现实意义。
  1.1 研究背景及意义
  相似与分类是人的思想和语言中最基本的元素[2]。在生产实践中,无论是处理日常事务还是开展科学研究,人们总是将相似的信息进行归类处理,以减少信息的存储量,便于信息处理和利用。心理学和计算机科学一直在开展相似性认识的定性和定量研究。心理学领域研究人类在相似性概念上的基本认知原理,而计算机科学则关心怎样用计算机模拟人的相似性判断行为。
  通过长期的科学研究和实验观察,在心理学领域中,产生了许多相似性理论。主流学者认为,人的相似性认识可以用几何空间模型理论进行分析和表示。七十年代末,非几何模型逐渐成为主流[3],该模型着重研究解释和模拟心理学实验中出现的心理现象。由于科研结果与人的心理感受契合度较高,因此广为人们所接受。但是,相似性理论还存在可计算性较差的不足。
  计算机科学着重研究解决相似性在具体领域中的应用问题。伴随着信息时代的到来,计算机应用技术的快速发展,互联网应用的广泛普及,以及数据信息的爆炸式增长,出现很多丰富的信息资源,例如:文本、图形、Web 服务、XML、声音及视频等,对信息智能化处理需求日益强烈,如何从海量的信息中获取需要的信息,已成为计算机应用科学研究的关键热点和难点课题之一。当前,语义相似性研究在语法层面上,由数据和信息的表达逐步向语用、语义研究并重发展。语法表现了数据和信息的存在性和实体性,语用和语义则表现了对象之间的关系。利用本体理论在语义和知识层面描述以及信息和数据的概念模型研究,为解决该类问题开辟了一种良好途径,涌现出的相似性科研成果,主要应用于信息检索和范例推理、自然语言理解、图像处理等领域。在自然语言研究领域,语义相似性技术主要用于定量分析语义的相似性。例如,研究特定语境下多义词的语义,可以消除多义词在上下文中的岐义[4];利用相似性技术可以检测单词的拼写错误;利用语义相似性技术成功实现动词的中英或英中翻译[6]。在 CBR(ConstentsBitRate,固定采样率的压缩方式)研究方面,相似性技术成为实现系统功能的关键[7]。在图像处理方面,识别和检索图像把相似性做为核心技术之一。相似性技术还可以用于度量人像的相似性[8]、指纹匹配[9]、图片和视频检索[10-11]等。在信息检索方面,相似性技术用于互联网上相似网页的检索[12-13];在生物技术领域,相似性用于 DNA 序列检索[14];此外,语义相似性技术还应用于自动问答、信息过第一章 绪 论3滤、自动文摘、机器翻译、文档自动分类和聚类、Web 服务发现和组合服务匹配计算、论文相似性[15]判断等。
  以上我们讨论了相似性研究产生的背景、应用的范围、研究的意义,下面我们进一步明确什么是相似性。心理学研究认为相似性是存在于两个感知对象之间的一种关系,是在人的大脑中产生的一种心理反应。但是,由于相似性所产生心理反应内在形成机理尚不明确,心理学研究只能通过观察对象的外在表现,描述对象间相似性具有的性质[16],这也是计算机科学和心理学都不能准确给出相似性严格定义的重要原因之一。通常从以下两个方面确定相似性的含义,一是确定相似性与其他相类似关系的区别;二是研究相似性具有的性质。
  与相似性联系最为紧密的关系是相关关系。以汽车、燃油和自行车为例[17]说明他们之间的关系,汽车以燃油为燃料,自行车不需要燃料,汽车与燃油间的相关性比汽车与自行车的关系更为密切,但人们普遍认为汽车与自行车间相似性大于汽车与燃油的相似性。从这个例子中体现出的关系可以看出,相关性和相似性有明确区别,即使汽车与燃油紧密相关,因为它们之间没有共同的特性,人们不会认为二者是相似的。汽车和自行车是交通运输工具,可以载人、载货,可以行驶,一般来讲,人们认为它们更相似的,不难看出,具有共同的特性是相似性存在的重要基础[18]。相关概念轮胎汽油道路离合器相似概念卡车 摩托车自行车 轿车图 1.1
  相似性与相关性概念间关系相关性与相似性也不是互相排斥的关系。Resnik 认为,相似性可以理解为是一种特殊的相关性,即,是一种对象之间基于蕴涵关系的相关性。对象之间的蕴吉林大学博士学位论文4涵关系反映了对象之间的共同特性,所以,具有蕴涵关系的相关性是特殊的相似性[17]。
  1998 年在文献[19]中,Lin 提出了基于信息学(Information-theoretic)具有广泛意义的相似性定义。他认为相似性有如下特性。
  两个对象之间的相似性程度与它们具有的共同点数量有关,共同点越多,则相似性越大;
  二、两个对象的相似性程度与它们的差异程度有着密切关系,差异性越大,则相似性越小;
  三、两个对象之间只具有共同点而没有任何差异点时,则两个对象之间的相似性最大;
  四、两个对象之间只具有差异点而没有任何共同点时,则两个对象之间的相似性最小。
  Lin 研究得出的结论表明:两个对象之间具有共同点是相似性存在的根本,两个对象如果没有任何共同点,也就没有相似性;两个对象之间具有的差异性是相似性的补充,差异性直接影响着相似性的大小。
  随着信息技术的快速发展,人们对信息处理技术及信息系统的依赖性也越来越大,对信息系统的智能化和知识化需求也日益明显。使得信息系统对信息和数据的表示不能只是停留在语法层面,更要同时注重研究语义和语用层面的表达。语法层面仅仅给出了信息和数据所具有的实体性和存在性,语义和语用层面则需要从它们所扮演的角色和之间的关系等方面进行表达。本体模型作为一种在语义和知识层面上进行描述信息和数据的概念模型,为研究解决该类问题提供了一种重要途径。
  本体(Ontology)是源于哲学领域的一个概念[20]。本体是对客观存在的一个系统的解释和说明,本体关心的是客观现实的抽象本质[21]。在人工智能领域和知识工程研究领域,本体被定义为“构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则”。Gruber[22]给出了本体的一个精简的定义,即“本体是概念模型的明确规范说明”。自从本体被提出以来,这一概念引起了众多学者的关注,并在众多领域得到了广泛应用,例如计算机、生物、医学、农业、化学、历史、军事等领域。在计算机科学领域,本体被广泛应用于知识工程、信息检索、信息过滤、数字图书馆、自然语言处理、数据集成、第一章 绪 论5语义 Web、人工智能、语义网、软件工程、电子政务等众多方面,并取得了较为显著效果。为了满足科研和生产实践的需要,现已开发出了很多通用的本体库系统(如,WordNet、DBpedia、Cyc、HowNet、Frame Ontology、Dublin Core 等)和大量的领域本体库系统(如,Biomedical Ontology、Translational MedicineOntology、UMLS Semantic Netword、Enterprise Ontology)[23]。
  本体库系统 WordNet[24]是一种基于认知语言学的英语词典。语言学家、心理学家积极探索现代语言学知识结构和相应的词典结构,Princeton 大学的 GeorgeA.Miller 教授以其主持的知识工程项目为载体,成功研制了联机英语词汇检索系统 WordNet,WordNet 的推广应用为语义相似性研究提供了基础。本体库 WordNet 以同义词集为线索进行组织,以概念的同义词集(Synset)关联为基础,形成了同义词语义网络,该知识库舍弃了传统词典按照词形(Word Form)组织的特点,形成了崭新的词典结构,为语义相似性研究工作提出了崭新的研究方向,同时也提供了基础数据库,有力地支撑了语义相似性计算研究工作。
  利用 WordNet 本体库开展的语义相似性计算研究及取得的成果广泛应用于摘要提取、Web 网页分类、QA 问题、Web 图像识别等领域。在信息检索方面,高效的语义相似性计算方法可以提高计算效率,缩短系统响应时间。在 Web 图像检索方面,短文本语义相似性检索方法可以提高图片检索的精确度。语义相似性计算在基于互联网的计算机应用方面作用日益突出。在文本挖掘方面,语义相似性计算可以从文本数据库中发现新知识,此外,短文本语义相似性计算方法还可以应用于文本摘要提取、文本分类、机器翻译等方面。当前,语义相似性计算已经成为文本相关知识表达,发现相关领域研究规律的重要基础之一。
  短文本语义相似性计算是语义相似性计算的重要研究内容之一[25]。应用短文本语义相似性计算技术,可以有效的提高信息搜索效率和质量,在网页检索及分类[26]、信息挖掘、QA 问题研究以及摘要提取等应用领域具有重要作用。近年来,语义相似性计算技术快速发展,在人工智能、语义学、认知学、心理学和生物信息学等领域得到广泛应用,形成了很多语义相似性计算算法。但是,语义相似性计算算法多集中于长文本以及大文档的相似性计算,短文本的相似性计算算法还不多不丰富,表达形式等还需要进一步完善。短文本语义相似性计算在文本分类、摘要提取[27]、机器翻译等方面得到广泛应用,已经成为发现相关领域知识、相关知识表达的基础。通过开展语义相似性算法研究工作,改进语义相似性计算方法,吉林大学博士学位论文6提高计算效率,开发完善语义相似性应用系统,对于提高计算机应用技术水平具有重要意义。
  语义相似性计算技术应用领域日益广阔,在生物信息学研究方面,对基因本体的概念相似性计算研究,可以进行蛋白质功能单元间的相似性评估;在短文本语义相似性计算中,概念语义相似性及权重起到了基础性、决定性作用;在形势概念相似性计算中语义相似性计算方法取得了较好的结果。
  应用语义相似性计算技术,在检查和修正英语单词方面,可以有效避免拼写错误,文献[5]详细描述了语义相似性方法有效性的验证过程;科学的短文本语义相似性计算方法,可以把自然(非结构化)语言应用于代理知识库,从而简化了代理知识库。语义相似性计算技术应用于信息检索,可以提高语料库(Corpus)中信息与查询目标之间的准确度,提高了检索质量。
  应用短文本相似性计算技术,在网页检索中命名网页查询过程,用网页标题代替文档,可以大幅提高检索效率,文献[12,13]进行了详细论述。
  传统的图像检索一般采用基于关键词的检索方式,该方法不利于问题的求解,通过计算图像周围文本的相似性,可以提高图像检索的准确率[28]。语义相似性计算还可以利用文本数据库,发现新知识。
  语义相似性计算技术的发展,推进了自动文本摘要提取技术进步,有效的改进了提取文本摘要的计算方法,在很大程度上解决信息过载问题,帮助人们快速地获取所需信息。
  应用语义相似性计算技术还可以评价文章的连续性,利用文章连续性判断系统提供科学的评价信息,辅助作者开展文章写作工作,并按照要求(评分标准)进行文章自动评价。
  利用语义相似性计算技术取得的语义关系挖掘技术研究成果,在智能决策系统中应用,能够提高决策信息的准确性。在模式匹配研究中,利用语义相似性技术可以有效解决数据间的语义异质性问题,改进网络服务、数据集成、消息传递及数据库管理等应用系统性能。利用语义相似性计算技术进行论文查重,既避免了误查、漏查,还提高了准确性。
  1.2 语义相似性研究现状及发展趋势
  相似性研究可以追溯到 20 世纪,心理学认为,人的相似性认识可以用几何第一章 绪 论7空间模型描述,七十年代末,非几何模型逐渐成为主流[3],非几何模型重点研究模拟和解释心理学实验中出现的各种心理现象,因为科研结果与人的心理认知符合度较高,普遍被人们接受,但是,相似性理论在具体应用中可计算性较差,无法满足科研和生产实践的需求。
  几何模型利用在空间中的点代表相似性对象,用对象点之间的距离表示对象之间的相似度。1952 年 Osgood 提出了语义微分方法(Semantic Differential)[2],使用一组含义相反的形容词,来标注一个特征空间,在特征空间中确定形容词的坐标,分别用这些形容词在空间中的点度量单词的语义。Osgood 语义分析方法的核心是用空间的点表示对象,用点之间的几何距离度量对象之间的相似性。
  从二十世纪七十年代起,心理学家研究提出了许多非几何相似模型[3],下面简要介绍 Tversky 模型,Tversky 模型把对象的一些无法用数字量化的属性(如,国家和性格等),用定性的方式描述[3]。用集合描述对象的特性,相似性表示对象之间具有的共同性和差异性的函数。相似性不对称理论是 Tversky 模型最显著的特点。在文献[29]中用玩具列车和真实列车的例子来解释相似性的不对称。一般认为玩具列车像真实列车,这是因为玩具列车包含了许多真实列车的特性。然而由于真实列车有更多显著的特性,因此人们会认为玩具列车与真实列车的相似度比真实列车与玩具列车的相似度更大,这就是相似性不对称性。
  在计算机科学研究中,相似性测量起源于对词义的相关性测量,因为相似性是相关性的一种特殊表示形式。传统的语义相关性模型研究方法,可以应用到本体概念的相似性测量中。在计算机科学领域,相似性模型建立在相似性假设基础上,并与特定的应用和知识模型有着紧密关系。根据语义相似性测量模型所应用的计算资源不同,分别基于词典、语料库、语义网、信息学等研究提出了很多相似性模型。随着自然语言处理技术的发展,语义研究,特别是语义相似性技术研究已成为当前热点和前沿课题之一。
  在语义相似性研究中,“语义”是指数据信息的含义,语义相似性是指数据信息所承载的具体事件关系及其意义的表象,是在特定领域中某一具体事件的逻辑或解释的信息化表达。语义相似性应用在不同领域具有不同的含义,如,在信息检索时,语义相似性反映目标文本与用户查询文本在语义上的匹配程度,相似性越高,越能满足用户需要;在信息整合领域,概念间语义相似性是指目标文本之间能够匹配的程度。以“语义”为核心的概念相似性研究成果,成为进一步认吉林大学博士学位论文8识世界、改造世界的有力措施和手段。
  语义相似性是计算机科学研究的重点和热点之一,并且是信息检索研究和自然语言处理的重要组成部分,是人工智能领域和语言学中亟待解决的重点问题之一。尤其是 Internet 技术的高速发展,信息网络上出现了大量自然语言信息,怎样处理这些信息,成为当前计算机科学领域的研究热点。目前,在语义相似性研究方面,从研究对象分,主要有概念(短文本)的语义相似性研究和长文本的语义相似性研究,从计算方法方面看,主要有基于语义树的语义相似性研究、基于图的语义相似性研究。
  在 WordNet 等本体库中,每个概念通过关系相连,整个本体库是由概念和关系组成的一个巨大网络,网络中包含了“is-a”、“part-of”等语义关系,网络构成了一个树状结构,我们也称之为语义树。在通常情况下,计算概念之间的语义相似度非常困难,通常先计算语义距离,然后再转换成语义相似度。
  基于图的语义相似性研究[30]。当前众多学者基于树状结构的语义网,对概念的语义相似性测量进行了大量研究,但是在基于图的语义网中,概念之间的语义相似性测度研究成果却不多。主要原因是基于图的结构中既包含了树状结构,又包含了非树状结构,需要使用不同的算法。Maguitman 提出了基于图的语义相似性测量算法[31],该算法基于图的本体,利用结点表示概念的图,每个结点包含对象代表的文档,一个本体图中既有“is-a”的树状结构,又具有其它类型连接的非树状结构。例如一个有向图 G=(V,E),其中,V 是结点的集合。E 表示连接结点间连接边的集合,为三个子集 T、R 和 S。T 是本体中的树状结构;R 与非层次结构中的“相关”连接相对应;S 与非层次结构中的“符号”连接相对应。把树状本体的语义相似性测量的算法扩展到基于图的语义网时,需要解决两个问题:一是怎样寻找两个概念的共同祖先;二是怎样在基于图的本体中扩展为子树的定义。
  不同的语义相似性计算方法不但依托不同本体库系统,同时也与算法要素等有直接的关系,每个语义相似度算法都是基于一种或几种要素,在语义相似性研究中,摸清语义相似性的主要影响因素是研究工作的重中之重。下面对当前所使用的主要影响要素进行分析,基于本体知识库层次结构语义树中,语义相似性计算的主要影响因素有语义距离、信息概率等。
  在语义树中可以利用测量概念间的语义距离来衡量概念间的语义相似程度,语义相似性与语义距离呈反比关系,当概念间语义相似性比较高时,语义距离比较短;概念间的语义相似性比较低时,语义距离比较长。语义相似性计算算法之一就是首先求出语义距离,然后对语义距离进行数学计算,转化成可以科学表示的数据信息,一般以边作为语义距离。在语义树中可以用测量概念出现的概率来测量概念之间的相似性,基本思想就是把概念间的共享信息作为测量相似性的重要依据,从语义树中发现概念之间的共享信息,从语料库中统计数据共享信息的信息量,综合两者因素,计算概念之间的相似性。基于信息内容的相似性理论,如果概念在语料库中出现的频率越高,则概念越抽象,信息量越小。基于信息内容的语义相似性测量中,概念的信息内容等同于这一概念实例出现的概率,该概率利用概念在 Brown 词典中出现的相对频率来代替的。
  通常语义相似性算法都是基于一种或几种参数,这些参数与概念所包含的语义有直接关系,总的来说,语义相似性计算参数基本分为三大类,即,以边作为参数、以信息内容(IC)作为参数和以关系属性作为参数。
  概念间相似性计算是语义相似性计算的基础,随着对语义相似计算研究的深入,近年来涌现了很多语义相似性计算方法,其中概念相似性计算算法主要有:概念间路径距离算法、概念信息参数(information–based/corpus-based)算法等。
  基于路径距离的概念相似性计算算法理论基础是:当且仅当两个概念在结构层次网络图中存在一条通路时,两个概念具有语义相关性。概念间路径距离的语义相似性计算算法是根据概念在本体库(Ontology)中的上位、下位、同位关系等确定路由路径,通过语义距离计算概念相似性。目前,科研工作者基于 WordNet、“知网”[23]等本体库进行大量的研究工作,取得了很多成果。基于 WordNet 本体库,Agirre&Rigau、Leacock、Chodorow、Rada R.etc 和 Lee J.H.etc 分别考虑概念结点在层次语义树中的深度、节点间的路径长度等因素提出了各有特色的概念语义路径计算方法,并将语义距离转化为概念间的相似性值。
  基于信息内容(IC)的概念相似性计算算法[17],主要把概念的上、下文信息分布概率作为语义相似性计算的依据,算法将本体知识库中每个概念的 IC 值作为语义相似性计算参数,该算法是基于大规模语料库。算法的理论基础是当且仅当两个概念出现在相同的上下文中,概念具有语义相似性。根据两个概念公共祖吉林大学博士学位论文10先节点的最大信息量,Rednik 提出了计算概念间的语义相似性算法。Rednik 的方法主要基于两个概念在知识库(IS-A 关系组织的知识库)中共享语义信息,在知识库中,概念出现的频率愈高,概念含有的语义信息就越少,该算法符合信息理论。Lin 算法的理论基础[25]基于以下判断:一、概念之间的相似性与概念具有的共同特性有关,概念之间的共性越大,概念间的语义相似性越大;二、若两个概念是一致的,则无论概念间共性多大,概念间的相似性值为最大值;三、概念之间的语义相似性与概念间的差异有关,差异越大相似性越小。
  Lin 算法以概念对的最小公共父结点的信息墒为计算参数,信息墒越大相似性越大。
  Jiang和 Conrath提出了语义相似性计算算法,该算法值用语义距离值表示,语义相似性与语义距离成反比关系。
  基于统计和距离的概念语义相似性算法,以概念上下文信息的概率分布作为计算参数,Lillian Lee 先生利用相关熵,P.Browsn 先生利用概念平均信息,提出了相关的概念相似性算法,基于统计定量分析的语义相似性算法能够对概念间的语义相似性进行比较精确和有效的度量。但是该计算算法计算量大,计算方法复杂,依赖于训练语料库,并且数据稀疏、数据噪声等对计算结果影响较大。
  随着对语义相似性计算研究的深入,近年来涌现了很多语义相似性计算方法,总体来说,在文本相似性计算研究方面,很多方法应用于长文本以及文档之间的相似性计算,短文本(句子)的语义相似性计算研究成果相对来说比较少。短文本语义相似性算法主要有向量模型法、语料库法(Corpus-based)、概念信息特征法(feature-based)、综合法等。
  Word Co-occurrence 计算算法是典型的向量模型计算算法,该方法在信息检索(Information Retrieval)等方面应用比较广泛。通常情况下,目标文档与检索请求是相关的,分别将目标文档和检索请求表示成向量的形式(Word Vector),通过对向量进行计算得到相似性值。该方法在文本挖掘、会话代理(ConventionalAgent)等领域的应用形成了模式匹配方法,算法的核心思想是文档拥有的相同概念越多,则相似性越大,在算法实现过程中,由于文档向量的维数非常高,致使句子表示(Sentence Representation)效率不高。
  语 料 库 ( Corpus-based ) 的 典 型 计 算 算 法 主 要 有 Latent SemanticAnalysis(LSA)算法和 Hyperspace Analogues to Language(HAL)算法,下面逐一第一章 绪 论11表述。
  LSA 算法基于文本中概念间联系[32],即语义结构,语义结构隐含在上、下文模式关系中。对概念-文档矩阵(A)进行奇异值分解(SVD)计算,提取最大奇异值的前 k 个概念,利用奇异矢量创建新矩阵,近似表示原文档集的词-文档矩阵。LSA 算法未考虑句子的句法结构(Syntactic,Information)是该算法的主要不足,该算法更适合长文本语义相似性计算。HAL 是基于 Corpus-based 的语义距离计算方法[33],HAL 算法和 LSA 算法比较相似,该算法利用概念间的 Co-occurrence 性质建立语义空间,在这个空间上为每个概念确定节点,空间及节点构造成功后,可以通过空间距离计算语义相似性。如,欧氏、余弦距离的算法等。依托在词集上(Corpus)建立的浮动窗口,创建 HAL语义空间,目标概念共同出现的概率越大,则权重越大。将概念在词集上同时出现的概率转换成 n×n 矩阵,每个概念对应一个行和列,将概念表示成 2n 维的向量,由句子中出现概念的向量连接成句子向量,利用欧氏距离等方法计算句子之间的相似性。
  HAL 算法的不足主要有:一是大量的无用单词进入句子向量,稀释了(Diluted)句子原有含意;二是构造句子向量时(Word-by-Word),概念间的相似性矩阵不能很好的反应句子间的相似性。实验证明该方法不如 LSA 优秀。
  基于特征向量(Feature-based)的方法将句子用预定义的的特征值表示成向量的形式,利用分类器获得句子间的相似性值,算法获得代表句子向量的特征时,要考虑权值影响,算法不适合文本语义相似性计算,特别不适合基于距离的短文本语义相似性计算。
  综合方法的典型算法是 Li 和 STS 算法,该算法综合以上算法特点。Li 将文本表示成向量的形式,按照在知识库 WordNet 中的语义信息将概念表示成向量,对文本向量进行计算。算法没有考虑句法信息影响,也没有采取措施避免单词拼写错误等情况,计算效果不理想。与 Li 算法原理相似,但是考虑影响因素不同,STS 提出语义相似性算法,该算法考虑了概念在语料库中的依存关系。但是,该算法忽略了概念在知识库中的语义信息。随着自然语言处理技术的快速发展和语义相似计算研究的拓展,基于本体的知识库不断丰富,WordNet、Corpus、中国知网等知识库的出现,为语义相似研究奠定了坚实的基础,在对原有基于路径、基于参数、基于特征等语义相似性理论研究完善的基础上,人们不断探索新的语义相似性理论和实现方法,形成的研吉林大学博士学位论文12究成果又进一步促进自然语言处理的研究,商业应用为语义相似性研究工作提供了动力,语义相似研究成果不断涌现。基于图的语义网包含了树状结构和非树状结构,该研究工作具有较高的复杂性,Maguitman 提出了基于图的语义相似性计算算法,本体图中既有“is-a”树状结构,又具有非树状成分。将树状语义网(树状本体)的算法扩展到基于图的语义网时,主要难点是如何寻找两个概念的直接公共节点,以及如何扩展一个特定概念为根的子树的定义。虽然基于图的语义相似性研究拓展了研究思路,但是由于增加了复杂性,研究工作遇到了较多的困难。
  1.3 本文的组织结构
  ,概述语义相似性研究背景、意义、国内外发展现状,短文本语义相似性计算相关的主要计算算法及算法的优势、特点等。
  第二章,介绍语义相似性计算基础语料库,语义相似性参数,常用概念相似性计算算法,常用短文本语义相似性算法等。
  第三章,详细介绍本文提出的信息内容参数、概念语义相似性挖掘算法以及算法的模式、算法的实现方法、算法的实验结果等。
  第四章,详细介绍本文提出的短文本相似挖掘算法、算法模型、实现方法以及实验结果等。
  第五章,全面总结了语义网相似性挖掘技术研究情况,本文提出算法的优势、不足及下一步研究方向。
  1.4 本文的研究内容及成果
  为了适应知识经济时代发展,满足信息处理技术的需要,本文重点围绕语义相似性计算技术进行了研究。语义相似性计算技术广泛应用于摘要提取、Web 网页分类、QA 问题、Web 图像识别等领域。在信息检索方面,高效的语义相似性计算方法可以提高计算效率,缩短系统响应时间。在 Web 图像检索方面,短文本语义相似性的检索方法可以提高图片检索的精确度。在生物信息学研究方面,语义相似性技术可以进行蛋白质功能单元间的相似性评估。在检查和修正英语单词方面,应用语义相似性技术,可以有效避免拼写错误。应用短文本相似性计算技术,第一章 绪 论13在网页检索中命名网页查询过程,用网页标题代替文档,可以大幅提高检索效率。语义相似性计算技术应用推进了自动文本摘要提取技术发展,利用相似性技术可以有效的改进提取文本摘要的计算方法,并且可以在很大程度上解决信息过载问题,辅助人们快速地获取所需信息。应用语义相似性计算技术还可以对文章的连续性进行评价,应用文章连续性判断系统,可以提供有效的评价信息,帮助作者开展文章写作,并进行文章自动评价(按照评分标准)。利用语义相似性计算技术取得的研究成果,在智能决策系统中应用,能够提高决策信息的准确性。语义相似性技术应用于模式匹配,可以有效解决数据间的语义异质性问题,改进网络服务、数据集成、消息传递及数据库管理等应用系统性能。利用语义相似性计算技术进行论文查重,既避免了误查、漏查,还提高了准确性。近年来,语义相似性技术快速发展,在人工智能、语义学、认知学、心理学、生物信息学等领域得到普遍应用,形成了很多语义相似性计算算法。但是,语义相似性计算算法多集中于长文本以及大文档的相似性计算,短文本的相似性计算算法还不多不丰富,表达形式等还需要进一步完善。本文基于本体的知识库,对传统概念相似性、短文本语义相似性等语义相似性相关问题开展了深入的研究,客观的分析了传统语义相似性算法的优势及不足,综合考虑各种影响因素,采用数据挖掘等计算机应用技术,改进了传统计算方法,研究提出了基于知识库 WordNet、Corpus 的信息参数、概念相似性和短文本相似性等语义相似性算法。在算法核心参数的选择、调整参数的设定、系统方法实现等方面,用创新的理念指导研究工作,总结领域研究成果,结合信息量、路径路离、词语及短文本语义相似性计算方法,提出了新的参数模型和计算方法,设计开发了实用系统,在实验的基础上,对新方法进行了验证分析。
  1.4.1 概念相似性挖掘算法
  多语料库信息内容参数(IC-CW)。基于知识库 WordNet 以及词法库 The Brown Corpus,提出了新的 IC 计算模型 IC-CW。IC-CW 在除了考虑概率信息之外,同时考虑了概念在 WordNet 和 Brown语料库信息,与传统 IC 算法比较,更好的反映了概念之间的语义信息含量差别。
  2、基于 IC 的概念相似性挖掘算法(SS-CW)。吉林大学博士学位论文14以 IC-CW 为基础,提出新的语义相似性计算方法 SS-CW,与传统算法不同,该算法不需要大量领域相关知识,SS-CW 充分考虑了概念在知识库中的共享信息、概率信息等,优化了计算算法,使用标准数据集 R&B 进行算法验证实验,实验表明该方法更符合人们基于常识的判断,与传统的算法相比,该算法与人的判断具有更高的一致性。
  3、扩展关系模型概念相似性挖掘算法(IC-ER)。以 Nuno 方法为基础,充分考虑 WordNet 中的上下位关系,同时引入部分整体关系,综合考虑上下位关系、部分整体关系等,对传统方法进行改进,提出了基于扩展关系的信息量计算方法,该方法更全面的反映了概念在语义库中的信息,实验证明该计算方法优于 Nuno 等计算方法。
  4、路径和信息量相结合的概念相似性挖掘算法(SS-PI)。以传统的语义树路径相似度计算方法为基础,考虑概念概率信息量和路径对相似性的影响,提出了路径和信息量相结合的词语语义相似性计算方法,实验表明计算效果较好。
  1.4.2 短文本语义网语义相似性挖掘算法
  基于信息内容的短文本语义相性挖掘算法(ST-CW)。以概念信息参数 IC-CW、概念相似性算法 SS-CW 为基础,提出了短文本语义相似性计算方法 ST-CW。该算法综合考虑了概念相似性信息和句子的句法信息,其中,将主要概念在句子中的顺序信息与句法信息关联,同时算法还采取措施避免打印错误等影响,在 R&B 数据集上进行了实验,实验结果验证了计算模型和算法的有效性。
  2、基于最大值的短文本语义相似度计算方法(ST-MAX)。把概念之间的语义相似性最大值做为主要计算影响因素,提出了一种短文本语义相似性计算方法,该方法以路径、信息量、概念间多种关系为基础,算法简练,计算效率高,实验证明了方法的可行性和有效性。
  3、资源匹配挖掘算法(RDF-CW)。通过对 RDF 数据集整合研究,针对目前 RDF 算法缺少实用数据集整合工具等问题,提出了一种在领域本体指导下,语义关系与资源属性表象相结合的驱动匹第一章 绪 论15配解决方案。研究并实现了 RDF 数据集图的自动抽取工具;配置了灵活的资源匹配算法集合包,其中,算法集合包采用了语义相似性、模糊字符串比较、词关系计算等技术。本文的语义相似性算法均基于本体知识库 WordNet 和 The Brown Corpus 语料库。知识库 WordNet、语料库 The Brown Corpus 是经过多年实践验证,能够有效表达语义信息的重要知识数据库,利用以上两个数据库进行语义相似性研究,保证了基础数据的典型性、代表性和可扩展性。同时在 RG、PS1、PS2 和 Li 数据集上,通过实验验证了算法的可行性和有效性,计算结果明显优于其它方法。

[返回]
上一篇:复杂条件下短波近红外检测技术研究
下一篇:民营企业员工社会责任的战略定位及实施绩效研究