欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
MBA论文
当前位置:首页 > MBA论文
中澳电子政务词表主题词基于范畴表的转换尝试
来源:一起赢论文网     日期:2015-10-13     浏览数:3243     【 字体:

 图书馆理论与实践2010 5)[关键词] 电子政务;主题词表;互操作;中国;澳大利亚[摘要] 介绍了中国和澳大利亚电子政务词表分类体系转换的试验。阐明了词表转换的现实意义和作用,并介绍了目前关于词表转换的研究成果和方法,以及方法选择的原因,分析了转换结果。[中图分类号] G350[文献标志码] B[文章编号] 10058214201005003804随着21 世纪信息时代的来临,政府办公也逐步走向了信息化,最具代表性的就是电子政务的发展。我国政府在“十五”计划中把电子政务建设作为今后一个时期我国信息化工作的重点,首要的工作就是建立一部比较完备的政务主题词表,可以正确、规范地对政务系统中的各类文献进行分类与管理,在政务系统中将反映文献主题内容的自然语言转换成规范化的主题词和代码。[1]作为电子政务重要组成部分的政务词表,各国均建有不同分类体系的政务词表。与一些发达国家相比,我国电子政务的起步较晚、发展较慢。在学习、借鉴国外电子政务的先进经验与技术的发展目标下,在我国现有的电子政务词表分类体系与国外分类体系之间建立兼容互换关联就显得尤为重要。并在此基础上,可以使不同国家的用户在不熟悉其他国家政务词表分类体系和主题词表的情况下,或者在分类法和主题法不兼容的情况下,用本国的语言和熟悉的政务分类法检索、使用外国的政务网站,享受跨国服务或者实现国家间政务交流。词表互操作研究进展词表互操作是实现词表之间匹配转换的有效方法,所谓互操作,是指不同系统相互调用的功能。具体来说,情报检索语言的互操作是指不同词表、类表之间可以实现兼容与互换,即用某种词表的词汇及其构造的检索式(或标引记录),可以直接适用于或通过交换适用于多个情报检索系统。关于主题语言互操作研究,刘华梅对国外与国内的研究成果进行了总结。[2]国外这方面的研究成果主要有以下个:(1) LCSH/MeSH。实施LCSH Library of CongressSubject Headings,美国国会图书馆标题表) 与MeSHMedical subjectHeadings,医学主题词表) 项目的目的是通过整合这两个受控主题词表,以解决图书馆的在线编目中因采用不同受控词表而产生的不兼容性。它是以MARC21 权威记录格式来实现的,150 字段用来存放源记录中的标题词,增加了750 788 字段,用来存放链接款目,即目标记录中的映射标题词。(2) CAMedCAMed Complementary and AlternativeMedicine) 是一个国际合作项目,是对医学资源的补充和选择。它包括一个集合词表管理系统和跨词表检索系统。在这个模型中,医学领域的种叙词表经过规范化存储在一个词表知识库中。系统的跨词表检索机制允许用户输入一个检索词,可以同时检索到这个知识库中的所有或任何一个词表,以此实现语词检索在知识库的个词表中的直接检索。(3) MACSMACS Multilingual Access to Subject)项目由法国、德国、英国、瑞士的国家图书馆共同完成,其目的是将德语、法语、英语个主题标题表中概念相等的标题词之间建立相等关系的链接,并把这●郑义(南京农业大学,南京223800)中澳电子政务词表主题词基于范畴表的转换尝试[基金项目] 本文系南京农业大学SRT (编号0713A01) 项目成果信息管理与信息学·38·图书馆理论与实践2010 5)种链接关系存储到链接数据库中,使检索用户可以采用自己熟悉的语言检索利用国主题标题表所生成的书目数据,实现图书资源的共享。(4) HEREINHEREIN The European InformationNetwork on Cultural Heritage Policies) 项目是从欧洲关于文化遗产政策的报告中抽词,创建的一部国际语言的叙词表。词表的创建没有直接参照任何已经存在的词表语词或词表结构。首先是分成个小组———西班牙、法国、英国,分别负责建立它们自己语言的叙词表。然后通过比较个小组的语词,确定语词间关系,从而建立种语言的叙词表。词表可以使用户更好地了解文化遗产领域的术语,有助于用户阅读专业报告及进行相关扩展检索。有关国内的词表互操作研究以及国内与国外的词表兼容互操作研究,曾有学者提出了大词表方案和词库方案,具体的成果很少,但许多学者进行了试验。词表转换方法的确定刘华梅在她的硕士论文中提出用两种方法实现《教育主题词表》《社会科学检索词表》到《中国分类主题词表》的互操作,完成教育集成词库的建设。第一种是基于词表结构的自动匹配,第二种是基于字面相似度计算并辅助以同义词表的语词匹配。第一种方法是借助词表之间结构的兼容性,利用3个表中都有的“用、代、属、分、参”等款目参照关系,按参照关系的匹配程度建立前两种表与《中国分类主题词表》的联系。也就是说,这种方法对词表的结构有一定要求,结构越相似,词汇相容性越高,互操作越容易。本实验是对两个范畴表进行转换,词之间并无参照关系,类目数量、收词数量、分类体系等也都有很大差别。很显然,这种方法并不适合本实验。第二种方法是对主题词进行操作,将不同词表中的同义词进行匹配,在计算相似度后,引入同义词表;对没有字面相似性的同义词进行匹配,以提高准确度。这种方法对词表的结构要求不高,主要是对主题词进行相似度计算。计算相似度以机器操作为主,手工操作为辅。自然语言与主题语言进行的互操作,采用的是与以上相类似的方法:一是基于词汇同现信息进行相似度计算;二是计算语词之间的相似度。词汇同现方法能够使用的前提假设是同义词或相关词经常一起出现,这种方法需要建立好关键词与主题词的对应关系,而且需要有大量的词汇对应数据。条件所限,本实验没有现成的词汇对应数据,因此仅采用语词相似度匹配计算的方法。以上几种方法具体应用到本实验,拟以范畴表之间的互操作的方式进行。范畴表结构简单,语词之间没有列出参照关系,处理起来简便快捷。此外,全表匹配转换,计算量大,而且会出现错误匹配。因此,本实验采用细分到一级类之间的对应,个《澳大利亚政务主题词表》(Thesaurus ofAustralianGovemment Subjects,简称《澳表》) 一级类对应个《综合电子政务主题词表》(简称《中表》) 一级类,或者个《中表》一级类对应个《澳表》一级类,这个步骤由人工判断决定。对应好之后再对这些类中的语词进行相似性匹配。这样,不仅省去了不必要的计算,而且提高了匹配正确率。实现不同语种词汇的互操作,必须将词汇统一成一种语言,这就要用到翻译,本实验拟将外文词汇翻译成中文。[3]鉴于将国外的电子政务词表的语词翻译成中文,在保证词义不变的前提下,就很难保证语词形式还像中文电子政务词表主题词那样规范。所以,对中外政务词表的主题词进行匹配转换要采用主题语言之间互操作与自然语言与主题语言互操作相结合的方式。在技术上采用计算字面相似度匹配的方式并辅助以同义词表匹配。字面相似度的计算方法是两个词相同字的个数分别除以两个词所含字的个数,所得结果相加再除以即为这两个词的字面相似度值。用公式表示为“字面相似度[(词与词相同词素的个数/A 词所含词素个数) 词与词相同词素的个数/B 词所含词素个数)] /2”。对于无字面相似性的同义词及其他特殊词汇采用手工判断对应的方式。词表转换过程笔者从英国、加拿大、澳大利亚、新西兰国政府网站上搜集了各自的政务主题词表,这几个国家也都是电子政务发展较早也较好的国家,它们的政务词表比较有代表性。[4]由于以前都是英联邦国家,各国词表具有相似性,遂选取收词量适中的《澳表》进行转换试验。本次试验的素材有《中表》和《澳表》。《中表》作为2004 年度国家科技基础性工作和社会公益研究专项“《电子政务主题词表》编制及应用系统”开发研究中的主要部分,于2005 月编制完成。这是我国第一部按国家标准编制的综合性电子政务主题词表,主要供国家政府部门处理政务信息时使用。它的问世,对我国政务信息管理的规范化与标准化,对我国电子政务信息资源的共建共享起到了积极的信息管理与信息学·39·图书馆理论与实践2010 5)表《中表》语词向《澳表》语词的匹配结果《中表》语词返回的《澳表》语词病虫害Pest management (害虫管理) 0.583333 Pesticides (杀虫剂)0.333333 $0.000000病虫害防治Pest management (害虫管理) 0.450000 Pesticides (杀虫剂)0.266667 $0.000000菜地Vegetables (蔬菜) 0.500000 Farmlands (农田、耕地)0.350000 Pasture (牧场、牧草地) 0.333333草山Weeds (杂草) 0.500000 Pasture (牧场、牧草地) 0.333333$0.000000蛋类加工Eggs (蛋) 0.625000 Food industry (食品工业) 0.250000 Dairyproducts (乳制品、奶类产品) 0.187500豆类作物Crops (庄稼、作物) 0.450000 Grains (谷物) 0.375000 Animalnutrition (动物营养) 0.250000支撑与推进作用。[5]《中表》划分为21 个大类,收录主题词17421 条。《澳表》也称TAGS,是由该国国家信息办公室发起组织的,这一项目被称为整个澳大利亚政府高度概括的主题词表工程。其目的是建一个顶层的主题词表供政府机构使用。《澳表》编辑于2001年,2006 年发布了新版,即为本实验的《澳表》。《澳表》划分为17 个大类,收录主题词1786 条。两表的类目构成如表所示。具体转换过程按照如下的步骤进行:(1) 词表翻译。将《澳表》按主题类目显示的主题词使用“灵格斯”翻译软件按字面涵义翻译成中文。如有一词多义现象,写上全部涵义。将形容词、副词等尽量名词化,以便与中表的名词相对应。(2) 一级类对应。《澳表》共17 个大类1786 个主题词,《中表》共21 个大类,17421 个主题词。两表主题词涵盖面基本相同,但《中表》词表更具有深度,也更详细,因此采用《澳表》向《中表》映射和《中表》向《澳表》映射两种方式对比映射结果。同时为了减少计算量,不采用全表映射匹配,在映射时细分到一级类目上。采用《澳表》类目对应个相关的《中表》类目,如“BI Business and Industry (商业和工业)”对应“09 商业、贸易,04 工业、交通”,“DEDefence andNational Security (国防和国家安全)”对应“16 军事、国防”,“EF Economics and Finance (经济和财政)”对应“08 财政、金融,09 商业、贸易”。反之,《中表》向《澳表》映射方法类似。取以上几类语词进行试验,推此及彼,借以说明情况。(3) 部分试验,检验结果。以农业类为例,《澳表》“AGAgriculture60 个主题词对应《中表》“07 农林、水利”1356 个主题词,将以上两组词输入Access中,分别形成两张表单sheet1 sheet2;使用Visual C编写程序对Access 数据库进行操作,将sheet1 中的每一个词分别与sheet2 中的每一个词进行相似度比较,返回相似度最大的个词与sheet1 中的词对应,返回结果在记事本上,如表2。反之,将sheet2 中的每一个词分别与sheet1 中的每一个词进行相似度比较,返回相似度最大的3个词与sheet2 中的词对应,为《中表》向《澳表》的匹配结果,如表3。表《澳表》与《中表》一级类目构成《澳表》类目《中表》类目AG Agriculture (农业) 01 综合政务BI Business and Industry (商业和工业) 02 经济管理CH Culture and Heritage (文化和遗产) 03 国土资源、能源CS Community and Society (社区和社会) 04 工业、交通DE Defence and National Security (国防和国家安全) 05 信息产业EF Economics and Finance (经济和金融) 06 城乡建设、环境保护EM Employment (就业) 07 农林、水利EN Environment and Nature (环境和自然) 08 财政、金融ET Education and Training (教育和培训) 09 商业、贸易GP Government and Politics (政府和政治) 10 旅游、服务业HS Health and Safety (健康和安全) 11 气象、水文、测绘、地震IC Information and Communications (信息和通讯) 12 对外事务LJ Law and Justice (法律和司法制度) 13 政法、监察PE Persons (人文) 14 科技、教育PR Processes (法律程序) 15 文化、卫生、体育ST Science and Technology (科学和技术) 16 军事、国防TR Transport (交通运输) 17 劳动、人事18 民政、社区19 文秘、行政20 综合党团21 综合用语表《澳表》语词向《中表》语词的匹配结果《澳表》语词返回的《中表》语词Agriculture(农业) 农业1.000000 农业部0.833333 农业税0.833333Agricultural insurance(农业保险)农业0.750000 种植业保险0.675000养殖业保险0.675000Agricultural policy(农业政策)农业政策1.000000 共同农业政策0.833333农业0.750000Eggs(蛋) 禽蛋0.750000 蛋类加工0.625000 $0.000000Fruit(水果) 水果0.700000 水果种植业0.600000水果生产基地0.550000Fur(毛皮) 皮毛1.000000 皮毛加工0.750000 毛茶0.500000信息管理与信息学·40·图书馆理论与实践2010 5)(下转第58 页)(4) 经机器匹配结束后,剩下的不能匹配的词语按照以下顺序进行人工匹配:①跨类匹配。有些词语两表所共有,但分属不相关的类, 如:“Agricultural insurance”(农业保险),《澳表》分在“AGAgriculture”类,《中表》分在“08财政、金融”类。②近似转换。人工判断其同义词或近义词。如:“态度”“合并”“竞争”等一些中性词语。大多在“21 综合用语”中查找,因为在一级类目划分上,《澳表》不设综合政务类。③取其上位类词语匹配。④组配匹配。这种语词数量很少,如:“Marinebiology”(海洋生物学) 对应“海洋”+“生物学”。词表转换结果的测试在经过了以上几步的匹配后,按照完全匹配、相关匹配、上位类匹配、下位类匹配、不匹配几种情况统计匹配结果。[6,7] 完全匹配是指对应的语词完全相同或意思相近。相关匹配是指对应的语词存在相关关系。上位类匹配是指语词与目标语词在词间关系上属于其下位类。下位类匹配与上位类匹配意思相反,即语词与目标语词在词间关系上属于其上位类。不匹配指目标语词不存在以上几种匹配关系的语词与之对应。结语如果将完全匹配、相关匹配、上位类匹配和下位类匹配算作匹配成功的话,《澳表》向《中表》匹配成功率及中表向《澳表》匹配成功率如下表。《澳表》向《中表》匹配平均成功率78.192%;《中表》向《澳表》匹配平均成功率58.592%。前者较高,主要是因为《澳表》词汇数量少。总体来说《澳表》与《中表》词汇相似程度还是比较高的。由此,也可推知其他国家政务词表与中国政务词表的匹配也能够达到这个结果。由于时间仓促,水平有限,本项目还有许多不足和需要改进的地方。在生成的Access 表单中,可增加一个接口,将语词用翻译软件翻译后,自动与《中表》中的词匹配,提高自动化程度,可大大增加转换的效率。另外,本实验只挑选了几个类进行试验,全表匹配尚存在一定难度。这些在理论上是可以实现的,但由于技术所限没有做成。(本项目得到了南京农业大学教授侯汉清老师的指导,在此表示感谢。)[参考文献][1] 田景熙,洪琢.电子政务系统规划与设计[M].北京:人民邮电出版社,2005.2] 刘华梅.基于情报检索语言互操作技术的集成词库构建研究———以教育词库为例[D].南京:南京农业大学,2006.《澳表》语词向《中表》语词的匹配类别总词数完全匹配相关匹配上位类匹配下位类匹配不匹配AG 农业类数量60 35 5 0 13 7百分比100% 58.33% 8.33% 0 21.67% 11.67%ET 教育类数量47 22 5 1 16 3百分比100% 46.81% 10.64% 2.13% 34.04% 6.38%TR 交通运输类数量76 31 16 0 12 17百分比100% 40.79% 21.05% 0 15.79% 22.37%ST 科教类数量114 35 23 2 23 31百分比100% 30.70% 20.18% 1.75% 20.18% 27.19%IC 信息通讯类数量70 19 12 7 3 29百分比100% 27.14% 17.14% 10.00% 4.29% 41.43%《中表》语词向《澳表》语词的匹配类别总词数完全匹配相关匹配上位类匹配下位类匹配不匹配07 农林、水利类数量1283 72 505 3 159 543百分比100% 5.61% 39.36% 0.23% 12.39% 42.32%14 教育类数量351 28 138 2 155 28百分比100% 7.98% 39.32% 0.57% 44.16% 7.98%04 工业、交通类数量631 34 216 5 149 227百分比100% 5.39% 34.23% 0.79% 23.61% 35.97%14 科技类数量1103 33 319 1 90 660百分比100% 2.99% 28.92% 0 8.16% 59.84%05 信息产业类数量1244 24 398 3 61 758百分比100% 1.93% 31.99% 0.24% 4.90% 60.93%《澳表》向《中表》匹配成功率类别AG 农业类ET 教育类TR 交通运输类ST 科教类IC 信息通讯类成功率88.33% 93.62% 77.63% 72.81% 58.57%类别07 农林、水利类14 教育类04 工业、交通类14 科技类05 信息产业类成功率57.68% 92.02% 64.03% 40.16% 39.07%《中表》向《澳表》匹配成功率信息管理与信息学·41·图书馆理论与实践2010 5)[3] 陈志新.中美两国主题词表对应转换的分析[J].情报检索,200322 9):2829.4] 倪静,等.国外电子政务主题词表编制及网络应用的比较分析[J].情报学报,200322 5):565571.5]《电子政务主题词表》编制与应用系统课题组.综合电子政务主题词表(范畴表)[Z].北京:科学技术文献出版社,2005.6] 郑贵宇.我国检索语言国际兼容初探[J].情报学报,200120 4):478482.7] 李晴霞.我国电子政务目前存在的问题[J].现代商业,2007 04X):2627.[作者简介] 郑义(1986-),男,南京农业大学本科生。[收稿日期] 20091110 [责任编辑] 邵晋蓉又曾任提点陕西刑狱,“樽俎岐阳”也可以指这段经历,从而否定了查注,肯定了施注,也合理地解释了诗意。(2) 对全篇写作背景的辨析。《闻洮西捷报》:查注引《宋史·王韶传》,说明此次大捷为熙宁六年王韶光复河州之事。冯应榴指出了查氏解题的错误。冯注:王韶得河州,系熙宁六年事,查氏引以注此诗,误矣。至此诗据《老学庵笔记》,自系即指元丰四年种谔之捷也。[110693) 除纠正旧注之误外,冯应榴还善于补充旧注之疏漏。冯应榴善于使用南宋李焘的《续资治通鉴长编》来补充施、查注的内容。施、查二注常常从宋代国史、《东都事略》、元人所编《宋史》等纪传体史书中取材,而《续资治通鉴长编》作为编年体史书,在冯应榴的运用之下,显示了独有的优越性:① 史之编年与诗之编年对应,能印证作诗背景。如,《和潞公超然台次韵》:冯注: 《续通鉴长编》:熙宁九年八月,判大名府文彦博再任。则先生唱和时,潞公正在大名也。[1651② 当纪传体史书阙载某人的传记,并且施、查等旧注不详时,冯应榴可以从《续通鉴长编》中抽取该人数年的行迹汇合一处,起传记的作用。例如,《送颜复兼寄王巩》题下,冯应榴从《续通鉴长编》熙宁八年、元丰二年、四年、元祐元年、四年、五年、六年、元符元年等条目中抽取王巩的事迹,并说明“以上因巩本传所载甚略,故详采于此。”[1716③ 以《续通鉴长编》中的材料解题。例如,《次韵黄鲁直戏赠》:冯注:《续通鉴长编》:元祐三年五月,诏新除著作郎黄庭坚,仍旧著作佐郎,以赵挺之论其操行邪秽,罪恶尤大,故有是命。右正言刘安世言:挺之历数其恶,以为先帝遏密之初,庭坚在德州外邑,恣行淫秽。若果得实,则名教不齿,若或无有,则虚蒙恶声。望委监司依公体量以闻。按山谷诗以艳体寓意,岂以此耶?[11511 冯应榴以《续通鉴长编》中的材料介绍了苏轼与黄庭坚唱和的背景。结语冯应榴《苏文忠公诗合注》一书汇合了冯之前历代苏诗旧注,通过严谨精审的考证,从文献与史实的角度进行了整理、补充、纠谬等工作,并提出了自己的意见,许多成果皆为后来王文诰《苏文忠诗编注集成》所吸纳,是苏诗注释史上的集大成者。[8][参考文献][1](清) 冯应榴苏轼诗集合注[M上海:上海古籍出版社,2001.2](宋) 苏轼.苏轼文集[C].北京:中华书局,1986829.3](清) 朱鹤龄.李义山诗集注[M// 四库全书第1082 册.上海:上海古籍出版社,200382.4](清) 浦起龙.读杜心解[M].北京:中华书局,19616.5] (清) 赵殿成.王右丞集笺注[M].上海:上海古籍出版社,1998.6] (清) 冯集梧.樊川诗集注[M].上海:上海古籍出版社,19983.7] (清) 沈钦韩.王荆公诗集注[M] // 续修四库全书第1313 册.影印版.上海:上海古籍出版社,1996439.8] (清) 冯浩.玉溪生诗集笺注[M].上海:上海古籍出版社,1998822.[作者简介] 何泽棠(1975-),男,广东乐昌市人,古典文献学博士,华南农业大学人文学院讲师,主要从事中国古典诗歌文献研究;吴晓蔓(1979-),女,江苏南京市人,古典文献学博士,广东工业大学通识教育中心讲师,主要从事中国古典诗歌文献研究。[收稿日期] 20091024 [责任编辑] 张京生(上接第41 页)!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!文献学·58·

[返回]
上一篇:大数据时代乡村旅游发展的时空分异特征
下一篇:我国电子政务发展的动力分析———基于制度创新的思考