欢迎访问一起赢论文辅导网
计算机论文
当前位置:首页 > 计算机论文
文本挖掘工具述评
来源:一起赢论文网     日期:2015-08-27     浏览数:4012     【 字体:

 可见,四款开源工具都有自己固定的格式要求,需要针对采集到的数据做格式化处理虽然Weka 支持常见的CSV 格式,但是在进行后期分析时ARFF 格式的文档效果更好,一般会使用其自带工具将CSV 转换为ARFFWeka 不支持txt 格式的文档,需要使用者用另外的工具或者自己编写代码实现格式转换LIBSVM 使用数据格式为: label > < index1 : value1 > < index2 : value2,相关帮助文档里提供了格式转换函数write4libsvm( ) Lingpipe Rost CM 都支持Text 文档LIBSVM 的数据输出格式需要专用的工具才能打开查看,难以集成到其他应用其他三个开源工具的数据输出格式更易于扩展使用2 2 功能模块功能模块是工具开发时的重中之重,但功能最全的并非就是最好的,因为全面经常会导致浅显,而不够深入不够专业的分析结果是使用人员所不愿见到的应该根据实际情况,针对性地选择最合适的工具来完成分析工作,这样可达到事半功倍的效果因此,工具的功能模块是否符合自己的要求,通常直接左右着使用者的挑选意愿笔者对四款开源的文本挖掘工具从文本预处理操作步骤文本分类和回归文本聚类和关联规则的各种常见算法以及能否访问数据库模型评估和二次开发接口等方面进行了较为详细的比较文本预处理是文本挖掘过程中至关重要的一步,它直接影响到分类聚类关联规则等后期工作的效果其中文本分词去停用词词频分析文本特征提取是较为常规的操作,也是文本预处理最核心的内容文本分类是在经过预处理的数据上,选择分类器进行训练评价和反馈结果的过程本文中,笔者仅针对分类器进行比较常见的分类算法有TF-IDF 分类Nave Bayes 分类Knn 分类决策树分类神经网络分类和支持向量分类机( SVM) 19 20分类器不存在优劣,每一组数据都有其适合的分类器,所以在训练分类模型时,需要尝试不同的分类器和不同的参数,以实现模型优化文本聚类包括基于划分的聚类基于层次的聚类基于密度的聚类基于网格和基于模型的聚类基于划分的聚类主要包括K-meansX-meansK-medoid ISODATA,其中X-means K-means 算法的改进基于层次的聚类主要包括Birch ClustererCure ClustererSingle Link ClustererComplete Link Clusterer AverageLink Clusterer基于密度的聚类主要包括DBScan Optics基于网格的聚类主要包括Sting Clusterer Clique ClustererCobweb 属于基于模型的聚类21 223 所列出的聚类算法并没有完全包含上述算法,因为文本聚类作为一个尚未完全成熟的研究领域,每款开源工具实现方式各异,所以笔者只针对四款开源工具聚类算法的并集进行分析讨论回归分析用于确定两种或两种以上变数间相互依赖的定量关系,运用十分广泛一般会将回归分析纳入文本分类的范畴,但是本文为了更清晰地比较每款工具不同回归算法,所以单独拿出来分析比较除了上述的功能以外,工具的适用范围与可扩展性是否支持访问数据库二次开发接口,以及分类聚类训练模型的评估等因素也是在挑选工具时所必须考虑的具体的比较结果23 24如表4 所示:4 文本挖掘典型开源工具功能比较工具属性Weka Lingpipe LIBSVM ROST CM文本预处理噪音消除分词√ √ √拼写检查词性标注去停用词√ √命名实体识别词频分析√ √ √情感分析√ √社会网络和语义网络分析相似性分析支持自定义词库√ √语言辨别√ √特征表示√ √ √特征提取√ √ √ √奇异值分解( SVD) 分类TF-IDF 分类器Nave Bayes √ √Knn √ √决策树神经网络支持向量分类机√ √聚类Single Link Clusterer √ √Complete Link Clusterer √ √Average Link Clusterer K-means √ √X-means DBScan Optics Cobweb √ √关联规则Apriori Tertius FPGrowth FilteredAssociator 回归Logistic Regression √ √Linear Regression Pace Regression SVR( SVM) 字符语言建模访问数据库√ √模型评估二次开发接口2 2 1 文本预处理Rost CM LingPipe 的文本预处理功能都比较完善,但是前者的中文支持更好Weka不支持中文的分词和消噪,需要自己修改程序实现目前文本特征表示模型有向量空间模型布尔模型概率检索模型语言模型等,其中向量空间模型处于主流地位Weka 的过滤器能将ARFF 格式转换为向量空间模型LIBSVM 的前期处理功能相对较弱,只针对数据进行特征表示和特征提取以实现降维2 2 2 文本分类四款开源工具中,Weka 的分类算法最为完善,ROST CM 的强项在于前期的中文预处理,而后面算法都十分简陋LIBSVM 提供了c-SVC v-SVC 两种基于SVM 的分类算法Weka SMO 分类器实现了SVM 分类,同时它也能够调用LIBSVM,但是Weka 只是提供了LIBSVM Wrapper 调用机制,必须安装LIBSVM 后将附带的jar 路径添加到Weka 的启动路径中Weka 的平台下调用LIBSVM,可以非常方便地和其他算法进行同一配置下的比较2 2 3 文本聚类同文本分类一样,Weka 囊括了大部分聚类方式,但是其中一些算法并不适用于自然语言处理相反,由于LingPipe 是专门针对自然语言处理开发的工具,它的算法虽较少,分析结果却相对优秀LIBSVM ROST CM 都不带有文本聚类功能2 2 4 关联规则由于关联规则在文本挖掘领域的发展还不够成熟,参与比较的四款工具只有Weka 带有关联规则的算法实现; Weka 本身主要是用于结构化数值型数据挖掘分析的工具,所以它的关联规则功能对文本,特别是中文文本的支持也是欠佳的2 2 5 回归Weka LingPipe 都把回归分析放在分类器的 jar 包中,Weka 分别实现了线性回归逻辑回归和逐步回归,LingPipe 只有逻辑回归算法LIBSVM 提供了ε?SVR v-SVR 两种基于SVM 的回归算法2 2 6 其他LingPipe 支持字符语言建模医学文献下载/解析/索引数据库文本挖掘Weak LingPipe都支持数据库访问,提升了工具的适用范围四款开源工具中,只有ROST CM 不提供二次开发接口,其余三者均能在相应的开发环境下按需修改Weka 在算法实现上较为优秀,也支持新算法的添加2 3 用户体验用户体验在评估的过程中也占据了重要的位置,本文的用户体验比较指标主要有图形化操作界面命令行操作辅助文档是否齐全和支持多层次分析人员等具体结果如表5 所示:5 文本挖掘典型开源工具用户体验比较工具属性Weka LingPipe LIBSVM ROST CM图形化界面√ √命令行操作√ √辅助文档齐全√ √ √ √支持多层次分析人员可集成于其他应用√ √ √结论易于理解√ √可以看出,Weka 的效果较好,ROST CM 虽然支持图形化界面的操作,但是后期算法较为简陋,所以不支持高层次分析人员,只适合用来做前期的文本处理工具LIBSVM 主要依靠命令行和嵌入其他程序操作,没有图形化界面,使用难度较大,适合专业人士使用LingPipe 的使用主要靠引用工具包,自己编译程序来实现各种挖掘功能前三款开源工具都可以按照自己的需要打包加载到自己的程序里面,比如可以将LIBSVM 加载到Weka 程序里面3 基于文本分类的工具测评为了更深入地了解文本挖掘工具的运作情况和它们在实现相同算法时的差异,笔者结合实际情况,选取了Weka25LingPipe 进行实验测评同时考虑到文本挖掘几个主要的功能模块中分类算法和聚类算法的实现最为成熟,但是文本聚类的分析对机器的性能要求极高,故本文在测试过程中选取了较为经典且两款工具都含有的Nave Bayes 分类器3 1 实验设计由于实验的分类语料和测试语料都是中文,而ROST CM 的中文预处理能力较强,但文本分词结果欠佳,后期文本分类算法也比较简单,同时Weka Ling-Pipe 的中文预处理能力较弱,后期分类算法比较优秀,所以实验采用取长补短的策略,即使用IKAnalyze 先对语料库做分词处理,再用ROST CM 做文本预处理工作,然后针对Weka LingPipe Nave Bayes 分类算法进行比较具体实验步骤安排如下: 网上下载公开的文本测试语料库,实验选取了复旦大学李荣陆提供的中文语料库26; IKAnalyze 对获取到的语料进行分词处理; 对分好词的语料用ROST CM 实现文本预处理,主要包括去停用词进行词频统计和文本特征提取; 处理好的文本一式两份,一份用于LingPipe分类实验,一份经过转换程序转换为Weka 要求的ARFF 格式进行分类实验27 283 2 实验结果分析由于两款工具对测试结果的评价指标不尽相同,__笔者选取了两者的交集,主要对文本分类结果的总体评价每个类别的详细精度以及对分类结果的混合矩阵( Confusion Matrix) 三方面来分析实验结果两款工具文本分类的总体概况如表6 所示:6 Weka LingPipe 文本分类结果的总体比较评价指标Weka LingPipe正确率79 580 6% 99 889 6%错误率20 419 4% 0 110 4%卡巴统计0 775 9 0 998 811 343 182 203 9精确度0 802 0 998 896 247 240 618 1召回率0 796 0 998 896 247 240 618 1文本总数906可以明显看出LingPipe 的正确分类率高出Weka20% ,接近100% ,同时LingPipe 的召回率( recall) 和准确率( precision) 都非常令人满意此外,可以通过其分析结果评估项中的数据计算得出置信度为95%再从两款工具的详细分类精度来进行比较,其中LingPipe TP Rate FP Rate 两项数据工具本身并未直接给出,但是为了方便比较分析,笔者经计算将其罗列出来具体数据如表7 和表8 所示:7 Weka 文本分类的详细精度Class 正确率错误率精确率召回率F-MeasureC1-Art 0 707 0 027 0 761 0 707 0 733C2-Literature 0 606 0 021 0 526 0 606 0 563C3-Education 0 661 0 022 0 672 0 661 0 667C4-Philosophy 0 591 0 01 0 743 0 591 0 658C5-History 0 737 0 033 0 73 0 737 0 734C6-Space 0 899 0 016 0 873 0 899 0 886C7-Energy 0 688 0 006 0 815 0 688 0 746C8-Electronics 0 556 0 001 0 938 0 556 0 698C9-Communication 076 0 008 0 731 0 76 0 745C10-Computer 0899 0 006 0 947 0 899 0 922C11-Mine 0545 0 011 0 643 0 545 0 59C12-Transport 0879 0 038 0 614 0 879 0 723C13-Enviornment 0 949 0 01 0 922 0 949 0 935C14-Agriculture 0 96 0 011 0 914 0 96 0 937Weighted Avg 0 796 0 017 0 802 0 796 0 795由表7 可以看出,Weka C6-SpaceC10-ComputerC13-EnviornmentC14-Agriculture 分类结果较好,笔者比对原数据发现这四类样本数据包含较多的数值型数据和英文,这说明Weka 比较擅长处理数值型数据和英文8 LingPipe 文本分类的详细精度Class 正确率错误率精确度召回率F-MeasureC1-Art 1 0 001 2 0 99 1 0 995 0C2-Literature 1 0 1 1 1C3-Education 1 0 1 1 1C4-Philosophy 1 0 1 1 1C5-History 1 0 1 1 1C6-Space 1 0 1 1 1C7-Energy 1 0 1 1 1C8-Electronics 1 0 1 1 1C9-Communication 1 0 1 1 1C10-Computer 0989 9 0 1 0 989 9 0 994 9C11-Mine 1 0 1 1 1C12-Transport 1 0 1 1 1C13-Enviornment 1 0 1 1 1C14-Agriculture 1 0 1 1 1Weighted Avg 0 999 3 0 1 1 1文本,而对中文的处理结果欠佳8 的数据是非常令人欣喜的,趋近100% 的准确率,但是在处理C10-Computer这个类别时出现了一点误差,比对原数据发现此样本数据的中英文混合比例较大,可以得出Lingpipe 面对两种语言的混合样本时也许会出现偏差最后通过混合矩阵来比较两款工具的分类结果混合矩阵是一个非常直观的展示工具,如果对角线上的数值越大,其余的数值越小,则说明分类结果越好具体如表9 和表10 所示:9 Weka 混合矩阵a b C D e f g h i j k l m n ??classified as70 0 0 0 0 1 7 0 1 20 0 0 0 0 a = C1-Art0 89 0 1 0 1 0 0 0 0 7 0 0 1 b = C10-Computer0 0 18 9 1 2 0 1 0 0 0 2 0 0 c = C11-Mine0 0 1 51 1 0 1 1 1 0 1 1 0 0 d = C12-Transport0 0 1 0 94 1 0 0 0 0 3 0 0 0 e = C13-Enviornment0 0 1 0 1 96 0 0 0 1 1 0 0 0 f = C14-Agriculture2 0 1 2 0 0 20 3 1 3 0 1 0 0 g = C2-Literature2 0 1 10 0 2 1 39 3 0 0 0 0 1 h = C3-Education2 0 0 0 0 1 2 10 26 3 0 0 0 0 i = C4-Philosophy16 0 0 0 1 1 4 1 3 73 0 0 0 0 j = C5-History0 5 0 0 4 0 0 1 0 0 89 0 0 0 k = C6-Space0 0 4 5 0 0 0 0 0 0 1 22 0 0 l = C7-Energy0 0 0 2 0 0 3 1 0 0 0 1 15 5 m = C8-Electronics0 0 1 3 0 0 0 1 0 0 0 0 1 19 n =

[返回]
上一篇: 基于Web文本挖掘的企业口碑情感分类模型研究
下一篇:计算机机箱的电磁脉冲耦合模拟仿真