WEB文本挖掘概述 |
来源:一起赢论文网 日期:2015-09-24 浏览数:3667 【 字体: 大 中 小 大 中 小 大 中 小 】 |
Web内容挖掘是通过解析网页中HTML或XML等源码的结构,从中抽取有用的信息和知识。比如,我们可以通过主题挖掘的方法,对主题相同的网页进行自动的聚类和分类;或者我们可以通过情感词挖掘的方法,分析网页内容的情感倾向。虽然这些挖掘任务与传统的数据挖掘相似,但是在方法、效率和准确度上却有了很大的进步。通过一些新方法,我们可以处理大量复杂多变的网络数据,例如新闻报道、商品评论、微博发言等。本文主要的挖掘任务既是对Web内容的挖掘。Web结构挖掘是从表征Web结构的超链接(简单链接)中寻找有用的知识。通过Web结构的挖掘,我们可以发掘站点之间或页面之间的关系,从而发现一些重要的站点或网页。Web结构挖掘是搜索引擎采用的一项重要技术。我们也可以发掘具有共同爱好的用户社区。由于传统数据库中关系表格没有链接结构,所以并未实行这些功能,Web结构挖掘是数据挖掘领域新兴的方向,具有重要的研究价值。Web使用挖掘是指从记录每一位用户点击情况的使用日志中,挖掘用户的浏览记录,发现访问模式。对Web使用日志的挖掘,是近几年的研究热点,它可以追踪用户访问网站的趋势,从而分析出用户的兴趣偏好。用于使用日志挖掘的算法有很多,其中比较常见的包括关联规则算法,模糊集聚类算法以及最大频繁访问模式算法。由于互联网上的数据数量庞大,结构复杂,动态多变,我们无法用传统的挖掘方法直接挖掘出网页中的信息。Web挖掘需要对这些非结构化的、实时多变的数据进行处理,将其变成结构化的数据,方便后续的挖掘分析。一般情况下,Web数据挖掘可分为如下三个步骤【29】:(1)信息检索与Web爬取:通过现有的搜索引擎对大量网页文档进行关键字、词、句等等的检索,即为信息检索。通过检索得到的数据并不专业,也没有一定的针对性,因此,如果要对Web数据进行专业而深入的挖掘,需要借助网络爬虫,爬取专业的,具有针对性的数据,这种爬虫爬取数据的方式,即Web爬取。通过信息检索或者Web爬取,我们个性化的定制我们想要的网页信息,但这些信息多基于HTML文档,是非结构化的信息,需要进一步的处理。(2)信息预处理与特征选择:信息预处理是在信息釆集之后对得到的数据进行去噪、排重的过程,去噪即删除网页标签,比如一些HTML标记:<^ABLE></TABLE>等无用的信息。特征提取的概念来自于对多媒体的挖掘,主要用于图形识别。特征提取是对具有代表识别某一对象功能的特征项的选择,通过特征选择,我们可以对数据进行降维,提高挖掘速度[30]。(3)数据挖掘、分析与验证:Web挖掘的最核心的过程就是通过各种数据挖掘算法,如分类、聚类、预测、关联等,发现这些数据中隐含的模式,从而其中的11领士学位论文MASTER'S THESIS成系统过大的计算负荷,而且会影响后续研究的准确性。因为分词和去噪之后,得到的是一个极其稀疏的矩阵,需要通过特征提取将提取出有代表性的,重要的词汇,以降低矩阵的维度。(4)文本向量表示:即釆用向量空间模型对文档进行文本的形式化表示。如果不经过前面的预处理过程,用向量空间模型表示文档,将会得到一个极其稀疏的矩阵,因此预处理和特征提取都是会了更好的表征文本,方便后面的文本挖掘,(5)文本挖掘:文本挖掘也是一种数据挖掘过程,因此,数据挖掘的所有算法它都适用。文本挖掘是在前面文本采集、文本预处理、文本特征选择和向量之后对文本相似性,相关性,倾向性等等,通过分类、聚类、关联规则等方法进行挖掘,得到相应的知识或模式的过程。在情感分类研究中,这一过程,既是对文本的情感倾向性分析。(6)标准评价:对挖掘得到的知识或者模式进行评价,找出符合一定标准的知识或者模式。用于评价标准的算法有很多,比较常用的包括:查全率(Recall)、查准率(Precision)以及F-Score等等。(7)知识展现:将挖掘出来的知识或模式以图形化的界面形式有好地展示给用户。 文難 J->|预处理|~>|特征选择["?I文本挖掘["?I质量评估L_I——A 1 ~——图2-2 Web文本挖掘过程(1) Web文本采集:同前面数据挖掘小信息检索与抓取的过程一样,Web文本采集同样是利用搜索引擎或者网络爬虫技术,将所需的网页信息抓取过来。但Web文本数据的采集,还需要在解析网页中的HTML或XML等结构的基础之上,设置文本内容提取规则,通过正则表达式等方式,提取非结构话文本数据中的文本信息,并建立文本仓库。(2)文本预处理:同样是去噪的操作,但对于文本数据,尤其是中文文本数掘,该过程较为复杂。对于中文文本数据我们需要先进行切词分词,这样有助于帮助计算机发现噪声词;然后在此基础上再采用停用词过滤等方式进行初步的降维去噪、排重处理等等预处理操作。(3)文本特征选择:也可称之为文本特征提取,是对文本数据进一步的降维过程。文本特征选择与图形特征提取,都是希望选择出对识别一段文本或一张图片最有效的特征参数的过程。文本特征选择通过选取对识别某句或某段文本更有效的特征,来降低文本数据的维度。如果将分词之后的所有词都作为特征项,不仅会造12Web文本挖掘概述互联网的迅速发展,使其在短短二十年里拥有了世界上最大规模的公共数据源,它的信息量之大、数据之丰富,使得基于互联网的数据挖掘变得十分有趣。截止到目前,各大数据库系统已经可以准确的实现对互联网数据的录入、查询以及统计、更新等功能,然而,却无法发现这些庞大数据中隐藏的潜在关系,导致了“数据丰富而知识贫乏”(Data Rich and Knowledge Poor),数据挖掘应用而生。数据挖掘借助信息检索,机器学习,数理统计,模式识别以及人工智能等方法,发现其中的知识模式,实现对各种数据的分析预测。Web文本挖掘作为数据挖掘较为年轻的分支,主要用于研究互联网上广泛而又无序的半结构化文本信息,发现其中的隐含知识。 Web内容挖掘 Web结构挖掘 Web使用挖掘i i I i I文 多 u 内超 ~?定本 媒 R 部链 般制挖 体 !_ 结接 模使掘 挖 P 构挖 式用掘 挖掘 追追__ |_J |_J |_^ |_^图2-1 Web数据挖掘的分类10耻学位论文MASTER'S THESISc~^ cr^训练"”?!学习算法"“?测试数据 数掘^」阁2-3基本的学习过程:训练和测试监督学习几乎适用于所冇领域,包括文本和网页处理。常见的监督学习方法即分类的方法包括:决策树、贝叶斯算法、K最近邻算法(KNN)。(2)无监督学习:对于一些类别属性缺失的数据,我们无法直接将其分类,这时候就要用到无监督学习。聚类就是一种典型的无监督学习方法,它根据在数据|丨|发现的描述对象及其关系的信息,将数据分组,处于不同组屮的数据实例彼此>1、同(不相关),处于相同组屮的数据实例彼此相似(相关),也就是使得組丨、⑴的K域性尽可能的大,而组内的相似性也尽可能的大_。0 □〇?O〇0 0 〇 0 O 〇 〇。 O ^^n 3 n ^ 0 ^〇 □ 。〇o 口〇 □口 □□ CjO〇□] □ □口 □图2-4分类和聚类的比较聚类分析与其他将数t:?对象分组的技术相关,例如,聚类可以看作一种分类,它用类(簇)标号创建对象的标记。然而只能从数据中导出这些标号,相比之下,监督学习(分类)使用由类标号已知的对象幵发的模型,对新的、无标记的对象赋予类标号。如图2-4,分类和聚类将同样的一族数掘,分成不同的儿簇数据。典型的聚类爲法有K-均值算法(K-means),基于密度的聚类算法以及基于图的聚类算法等。(3)关联规则和序列模式:关联规则是数据中所蕴"ft的一类重要规律,,甚至可以说是数据库和数据挖掘领域中所发现并被广泛研究的最为重要的模型,常用X4 Y表达,其屮,X和Y的交集为空,即不相关。关联规则强度可以用支持度和置信度来表示。其中,支持度表示规则在给定的数据集N中的频繁程度,支持度(S)见式(2-1);置信度则是确定Y在包念X的事务中出现的频繁程度,置信度(C)14领士学位论文MASTER'S THESIS的度量见式(2-2)。= (2-1)Nc(X —7)=喷 ur) (2-2)o?⑷关联规则挖掘的目标是在数据项目中找到所有的并发关系,即关联。关联规则的经典应用是沃尔玛的购物篮数据分析:奶酪—啤酒,通过分析已有的数据,得到支持度为10%,置信度为80%。这个规则表明10%的客户同时购买奶酪和啤酒,而在所有购买奶酪的人中有80%的人也购买了啤酒。关联规则挖掘并没考虑客户在购买商品时的顺序,而这正是序列模式挖掘所需要考虑的问题。序列模式的一个例子是:5%的客户先买床,再买床垫,最后买枕头。这些商品不是同时被购买的,而是一件一件按顺序购买的。这种模式在web使用挖掘中非常有用,比如用来分析用户在服务器日志中的点击流,此外,语言学领域,这类模式也可以用于从自然语言文本中抽取语言学模型。 |
[返回] |