聚类数据挖掘可视化模型方法与技术 - EI期刊论文 - 一起赢论文辅导网--专业代写代发SCI、EI、核心期刊、代写MBA、硕博毕业论文。QQ910330594

欢迎访问一起赢论文辅导网

加入收藏 | 设为主页 | 联系我们

本站动态

联系我们

QQ：3949358033

微信：paperwinner

工作时间：9:00-24:00

成功案例

EI期刊论文

当前位置：首页 > EI期刊论文

聚类数据挖掘可视化模型方法与技术

来源：一起赢论文网日期：2015-03-28 浏览数：4078 【字体：大中小】

摘　要: 在数据资源的开发与利用中, 可视化模型方法与技术是人们关注的热点之一, 可视化方法与技术为人们发现规律、辅助决策、解释现象提供强有力的工具。面向通用数据资源, 研究聚类数据可视化方法与技术, 旨在探索有效的数据处理方法, 满足信息领域对高维数据处理的要求。本文通过对高维数据进行降维处理和可视化映射实现, 建立 K 均值算法的聚类数据挖掘可视化系统模型, 实现中间聚簇结果、聚类中心、收敛准则函数值三类要素的可视化。利用加利福利亚大学欧文分校( U n i v e r s i t yo fC a l i f o r n i aI r v i n e , U C I ) 数据库中的 i r i s 数据集、 w i n e 数据集、s e e d s 数据集对可视化系统模型方法进行全面的测试, 分析结果表明, 实现了对数据集的有效聚类, 能够将中间聚类、聚类中心、收敛准则函数值进行实时有效的可视化表达, 达到了预期效果。

关键词: 平行坐标法; K 均值算法;聚类数据挖掘; 可视化

随着国民经济的发展, 许多领域都出现大量类型各异的数据集合; 同时, 数据处理技术一直保持高速发展。在需求推动和技术保证的前提下, 可视化模型方法成为人们关注的热点。模型方法是人类借助抽象和过滤手段去认识事物、理解事物、描述事物的基本方法 [1 ] 。可视化模型的抽象程度高、规律性特征挖掘清楚、展现能力强, 因而是数据资源管理与利用的有力工具。作为数据资源开发利用的创新成果, 数据挖掘可视化方法与技术作为一个复合概念,由数据挖掘技术与可视化方法结合而生, 数据挖掘可帮助工作人员更快的发现数据领域中的感兴趣的信息或展现出一些新颖的结论 [2 ] ; 可视化技术能够将复杂晦涩的数据直观化、简单化, 两者的结合, 保留数据挖掘技术高效数据处理能力的同时, 可视化技术又可消除数据挖掘的“ 暗箱操作” , 从而催生一种既快速高效又与人脑认知能力相匹配的数据处理技术。

“ 基于平行坐标法的聚类数据挖掘可视化” 这一提法在国内外文献中出现的几率很小, 与之最为相近的研究为基于平行坐标法的数据挖掘可视化, 部分数据挖掘可视化研究中也涉及到平行坐标法的应用, 综合所查阅文献, 以平行坐标法与数据挖掘过程、挖掘算法的结合深度为视角, 平行坐标法在聚类数据挖掘可视化中的应用可分为 2 个层次: 一是直观的聚类分析。这一层次平行坐标法的应用, 原理简单、应用范围有限, 主要集中在数据的可视化、数据挖掘结果的可视化, 不涉及与具体算法的结合。具有代表性的平行坐标可视化工具有: P a r v i s 平行坐标工具、 Xm d v t o o l 可视化工具 [3 ] 。二是面向过程的数据挖掘可视化。平行坐标法在这一层次的应用, 已超越了简单的数据分析, 转而面向过程, 重点在于平行坐标法与具体数据挖掘算法的融合, 旨在实现数据挖掘过程的可视化。目前, 这一层次的研究取得了一定成果, 诸如 K i n gV i s[ 4 ] ,V DM[ 5 ] 等可视化数据挖掘工具及系统。从 K i n gV i s 可视化数据挖掘系统、 V DM 可视化数据挖掘工具的实现效果来看, 界面仅将数据挖掘过程中产生的中间聚簇以可视化图形的方式反馈给用户, 而忽略了算法中其它关键因子的实时反馈。一方面, 会导致关键信息的遗漏; 另一方面, 可视化效果不明显, 形式过于单一。另外, 面对不同的数据集、不同的使用者, 挖掘算法与可视化技术的选择多种多样, 导致挖掘算法与可视化技术的结合呈现多样化。

1 　聚类数据挖掘可视化关键技术的实现

本文数据的可视化主要借助平行坐标法来实现 [6 ] 。图形的可视化操作与分析则需借助软件中集成的相关可视化技术来完成, 比如坐标轴交换技术、颜色比例法、维度约束技术等。

1. 1　平行坐标法M a t l a b 中, 平行坐标系的建立方案如下: 在激活的 A x e s 控件中, 以数据集的维度作为绘图依据,借助 p l o t 命令在坐标系中绘制垂直于 y 坐标轴的直线。这样, 所作直线就与原有坐标系的 x 、y 坐标轴一起, 组成了平行坐标系。平行坐标系绘制完成后, 即可进行折线的绘制工作。数据集在利用平行坐标系进行可视化之前,通常要进行一定的转换, 具体转换通过下列公式来完成:Bi j= DAi j-m i n jm a x j -m i n j式中: Ai j为转化之前的数据; Bi j为转化之后的数据;m a x j 、 m i n j 分别为属性 j 的极大值与极小值; D 为平行坐标系中属性轴的长度, 由工作人员自行设定。图 1 ( b ) 为 I R I S 数据集经转化后在平行坐标系中的显示效果, 对比图 1 ( a ) 可以看出, 折线不再受原始属性值大小的影响, 在平行坐标系中均匀分布, 折线之间的间距合理, 易于观察分析。

1. 2　颜色比例法颜色比例法是平行坐标法的改进, 为解决折线交叉问题而存在, 所以平行坐标系的绘制是基础 [7 ] 。在绘制完成的平行坐标系中, 另需完成两方面的工作:(1 )选取搭配合理、区分鲜明的四种颜色, 利用l i n e 命令对每条坐标轴的各个四分之一等分进行着色, 本程序中, 选取 R 、 G 、Y 、 B 四种颜色, 这样整个平行坐标系就分为四个不同颜色区域, 自下而上分别为红、绿、黄、蓝;(2 )数据转化, 与平行坐标法中数据转化的目的和方法相同, 保证折线均匀分布于坐标系中。之后即可对折线进行分区间、分批次的处理。颜色比例法方案中, 着色的定量性依据为折线与相邻两个属性轴的交点位置分布。在程序实现中, 将坐标轴区间第一坐标轴( 图 1 ( a ) 最左侧坐标轴) 上的交点位置分布分为五种情况, 如表 1 。属性轴区间均由左右两个属性轴构成, A (i , j -1 )即代表折线与第一属性轴( 左侧) 的交点; A (i , j )代表折线与第二属性轴( 右侧) 的交点; D 为属性轴的长度, 用户可自行设定, 本程序中 D =1 0 。程序在对改进后的颜色比例法进行实现时, 每个属性轴区间中折线两端与属性轴的交点位置包含2 0 种子情况。

1. 3　坐标轴交换坐标轴交换的目的是方便工作人员按自己的意愿排列数据属性顺序, 从而达到对数据集进行多角度观察的目的 [8 ] 。不同的数据集属性不同, 为保证软件的通用性, 在坐标轴交换交互对话框的实现上采用动态图形用户界面(g a p h i c a lu s e r i n t e r f a c e , G U I ) 设计,程序根据数据集的属性特征随时调整交互对话框设置, 包括对话框的位置、大小、控件的个数等。

1. 4　视图缩放M a t l a b 本身具备强大的图形、图形处理功能, 对于图形、图形处理中常见的操作, M a t l a b 都有集成, 只需根据需求调用具体指令即可。在视图缩放的实现中, 首先利用 g e t f r a m e 指令获取坐标系中的图形信息, 并在新打开的图形窗口中, 将 c d a t a 数据进行显示, 执行 z o o mo n 指令, 即可实现视图的缩放。1. 5　维度约束维度约束用以凸显工作人员感兴趣的维度, 为保证软件的普遍性和通用性, 同坐标轴交换一样, 采用动态 GU I 设计 [9 ] 。维度约束实现中, 使用 u i c o n -t r o l 指令, 为对话框添加 S t a t i cT e x t 、 P u s h B u t t o n 、C h e c kB o x 等控件。其中的关键在于 C h e c kB o x 控件 V a l u e 这一属性的利用。 V a l u e 分为 0 ,1 两种状态, V a l u e=1 ,C h e c kB o x 控件处于选中状态, 否则为非选中状态。用户操作结束后, 检查 V a l u e =1 这种状态的 C h e c kB o x 控件的所在位置, 即可得知用户的操作意图, 进而将用户感兴趣的属性取出, 实现对数据维度的约束。

2 　 K 均值算法的聚类数据挖掘可视化方法

K 均值算法通常用作其他算法执行之前的数据预处理, 所以研究、改进 K 均值算法, 不但改善了划分方法本身的性能, 还对结合的聚类方法提供了良好的接口 [1 0 ] 。

2. 1　 K 均值算法的数据挖掘可视化流程K 均值算法数据挖掘可视化的具体流程如图 2所示。流程中对各关键因子的处理如下:(1 )算法初始值设置。借助平行坐标法, 将待处理数据集转化成可视化图形, 通过对视图的分析, 工作人员可对数据集的内部结构有一个初步的理解。之后借助交互对话框, 对聚类个数 K 及初始聚类中心进行设置, 从而在一定程度上减小初始值设置的随意性; (2 )借助平行坐标法, 将 K 均值算法每轮运算所得到的中间聚簇以可视化的形式进行实时显示,同时弹出询问窗口, 工作人员对当前聚类结果进行分析后做出选择;(3 )将 K 均值算法每轮运算得到的聚类中心进行实时可视化显示。聚类中心的可视化, 采用图形叠加方案, 即后续绘制的图形不覆盖已有视图。算法的运行过程中, 聚类中心的可视化动态的反映聚类中心的变化。此外, 聚类中心作为各聚簇的均值, 通过观察聚类中心的变化, 同样可对运算过程中各聚簇的分布动态有一个直观了解;(4 )对于收敛准则函数值, 其可视化放在算法运行结束之后。 K 均值算法运行过程中, 将每轮运算得到的收敛准则函数值保存在预定义的数组中。算法运算完毕, 将数组中的数据取出, 并将其转化成一幅可视化图形。通过该图形, 工作人员可快速获知此次运算中算法的收敛速度、迭代次数、算法的收敛节点等信息。

2. 2　聚类数据挖掘可视化过程软件模型图 3 为聚类数据挖掘可视化过程模型软件设计的总体方案, 分为以下四个模块: (1 )工作人员。在聚类数据挖掘可视化中, 工作人员往往是数据挖掘能否成功的关键因素之一。为突出工作人员的主动地位, 将其单独视作一个主体;(2 )交互界面, 包括六个子要素, 分别为维度约束、算法初始值设置、视图缩放、视图保存、交换坐标轴、孤立点计算, 这是软件模型为工作人员提供的交互, 保证工作人员主动性的发挥;(3 )数据处理模块, 该模块是软件的核心。数据处理模块主要包括聚类算法、可视化技术及可视化方法( 平行坐标法) 。数据处理模块的可视化技术包含颜色比例法、坐标轴交换技术、维度约束技术、数据抽象技术等, 保证数据的充分可视化及为工作人员提供足够的视图分析工具;(4 )数据库。用于源数据、中间处理结果、最终结果等数据的存储。软件模型的基本工作流程为: 工作人员通过交互界面发出开始指令( 运用文件打开形式) , 数据库中的相应数据经过一定的预处理后, 存入数据处理模块中预定义的储存空间( 数组、矩阵) , 之后即等待工作人员的指令, 工作人员通过交互界面发出什么样的指令, 可视化技术模块即进行相应操作, 并将处理结果通过交互界面反馈给工作人员。

3 　聚类数据挖掘可视化的实现本节主要从数据预处理、算法的初始值设置、算法数据挖掘过程可视化的实现三个方面对 K 均值算法数据挖掘可视化的实现进行描述。

3. 1　数据的预处理数据的预处理主要完成缺失数据的补充、冗余数据的清除、数据格式转换、数据规范化等。本软件模型中, 主要考虑了孤立点 [1 1 ] 和数据的规范化 [ 1 2两个因素。(1 )孤立点。检测孤立点的目的在于发现孤立点并进行有效处理, 保证大部分数据点的正常运算。孤立点的发现采用基于距离和的思想, 首先计算数据集中每个数据点与其他所有数据点的距离, 并将所有距离相加求和:d = ∑mi =1 ∑nj =1a i , j - a ( i + 1 ) , j式中, d 为数据点的距离和,a i ,j为折线与第一属性轴( 左侧)的数据点, a (i + 1 ) , j为折线与第二属性轴( 右侧) 的数据点。其次, 设定一个阈值, 将每个数据点的距离和同阈值作比较, 若距离和大于阈值, 则认为此数据点为孤立点, 否则为正常数据点。(2 )数据的规范化。数据的规范化主要是完成数据的中心化和标准化, 中心化保证数据集各属性的值具有相同的观察基点, 变换之后各属性的均值为零。标准化保证各属性的变化范围相同。对数据进行中心化处理, 通常是在实际数值的基础上减去相应属性的均值。为避免孤立点的影响, 各属性的均值用中位数代替 [1 3 ] 。

3. 2　 K 均值算法数据挖掘过程可视化的实现K 均值算法的正常运行, 需给定聚类个数 K及初始聚类中心。数据挖掘过程中, 为保证用户快速理解中间挖掘结果, 通常将各聚簇用不同的颜色进行显示, 在颜色方案的制定上, 将主动权交给用户。这样, 算法的初始值设置就包含以下三个方面:聚类个数 K 、聚类中心及聚簇颜色方案。表 3 中列出了 K 均值算法运行过程中所涉及的变量, 对照此表, ( 1 )中间聚簇的可视化。 K 均值算法是一个反复迭代求最优的过程, 每轮运算都会产生一组满足初始条件设置的聚簇数据。在中间聚簇数据的可视化中, 采用文本加图形的复合方式。 K 均值算法每迭代运算一次, 图 4 坐标系 1 中的图形、信息列表中的数据随之刷新 1 次, 保持数据可视化与算法运行进程的同步;(2 ) K 均值算法的每次迭代运算, 均会产生一组新的聚类中心, 并保存在变量 C C 中。每轮迭代运算开始前, 使用 p l o t 命令, 将数组变量 C C 中存储的聚类中心数据可视化显示在图 4 坐标系 2 中, 并采用视图叠加方案, 保证新绘制的图形不覆盖已有视图。算法运算结束后, 便会得到一组关于算法运行过程中聚类中心的变化趋势图;(3 )为保证算法运行的有效性, 避免错误或不恰当的初始值设置所引起的时间浪费, 在完成中间聚簇数据的可视化之后, 弹出询问窗口, 该功能通过M a t l a b 预定义的提问对话框( q u e s t d l g ) 实现;(4 )算法每轮迭代运行完毕, 便会计算收敛准则函数的数值, 并通过前后两次数值的对比, 判断算法是否收敛。数组变量 E 将算法每轮运算所得到的收敛准则函数值进行保存。算法运行完毕后, 将数组 E中的非零数据全部取出, 并转化成为图 4 坐标系 3 中的图形, 即得到收敛准则函数值的可视化图形。软件最终实现的可视化效果如图 4 所示, 为突出软件各组成部分的功用, 将软件对 I R I S 数据集进行处理时的工作状态进行展示。从所显示的效果来看, 软件的实现基本达到了预期目标, 其相关性能的分析将在下面进行描述。

4　 K 均值算法数据挖掘过程可视化软件模型的性能测试

对于软件的性能测试, 选用 U C I 数据库 [1 4 ] 中的标准测试数据集。根据软件集成的算法, 选取 I -R I S 、 w i n e 及 s e e d s 三个数据集, 利用软件对三个数据集进行相关实验, 完成软件模型的性能分析。

4. 1　软件模型的聚类效果分析软件模型聚类效果的分析, 主要是检验软件的设计方案是否有效, 软件的各部分组件能否协同工作、完成对数据集的有效聚类。利用软件模型对表4 所列出的三个数据集进行聚类, 按照各数据集所提供的聚类标准, 对软件进行相应设置, 通过实际聚类结果与理想聚类结果的对比, 实现对软件聚类效果的分析。表 4 中, 行号 [2 1 ] 为选取数据集的哪几个样本点作为算法的初始聚类中心, 是聚类中心设置的一种方式。规范化 [2 2 ] 主要完成数据的中心化和标准化, 中心化保证数据集各属性的值具有相同观察基点, 变换之后各属性的均值为零; 标准化保证各属性的变化范围相同。符合要求 [2 3 ] 以 I R I S 数据集为例, 如 S e t o s a 这一类, 理论上, 这一类应为 I R I S数据的第 1-5 0 个样本点, 对实际运算得到的 S e -t o s a 类所包含的样本点进行分析, 分析有多少个样本点为 I R I S 数据集的第 1-5 0 个样本点, 其余同此原理。由表 4 可以看出:(1 )对于 I R I S 数据集, 在设置的初始条件下,软件能够将 S e t o s a 类完全挖掘出来。对于类 V e r -s i c o l o u r 及类 V i r g i n c a 的挖掘, 虽然未能到达理想效果, 但与理想效果差别很小;(2 )对于 W i n e 数据集, 类 2 的挖掘效果不好,类 1 、类 3 的挖掘效果与理想效果很接近;(3 )对于 S e e d s 数据集, C a n a d i a n 类可以完全挖掘出来, K a m a 、R o s a 两类的挖掘效果也与理想效果差别不大。软件基本上可以对所选取的数据集进行有效的聚类挖掘, 这说明, 软件的方案设计是有效的, 各组件能够协同工作, 完成对数据集的有效聚类。

4. 2　数据挖掘过程可视化效果分析在对数据挖掘过程可视化的效果进行分析时,主要针对 I R I S 数据集进行试验。另外, 选取 w i n e数据集的部分试验结果, 说明软件模型对高维数据的可视化效果。I R I S 数据集的实验条件:(1 )聚类个数: 3 ;(2 )初始聚类中心: [ 5 . 1 , 3 . 5 , 1 . 4 , 0 . 2 ] 、 [ 4 . 9 ,3 . 0 , 1 . 4 , 0 . 2 ] 、 [ 4 . 7 , 3 . 2 , 1 . 3 , 0 . 2 ] ;(3 )聚簇的颜色方案: ‘ R ’ 、 ‘ G ’ 、 ‘ B ’ ;(4 )数据进行规范化预处理。此次实验, K 均值算法总共进行七次运算, 分别将第 1 、2 、 3 、 7 次运算得到的可视化图形取出, 如图 5 所示。由图 5 可以看出, 平行坐标法将晦涩的数据转化成二维平面中的可视化图形, 并辅以对比鲜明的颜色搭配, 可视化效果良好。在聚类挖掘过程中, 用户借助界面反馈的可视化图形, 可实时了解挖掘的进程, 消除了数据挖掘的不透明性。同时, 可视化图形也加快了用户对挖掘结果的理解。W i n e 数据集的试验条件:(1 )聚类个数: 3 ;(2 )初始聚类中心:[1 4 . 2 3 , 1 . 7 1 , 2 . 4 3 , 1 5 . 6 , 1 2 7 , 2 . 8 , 3 . 0 6 , 0 . 2 8 ,2 . 2 9 , 5 . 6 4 , 1 . 0 4 , 3 . 9 2 , 1 0 6 5 ][1 3 . 2 , 1 . 7 8 , 2 . 1 4 , 1 1 . 2 , 1 0 0 , 2 . 6 5 , 2 . 7 6 , 0 . 2 6 ,1 . 2 8 , 4 . 3 8 , 1 . 0 5 , 3 . 4 , 1 0 5 0 ][1 3 . 1 6 , 2 . 3 6 , 2 . 6 7 , 1 8 . 6 , 1 0 1 , 2 . 8 , 3 . 2 4 , 0 . 3 ,2 . 8 1 , 5 . 6 8 , 1 . 0 3 , 3 . 1 7 , 1 1 8 5 ](3 )聚簇颜色方案: ‘ R ’ 、 ‘ G ’ 、 ‘ B ’ ;(4 )数据经规范化预处理。选取此次实验最终运算结果的可视化图形进行展示, 如图 6 ( a ) 。由该图可以看出, 由于 w i n e 数据集维数较多(1 3 维) , 数据转化成平行坐标系中的可视化图形之后, 各属性轴之间排列过于紧密, 不易观察折线的走向及分布。为解决这一问题, 软件中集成了维度约束技术,可对部分属性进行凸显, 从而更好的对聚类结果进行观察。图 6 ( b ) , 利用维度约束技术对前 5 个属性进行凸出显示。可以看出, 凸显之后的视图, 属性轴之间的间距增大, 视图中折线的分布易于观察, 可视化效果明显增强。

4. 3　收敛准则函数值的可视化效果分析通过收敛准则函数值的可视化图形, 可获取以下三方面信息:(1 )直观读出算法的运算次数; (2 )了解既定条件下算法的收敛速度;(3 )判断算法趋于收敛的节点, 即算法在第几次运算后趋于收敛。对收敛准则函数值可视化效果的分析, 选用S e e d s 数据集作为实验数据, 实验条件如下:(1 )聚类个数: 3 ;(2 )初始聚类中心:[1 5 . 2 6 , 1 4 . 8 4 , 0 . 8 7 1 , 5 . 7 6 3 , 3 . 3 1 2 , 2 . 2 2 1 ,5 . 2 2 ][1 4 . 8 8 , 1 4 . 5 7 , 0 . 8 8 1 1 , 5 . 5 5 4 , 3 . 3 3 3 , 1 . 0 1 8 ,4 . 9 5 6 ][1 4 . 2 9 , 1 4 . 0 9 , 0 . 9 0 5 , 5 . 2 9 1 , 3 . 3 3 7 , 2 . 6 9 9 ,4 . 8 2 5 ](3 )聚簇颜色方案: ‘ R ’ 、 ‘ G ’ 、 ‘ B ’ ;(4 )数据不经规范化处理。实验结束后, 得到一幅关于收敛准则函数值的可视化图形, 如图 7 所示。由图 7 可以看出: 此次试验中, 在设置的初始条件下, 算法总共迭代运算了 7 次, 而且算法第 4 次运算得到的收敛准则函数值与第 3 次运算得到的收敛准则函数值差别不大。由此可以推断, 算法在完成第 3 轮迭代后基本趋于收敛。这一结论可通过两幅可视化图形( 第 3 次运算、最终结果) 之间的对比进行验证。图 8 ( a ) 为算法完成第 3 轮运算后得到的可视化图形, 图 8 ( b ) 为本次实验最终结果的可视化图形。通过两幅图形的对比可以看出: 两者之间仅存在细微差别。通过对聚类数据的分析获知, 本次实验中算法的第 4-7 次运算, 完成了非常少量的工作, 主要将第 3 次运算得到的聚簇 2 ( 图 6 中的红色折线) 中的第 5 5 、1 0 1 、 1 2 3 、 1 3 4 、 1 4 0 行数据与聚簇 3( 图 6 中的蓝色折线) 中的第 1 3 、 3 0 、6 6 行数据取出,放入聚簇 1 中, 即第 3 次运算的结果与最终结果已非常接近。由此可证明“ 算法在完成第 3 次迭代后基本趋于收敛” 这一结论是正确的。4. 3　聚类中心可视化效果分析4. 2 节对 I R I S 数据集进行的实验, 产生了一组聚类中心可视化图形, 现将该组图形中的一部分列出, 如图 9 所示。聚类中心的可视化采用图形叠加方案, 这样易于对比临近两次运算中, 后一组聚类中心相对于前组聚类中心的变化。聚类中心为各聚簇均值的均值, 通过聚类中心的变化, 可间接了解各聚簇的变化动态。由图 9 可以看出: 本次实验中, 以蓝色折线所对应数据为聚类中心的聚簇, 在整个运算过程中, 除第三次运算时聚类中心发生较小波动外, 其余各次运算基本没有发生变化; 而分别以红色、绿色折线所对应数据为聚类中心的两个聚簇, 在第二次运算时, 聚类中心已较初始聚类中心发生了较大变化, 以绿色折线为甚。在之后的运算中, 两个聚簇的聚类中心也一直在一定的范围内波动, 直至本次实验结束。由此可以看出, 以蓝色折线为聚类中心的聚簇, 在实验过程中很快达到了稳定( 第三次运算后) , 而分别以绿色、红色折线为聚类中心的聚簇, 则一直处于波动状态。通过软件模型对 U C I 数据库中的 I R I S 数据集、 W i n e 数据集、S e e d s 数据集的实验, 分析了软件的聚类效果、数据挖掘过程可视化效果、收敛准则函数值可视化效果、聚类中心可视化效果。通过分析结果来看, 软件各模块之间能够协同工作, 实现对数据集的有效聚类, K 均值算法的数据挖掘过程可视化方案亦能够将中间聚簇、聚类中心、收敛准则函数值进行实时、有效的表达, 设计开发的软件达到了预期效果。

5　结　语

面向通用数据资源, 主要研究了聚类数据挖掘可视化理论方法与实现技术, 实现了聚类算法与可视化技术的结合, 做到聚类数据挖掘过程和可视化过程同时进行; 设计了新的可视化隐喻( 可视化机构) , 实现了格式化数据到可视化结构的映射。在此基础上, 设计开发了 K 均值算法的聚类数据挖掘可视化软件模型, 实现了 K 均值算法的聚类数据挖掘可视化; 最后利用 U C I 数据库中的 I R I S 数据集、W i n e 数据集、 S e e d s 数据集对可视化软件模型进行性能测试, 取得了良好的可视化效果。研究还需进一步解决平行坐标法在表示数据量较大的数据集时出现的折线重叠问题, 拓展模型的聚类算法集成, 使模型能够处理更多类型的数据集, 同时进一步优化可视化效果。

参考文献:[1 ] 　B OUGHR I R AA , F AY D , KHA D I R M T. K o h o n e nm a pc o m b i n e dt o t h ek - m e a n s a l g o r i t h mf o r t h e i d e n t i -f i c a t i o no f d a y t y p e so f a l g e r i a ne l e c t r i c i t y l o a d [ C ] . A l -g e r C o m p u t e r I n f o r m a t i o n S y s t e m s a n d I n d u s t r i a lM a n a g e m e n tA p p l i c a t i o n s , 2 0 0 8 : 7 8 - 8 3.[2 ] 　WUF a n g x i a n g . Ag e n e t i cw e i g h t e dk - m e a n sa l g o r i t h mf o r c l u s t e r i n gg e n e e x p r e s s i o nd a t a [ C ] . A o m e nS e c o n dI n t e r n a t i o n a l M u l t i - S y m p o s i u m s o n C o m p u t e r a n dC o m p u t a t i o n a lS c i e n c e s , 2 0 0 7 : 6 8 - 7 5.[3 ] 　L I UY a n l i , L I UX i y u , ME NGY a n . C l u s t e r i n ga n a l y s i sb a s e do n i m p r o v e dk - m e a n sa l g o r i t h ma n di t sa p p l i c a -t i o n i nHRMs y s t e m [ C ] .K u n m i n gF i r s t I E E EI n t e r -n a t i o n a lS y m p o s i u mo nI n f o r m a t i o nT e c h n o l o g i e sa n dA p p l i c a t i o n s i nE d u c a t i o n , 2 0 0 7 : 4 7 3 - 4 7 7.[4 ] 　翟旭君 . 基于平行坐标法的可视化数据挖掘技术研究[ D ] . 北京, 清华大学,2 0 0 4.[5 ] 　李　渊 . 基于 K - m e a n s 算法的数据挖掘可视化技术的应用研究[ D ] . 北京: 北京交通大学,2 0 0 7.[6 ] 　I WA T A T , S A I T O K.V i s u a l i z a t i o no fa n o m a l i e su - s i n gm i x t u r em o d e l s [ J ] . J o u r n a lo fI n t e l l i g e n tm a n u -f a c t u r i n g . 2 0 0 5 , 1 6 ( 6 ) : 6 3 5 - 6 4 3.[7 ] 　谢娟英, 蒋　帅, 王春霞, 张　琰, 谢维信 . 一种改进的全局 K 均值聚类算法[ J ] . 陕西师范大学学报: 自然科学版, 2 0 1 0 ,3 8 ( 2 ) : 1 8 - 2 2.X I EJ u a n y i n , J I AN GS h u a i , WAN G C h u n x i a . A ni m -p r o v e dg l o b a lK - m e a n sc l u s t e r i n ga l g o r i t h m [ J ] . J o u r -n a l o fS h a n x iN o r m a lU n i v e r s i t y ( N a t u r a lS c i e n c eE d i -t i o n ) , 2 0 1 0 , 3 8 ( 2 ) : 1 8 - 2 2.[8 ] 　周爱武, 于亚飞 . K - M e a n s 聚类算法的研究[ J ] . 计算机技术与发展 . 2 0 1 1 , 2 1 ( 2 ) : 6 2 - 6 5.Z HOU A i w u , YU Y a f e i . T h eR e s e a r c ha b o u tC l u s t e -r i n gA l g o r i t h mo fK - M e a n s [ J ] . C o m p u t e rT e c h n o l o g ya n dD e v e l o p m e n t , 2 0 1 1 , 2 1 ( 2 ) : 6 2 - 6 5.[9 ] 　谭桂龙, 陈谊 . 基于平行坐标的信息可视化方法的应用研究[J ] . 北京工商大学学报: 自然科学版, 2 0 0 8 , 2 6(2 ) : 7 5 - 7 9.T ANG u i l o n g , CHE N Y i . T h eS t u d yo nt h ev i s u a l i z a -t i o nm e t h o d sa n dt e c h n i q u e so fd a t am i n i n g [ J ] . J o u r -n a lo f B e i j i n g T e c h n o l o g y a n d B u s i n e s s U n i v e r s i t y( N a t u r a lS c i e n c eE d i t i o n ) , 2 0 0 8 ,2 6 ( 2 ) : 7 5 - 7 9.[1 0 ]雷君虎, 杨家红, 钟坚成, 等 . 基于 P C A 和平行坐标的高维数据可视化[J ] . 计算机工程, 2 0 1 1 , 3 7 ( 1 ) : 4 8 - 5 0.L E I J u n h u , YAN GJ i a h o n g , Z HONGJ i a n c h e n g , e t a l .H i g h - d i m e n s i o n a ld a t av i s u a l i z a t i o nb a s e do np r i n c i p a l[J ] . C o m p u t e rE n g i n e e r i n g , 2 0 1 1 , 3 7 ( 1 ) : 4 8 - 5 0.[1 1 ] S H I B A T AT , F U J I TA K , I T O K.Ar e a l - t i m el e a r n -i n gp r o c e s s o rb a s e do nk - m e a n sa l g o r i t h m w i t ha u t o -m a t i cs e e d sg e n e r a t i o n [ C ] . B e i j i n gI n t e r n a t i o n a lS y m -p o s i u mo nS y s t e m - o n - C h i p , 2 0 0 7 : 1 6 5 - 1 6 9.[1 2 ] H a u s e r .H , L e d e r m a n n .F , D o l e i s c h . H. A n g u l a rb r u s h i n go f e x t e n d e dp a r a l l e l c o o r d i n a t e s [ C ] . P r o v e n -c eI E E E S y m p o s i u m o nI n f o r m a t i o n V i s u a l i z a t i o n ,2 0 1 2 : 1 2 7 - 1 3 0.[1 3 ]罗　建 . 可视化数据挖掘方法的研究与实现[ D ] . 西安: 电子科技大学硕士学位论文 . 2 0 0 9.[1 4 ]路燕梅 . 基于平行坐标的可视化多维数据挖掘的研究[J ] . 现代计算机 . 2 0 1 1 , 5 6 ( 2 0 ) : 1 6 - 1 9.L U Y a n m e i . R e s e a r c ho nv i s u a ld a t am i n i n gb a s e do np a r a l l e lc o o r d i n a t e [ J ] .M o d e r nC o m p u t e r .2 0 1 1 , 5 6(2 0 ) : 1 6 - 1 9.[1 5 ]余世银 . 基于 C RM 的数据可视化研究及其实现[ D ] .上海: 东华大学, 2 0 0 1.

[返回]