欢迎访问一起赢论文辅导网
本站动态
联系我们

手机:153 2730 2358
邮箱:910330594@QQ.COM

Q Q:
910330594
网址:http://www.17winner.com
工作时间:
9:00-24:00  

SCI期刊论文
当前位置:首页 > SCI期刊论文
基于数据库日志关联规则挖掘的业务流程优化
来源:一起赢论文网     日期:2018-08-01     浏览数:274     【 字体:

 计算机集成制造系统 第23卷行比较,发现二者在粒度上不一致的部分,从而合理地改进原有的业务流程。进而在分析业务活动间关联规则的基础上合理地分裂或合并业务流程节点,以实 化。 粒度的要求下,对于几个强关联的操作,可以将其对应的多 节点,以使业务流程更简洁易懂,提高执行效率并 增强其与人员的交互性;在较细粒度的要求下,可以将一个整 点,分 对应几个强关联的操作。节点的分裂可以防止数据或条件丢失,也可以防止逻辑上出现错误的关联,细化的操作能够增强业务流程的精确性。根据粒度合并或 示,在 课程管理中,课 生选课的变动,在实际业务操作中,课程表和选课 表是绑定在 的,因 程上将二者合并考虑;而在学籍信息变动中,由于对学生选课 立,实 际业务产生 询/更 种相互独立的节点,对应于原流程,可将学籍信息 变动节点通 类,以 产生错误的 联。在 时,应 人工评判加 中,以保证改变后的流程仍能顺利执行,其中:网关分为并行、排他、包含、事件网关4种,应根据业务 需要选择;数 规则来判断。在与本文相关的工作中,文献[1]通过数据库日志产生相对独立的执行路径,作为区分不同特定事务之间的参考;文献[2]提出经典的 Apriori算法挖掘关联规则;文献[3]中的多阶迭代思想反复运用全局的数据,充分考虑了相邻数据对当前数据的影响;文献[4-6]分别对最大子图优先、子图距离、流程测距等方法进行了探究。在此基础上,本文将数据库日志(DBLogs)通过向量化和相似度计算转换为流程日志(WFLogs),并通过对传统 Apriori算法加以调整从当前业务流程中挖掘关联规则,从产生的关联规则中获取用户行为模式(Behavior profile),用户的行为模式可以客观反映用户的操作规律,能为优化流程提供指导。其中在关联分析算法中,本文采用多阶迭代的方式提供评价策略来保证合理性。在业务流程优化领域,本文在深入了解已有工作后,从数据库日志入手,根据日志操作中潜在的规律发掘流程中可优化的空间。不论当前业务是否已流程化,本文方法均可通过数据库日志导出流程日志,为后续 础。 2所示。本文主要介绍数据库日志的相似性分析方法,首先提出数据库日志多粒度化以及转化为流程日志向量的方法,然后从角度和距离两方面研究向量之间的相似性,并提出迭代计算的概念;在相似度的基础上,利用基于相似度的 Apriori算法对操 作集进行关联分析,获取用户行为模式,并通过迭代计算评估;通过选取实例进行实验对理论进行验证;最后对所做工作进行总结和展望。2 数据库日志相似性分析2.1 数据库日志标签、粒度划分及向量化采用较简单的 LCR 日志文件进行研究。LCR文件中每条操作涉及的各类标签均抽象自 SQL 语句,采用粒度划分的方式将其分成多个层次。最粗粒度级别包含标签?source_database_name?,该标签代表所有操作的整体数据源,在整个数据库环境下汇总了所有操作;中间粒度级别包含标签?com-mand_type??object_owner??object_name? ?scn?。 这一粒度级别确定了用户在某一时间对某一张表进行操作的类型,相对于整体数据源的操作集缩小了 范 围;最 细 粒 度 级 别 包 含 标 签 ?column_name??new_value?,这一粒度级别确定了用户在某张表中对哪一字段进行了哪一数值的操作。相对于前两重级别,最细粒度级别将操作集锁定到了某一条唯一操作。各标签的含义以及三重粒度级别划分如表1所示。994计算机集成制造系统 第23卷中每条操作对需作比较的向量的影响。对于向量 X和Y,若计算出的k阶相似度大于一阶相似度,则说明其他操作对一阶相似度有提高作用,即原本的 X或Y 在所有向量中相对孤立,与其他较多的操作相似性不大;反之,若k 阶相似度小于一阶相似度,则说明其他操作对一阶相似度有降低作用,X 和Y 之间的相似关系高于其他操作。k阶相似度的这种性质,可用于评估关联分析中算法执行条件的合理性。因为高阶情况下,k 阶相似度计算可能出现不对称的情况,即Sim(k)X,Y ≠Sim(k)Y,X,所以一般取k=2来保证计算的对称性。3 基于相似度的 Apriori算法关联规则挖掘有了数据库日志的相似度概念,借鉴文献[7-8]的操作表示方法,对数据库日志中的操作集进行关联性分析,从而发掘操作规律,得到业务处理实际问题的 粒 度 而 改 进 流 程。 本 文 采 用 基 于 相 似 度 的Apriori算法。相对于传统的 Apriori算法,基于相似度的 Apriori算法的主要区别在于计算项之间的支持度和置信度的方式不同,为此本文增加了参数相似度阈值θsim和项基元素的概念,并且项集中“项”的概念不是单个元素而是操作集合。3.1 项基的概念在事务 T 中,对于 X,Y∈T,当Sim(1)X,Y ≥θsim时,将 X 和Y 归类到项集中的同一个项中,这样每个事务中的操作可以被分为多个项,每个项中含有多条操作。对于每一项,若 Sim(1)X,Y=MAXi∈T{Sim(1)X,i},则称Y 是X 的最大相似元素,记作 X~Y。需要注意的是,最大相似关系不满足交换律,X~Y 成立不一定有Y~X 成立。对于项集中的每一项 A=(A1,A2,…,An),统计所 有的最大相似关系,若元素 Ai具有最多数量的最大相似关系Aj~Ai,则称 Ai为A 的项基(若在 T 范围内无法获得最大相似元素,则将 T 扩大至整个Q 进行寻找),项基可看作项的核心,在整个项中是最具代表性的操作,甚至在某些运算上用于代替其他操作来提高准确性。最后采用k阶相似度评价项基的选取:一般认为若 Ai为A 的项基,则 Ai与A 中其余操作之间存在较多的最大相似关系,因此存在较多的 Aj∈A,使得Sim(k)Aj,Ai≤Sim(1)Aj,Ai,即非最大相似关系会降低一阶相似度;反之,若出现较多的Sim(k)Aj,Ai>Sim(1)Aj,Ai,则 Ai作为项基的效果较差。3.2 支持度和置信度计算关联规则 A→B 可看作(A1,A2,…,An)→(B1,B2,…,Bm)的 mn 重映射。关联规则 Ai→Bj 的支持度Support(Ai →Bj)=σ(Ai ∪ Bj)N, ①;maxAp∈A,Bt∈Bσ(Ai ∪ Bj)N,σ(Ap ∪ Bt)N· Sim(1)Ap,Ai·Sim(1)Bj,B烅烄烆烍烌烎t, ②烅烄烆。(5)式中:①表示 Ai和Bj均为项基的情况,②表示 Ai不为项基且Ap为项基(或 Bj不为项基且Bt为项基)的情况;σ(Ai∪Bj)表示对 Ai∪Bj 的计数,N 表示所有项的元素总数。式(5)提出了计算支持度的方法,同时描述了用项基替代其他操作的情况。下面基于关联规则支持度的概念,计算关联规则的置信度。置信度可看作通过规则进行推理的可靠性。关联规则 Ai→Bj 的置信度Confidence(Ai →Bj)=Support(Ai →Bj)·Nσ(Ai)。(6)在得到元素层面关联规则的支持度和置信度的概念后,上升到项的层面计算支持度和相似度,项 A和B 构成的关联规则A→B 的支持度和置信度分别为Support(A →B)= maxAi∈A,Bj∈B{Support(Ai →Bj)};Confidence(A →B)=Support(A →B)·N′σ(Ai)烅烄烆。(7)式中:N′表示项集中项的总个数;σ(Ai)表示 A→B支持度中涉及的Ai的计数。由式(5)~式(7)知,不同层面上关联规则的支持度和置信度具有不同的指导意义。元素层面上的关联规则表示操作之间的规律,可以通过该规则人工“绑定”若干操作,以预测用户在进行某一步操作之后下一步的意图,在大量分析用户意图之后,便可以改进原有的流程结构;项层面上的关联规则表示操作集之间的共性规律,可对流程图中某一类活动节点的布局进行指导。本文利用基于相似度的 Apriori方法 进 行关联分 析,产生的关联规则用于在流程中分裂节点或优化合并,通过得到频繁同时出现的操作以及存在因果关系的操作来指导流程节点结构和排布的改进。例如频繁同996期:2016-09-28。Received 20June 2016;accepted 28Sep.2016.基金项目:国家自然科学基金资助项目(61303085,61572295,61303005);国家创新方法工作专项资助项目(2015IM010200);山东省自然科学基金资助项目(ZR2013FQ014,ZR2014FM031);山东省科技发展计划资助项目(2014GGX101019,2015GGX101007);山东省自主创新重大专项资助项目(2015ZDXX0201B03,2015ZDXX0201A04);国家留学基金资助项目。Foundation items:Project supported by the Na-tional Natural Science Foundation,China(No.61303085,61572295,61303005),the National Innovation Method Fund,China(No.2015IM010200),the Shandong Provincial Natural Science Foundation,China(No.ZR2013FQ014,ZR2014FM031),the Science and Technolo-gy Development Plan Project of Shandong Province,China(No.2014GGX101019,2015GGX101007),the Shandong Provincial IndependentInnovation Major Special Project,China(No.2015ZDXX0201B03,2015ZDXX0201A04),and the China Scholarship Council,China.基于数据库日志关联规则挖掘的业务流程优化肖宗水1,2,孟令童1,孔兰菊1+ ,钱 进1(1.山东大学 软件学院,山东 济南 250101;2.山大地纬软件股份有限公司,山东 济南 250101)摘 要:针对需要优化的业务流程,提出基于数据库日志之间关联规则挖掘的解决方法。通过对数据库日志向量化使其变为可几何度量的流程日志,并从角度和距离两方面综合分析数据库日志的相似性。采用基于相似性的关联分析算法获得用户行为模式以指导节点的分裂或合并,实现节点结构重塑从而优化流程。该方法还通过多阶迭代的方式评价关联分析的准确性,使算法可以在合理范围内执行。关键词:相似性分析;关联规则挖掘;流程优化中图分类号:TP311   文献标识码:ABusiness process optimization approach based on association rules mining of database logsXIAO Zongshui1,2,MENG Lingtong1,KONG Lanju1+,QIAN Jin1(1.College of Software,Shandong University,Jinan 250101,China;2.Dareway Software Co.,Ltd.,Jinan 250101,China)Abstract:Aiming at the business processes to be optimized,a solution based on association rules mining of databaselogs was proposed.In this solution,the database logs were turned into geometric-measurable workflow logs throughvectorization,and the similarity between database logs was comprehensively analyzed in angle and distance.In thisway,the user behavior profiles were obtained with similarity-based correlation analysis algorithm,which could guidethe nodessplitting and merging as well as reshape the node structure to optimize the processes.Meanwhile,this so-lution also assessed the accuracy of correlation analysis by multi-order iteration and made the algorithm be executedin a reasonable range.Keywords:similarity analysis;association rules mining;process optimization1 问题的提出在传统的业务流程构建中,由于领域知识、工作经验、需求变更等因素,建模人员在制定流程时可能无法 精 确 地 把 握 流 程 的 结 构 设 计,已 经 设 计好的流程有时不能精确客观地反映现实世界的活动。实际操作与业务流程中的节 点可能存 在粒度不一致的 问 题,从 而 在 原 有 的 业 务 流 程 中 产 生 了可优化的节点结构。对数据库日志关联 规则进行挖掘,可以发现操作之间存在的潜在规律,根据这些模式和规律能够准确地理解当前业务处 理各种问题的粒 度,通 过 与 已 有 流 程 对 待 问 题 的 粒 度 进计算机集成制造系统 第23卷由表5知,表4中选择的项基在整体上较为合理,无需进行较大的变动。因此以表4中的项基进行关联规则的挖掘。首先进行操作层面之间的关联分析,然后上升至项的层面。拟定初始的支持度阈值为0.5,产生频繁2-项集和频繁3-项集时的支持度 阈 值 分 别 为 0.4 和 0.2;置 信 度 阈 值 分 别 分0.67和0.5。根据 基 于 相 似 度 的 Apriori算 法,对于由全部操作构成的候选集产生的频繁 1-项集,使用式(5)对B1→C1 计算其支持度,得Support(B1→C1){=maxσ(B1∪C1)5,σ(A2∪C1)5·Sim(1)B1,A}2=0.4。同理计算得到Support(B1→E2)=0.4,Sup-port(C1→E2)=0.2。根据支持度阈值为0.4,得到频繁2-项集,如表6所示。表6 频繁1-项集和频繁2-项集的基本信息包含的操作 支持度 所在事务 所在项项基B1 0.6  T2,T3,T5 本身或 A2C1 0.6  T3,T4,T5 本身E2 0.6  T1,T2,T5 本身或 A2B1,C10.4  T3,T5 本身或 A2,C1B1,E20.4  T2,T5 本身或 A2,本身或 A2同样采用式(5),得到 Support(B1C1→E2)=0.2,因此频繁3-项集为{B1C1E2}。根据式(6)和时间顺序对所有的频繁项计算置信度,并统计超过阈值的关联关系,如表7所示。表7 置信度超过阈值的关联关系关联关系 置信度 所在频繁项集B1→C1 0.67 频繁2-项集B1→E2 0.67 频繁2-项集B1C1→E2 0.50 频繁3-项集根据式(7),Support(B1→C2)=0.4还能表示项层面上的关联关系,表示为 Support(A2B3E2B1→C2)=0.4。项层面的关联关 系代表了某类操作之间的规律。表7表示 了 频 繁 项 B1,C1和 E2之 间 的 关 联关系,其体现的行 为 模 式 (即 规 律)能 辅 助 合 并 或分裂流程中的节点。例如,B1和C1、B1和E2总是同时出现,在 拟 定 业 务 流 程 时 应 考 虑 是 否 可 以 将这种“绑定”在 一 起 的 操 作 合 并 至 同 一 活 动 节 点,从而使流 程 图 得 到 最 大 程 度 的 简 化,提 高 可 读 性和易用性。对于 B1C1→E2,E2可能以较大的概率生成于 B1C1 之后,可见在当前业务处理问题的粒度上可能倾向于将 B1C1 整体考虑,由此通过对比该操作对 应 的 流 程,能 够 发 现 处 理 问 题 上 的 粒 度不一致,从而构造节点的合 并。在实验 数 据中,B1和C1分别 表 示 对 课 程 表 和 学 生 选 课 表 增 加 记 录的操作,对这两张表同时添加记录的概率较大,对应于流程 应 考 虑 将 二 者 合 并,每 次 对 课 程 表 的 扩容可能意味着需要对学生选课表进行 扩容。对于A2B3E2B1→C2,同 理。 对 于 B1→C1,B1→E2,C1和 E2可能 作 为 单 节 点 出 现,可 以 考 虑 将 B1之 后的关于C1和 E2的节点 分 裂 细 化。C1和 E2分 别表示学生选课表的增加记录和学生信息表 的查询操作,在逻辑上二者相对独立,学生选课 表的扩容和对学生 信 息 的 查 询 之 间 不 存 在 必 然 的 联 系,若流程中存 在 二 者 整 体 处 理 的 节 点,则 应 考 虑 将 这类节点所 代 表 的 各 个 活 动 依 次 细 化 出 来,从 而 更精确细致 地 描 述 流 程,防 止 数 据 丢 失 或 产 生 错 误的逻辑关联。另外,B1→C1 这 一 类 因 果 关 系 对 时序较敏感,可 以 为 流 程 图 中 的 节 点 执 行 顺 序 构 建提供指 导,使 流 程 中 的 节 点 排 布 和 逻 辑 上 一 致。实验实例的优化结构如图4所示。5 结束语本文从数据库日志入手,对操作序列进行了分析:通过将数据库日志向量化为可度量的流程日志,从角度和距离计算相似度,以此为基础进行关联性分析,从而获得用户行为模式。行为模式可体现流程和业务之间处理问题的粒度是否不一致,从而为流程优化提供条件。相对于传统算法,基于相似度的 Apriori算法通过引入项基改进了支持度和置信度的计算方式。经过评价的项基对其他元素的替代提高了关联分析的准确性和合理性。相对于基于流程图分析的优化方法,本文更注重来自用户操作的意图和规律,根据用户意图进行流程优化,从而使流程更高效精确地服务于业务。后续将着重研究多阶迭代的定量评价方法,以提供更有力的评价方式。998肖宗水 等:基于数据库日志关联规则挖掘的业务流程优化表1 数据库日志各标签的含义以及三重粒度级别划分粒度级别 包含标签 标签含义 映射至最粗粒度?source_database_name?数据源名称 最大操作集中间粒度?command _type??object_owner? ob-ject_name? scn?操作类型、用户名、表 名、时 间戳(自增 1的时钟)最大操作集的子集最细粒度? column _ name ??new_value?表中的列名;更新的数值某一条操作数据库日志向量化是一个反复训练、反复完善的过程。在向量生成初期,选择较小的数据集,根据业务逻辑进行人工赋值并形成参考集。在加入新的日志数据时,系统根据参考集自动赋值并人工修正,由此不断修改完善参考集的赋值规则。在参考集扩充至较大数量后,赋值规则也达到满意的程度,每当加入新的日志数据时,系统便可完成合理的自动赋值。向量化效果的优劣取决于赋值后两个操作向量间的相似度是否与人工评定值一致,向量赋值过程需要丰富的业务经验及大容量的数据训练,经过多次迭代和调整才能得到最合适的赋值规则。赋值规则中每个标签的赋值为某一实数数组中的某个唯一实数,越相似标签的取值在数组中的对应值越相近。若加入新的标签取值,则扩充数组、使每个标签有且仅有唯一对应的实数。完成赋值后,每条操作可看作一个n维向量。进行相似性计算的两个向量应属于同一粒度。2.2 操作向量的一阶相似度设计2.2.1 夹角相似度对于两个操作向量的夹角相似度,借鉴余弦相似度的基本形式。设 X 和Y 是两个不同的操作向量,则 X 和Y 的余弦相似度为Simcos(X,Y)=(X·Y)/(|X||Y|)。其中:X·Y 表示向量X 和Y 的内积,|X|和|Y|分别表示向量X 和Y 的模。由上述公式得知,向量 X 和Y 的余弦相似度的范围为[-1,1],余弦相似度的值越大,两个向量的夹角越小,越趋近于相似。然而,两个向量的整体相似度不仅受夹角的影响,还受两个向量长度差的影响。为了使整体相似度的值落在区间(-1,1],对夹角相似度进行压缩,压缩后夹角相似度的值落在区间[0,1]。向量 X 和Y 的夹角相似度Simang(X,Y)=1+Simcos(X,Y)2。 (1)由式(1)知,两个向量的夹角越小(趋于0),其夹角相似度越高(趋于1);反之,两个向量的夹角越大(趋于π),其夹角相似度越低(趋于0)。2.2.2 距离相似度若仅采用夹角相似度来度量两个向量的相似性,考虑到存在两个向量夹角为 0°但长度不同,则这两个向量也存在差异。为了弥补夹角相似度的局限性,引入距离相似度。距离相似度关注两个向量的长度差,长度差越大,距离相似度越低。设d(X,Y)为向量 X 和Y 的长度差,则d(X,Y)=|(|X|-|Y|)|。与2.2.1节同理,为了使整体相似度的值落在(-1,1)区间,对d 进行压缩。向量 X 和Y 的距离相似度Simdis(X,Y)=-d(X,Y)1+d(X,Y)。 (2)由式(2)知,两个向量的距离相似度介于(-1,0]之间。若两个向量等长,则其距离相似度为0;若两个向量的长度差极大,则其距离相似度趋于-1。2.2.3 一阶相似度的基本形式在给出夹角相似度和距离相似度的计算方法之后,提出向量 X 和Y 的一阶相似度计算公式,用来表示两个向量的整体相似度:Sim(1)X,Y = Simang(X,Y)+Simdis(X,Y)。 (3)由式(3)可知,一阶相似度的值由夹角和长度共同决定且介于(-1,1]之间。若两个向量背向且不等长,则其相似度最低。操作向量的一阶相似度从角度和距离全面描述了两个向量间的相似程度,利用一阶相似度可以更为合理地进行关联规则的挖掘及后续工作。2.3 操作向量的相似度迭代计算利用所有操作对某两个向量的相似度进行迭代、得到高阶相似度,将其用于评价关联分析效果。设Q 为所研究的操作集合(Q 可以表示一个事务中的操作集,也可以表示整个日志的操作集),则向量X 和Y 的k 阶相似度Sim(k)X,Y =∑i∈Q,i≠X,Y|Sim(k-1)X,i·Sim(1)i,Y ||Q|12。 (4)式中:|Q|为操作的条数,k 阶相似度的符号位与一阶相似度一致。由式(4)知,在向量 X 和Y 的k 阶相似度计算过程中,原本的 X 和Y 扩充至整个操作集Q,扩充过程中加入了 Q 中的每一条相邻操作。相对于一阶相似度,k 阶相似度考虑了整个操作集995肖宗水 等:基于数据库日志关联规则挖掘的业务流程优化时出现的操作在对待问题的粒度上倾向于“整合”处理,在流程中可将多操作用单节点表示。对这种倾向的发掘有助于指导对已有流程的改进,本文将在实验环节通过数据模拟这一过程。对于基于相似度的 Apriori算法,主要改进了计算支持度和置信度的方法,而对于支持度和置信度阈值的拟定,因为操作之间存在先后关系,A→B必有A 在B 之前发生,所以会自动剔除某些关联,于是每当获得频繁k-项集后,需要重新拟定阈值以适应这种变化。候选集和频繁k-项集的发掘与传统 Apriori算法完全相 同,不 再详细介绍。算 法流程如图3所示。4 仿真性实验与结果分析4.1 数据准备为了使项之间有合理大小的交集,选取中间粒度操作进行研究。根据表1,每条操作可表示为一个5维向 量,其 基 本 格 式 为 (?source_database_name??command_type??object_owner??object_name??scn?)。选取高校课程管理的实例,orcl1~orcl3 分别表示不同学院隶属的数据源,学生用户s1,s2和教师用户t1有不同的操作权限;S和C 分别保存了学生的学籍信息和课程信息,SC 保存了学生的选课信息。假设已经通过多次训练获得满意的赋值规则,所有标签可能的取值及赋值规则如表2所示。表2 中间粒度的数据库日志实例标签 可能的取值 对应向量分量值?source_database_name? {orcl1,orcl2,orcl3} {1,2,3}?command_type?{insert,select,update,delete}{1,2.5,4,6}?object_owner? {s1,s2,t1} {1,2,5}?object_name? {S,C,SC} {1,3,9}?scn? 按时间自增 1 取值 按时间自增 0.1 取 值选取一组操作{A1,A2,A3,B1,B2,B3,C1,C2,D1,D2,D3,E1,E2,E3,E4},根据赋值规则向量化后得到如下 WFLogs向量(A1表示用户s1在orcl3下对表SC 进行update操作,其他类似):A1=(3,4,1,9,0.1),A2=(2,2.5,5,1,0.2),A3=(3,6,2,9,0.3),B1=(2,1,5,3,0.4),B2=(3,1,1,1,0.5),B3=(3,1,5,1,0.6),C1=(3,1,5,9,0.7),C2=(3,4,5,1,0.8),D1=(2,2.5,1,3,0.9),D2=(2,2.5,2,3,1),D3=(3,6,5,1,1.1),E1=(2,1,2,9,1.2),E2=(1,2.5,5,1,1.3),E3=(3,1,1,1,1.4),E4=(1,1,1,9,1.5)。4.2 关联规则挖掘所有的操作来自5个事务,每个操作可能存在于多个事务中。LCR 文件中每个事务均由唯一的?transaction_id? 标识 。 每 条 操作在事 务 中 的 分 布如表3所示。表3 每条操作在事务集中的分布事务 包含操作 ?transaction_id?T1 A1,A3,D1,E1,E2 7.31.301 80T2 A2,B1,B2,B3,E2,E4 7.31.301 81T3 A1,B1,C1,C2,E1,E3 7.31.301 82T4 B2,C1,D1,D2,D3,E4 7.31.301 83T5 A2,A3,B1,C1,D2,E2 7.31.301 84拟定相似度阈值θsim=0.5,根据这一阈值进行项的划分,通过计算最大相似关系得到如下结果,以此寻找每个项的项基,并取k=2进行评价。最后得到如表4和表5所示的结果。A1~C1, A2~B3, A3~C1, B1~B3, B2~E3,B3~A2, C1~A1, C2~A2, D1~E3, D2~D1,D3~C2, E1~E4, E2~A2, E3~B2, E4~E1。表4 相似度阈值为0.5时的项划分及项基事务 项划分 项基元素T1 (A1,E1)(A3)(D1)(E2) (A1,A3,D1,E2)T2 (A2,B1,B3,E2)(B2)(E4) (A2,B2,E4)T3 (A1,C1,E1)(B1)(C2)(E3) (C1,B1,C2,E3)T4 (D1,D2)(B2)(C1)(D3)(E4) (D1,B2,C1,D3,E4)T5 (A2,B1,E2)(A3,C1)(D2) (A2,C1,D2)表5 需评价的项基元素的一阶相似度(二阶相似度)A1 A2 C1 D1A1 1.000(0.255)-0.071(-0.171)0.634(0.234) 0.112(0.179)A2 1.000(0.365) 0.001(0.135) 0.224(0.271)C1 1.000(0.216) 0.054(0.155)D1 1.000(0.332)997

[返回]
上一篇:量子机器学习算法综述
下一篇:基于手牌预测的多人无限注德州扑克博弈方法