一种评估流程相似性查询算法的基准数据集 - SCI期刊论文 - 一起赢论文辅导网--专业代写代发SCI、EI、核心期刊、代写MBA、硕博毕业论文。QQ910330594

欢迎访问一起赢论文辅导网

加入收藏 | 设为主页 | 联系我们

本站动态

联系我们

QQ：3949358033

微信：paperwinner

工作时间：9:00-24:00

成功案例

SCI期刊论文

当前位置：首页 > SCI期刊论文

一种评估流程相似性查询算法的基准数据集

来源：一起赢论文网日期：2017-08-05 浏览数：3785 【字体：大中小】

计算机集成制造系统第２３卷程，并参考该流程对现有流程进行设计，则将大大加快流程再造的过程。在将一个新流程添加到流程库之前，管理人员首先需要确认流程库中是否存在与该新流程相似的流程，以避免重复。为了满足上述任务，需要检索流程库，即给定一个流程模型，在流程库中查询出与其相关的流程（称为相似流程）［２］。事实上，一个流程相似性查询算法会返回给用户包含多个相关流程的查询结果，而用户则希望查询结果中的相关流程是按相关程度排序的。基于不同的相似性衡量标准，现有的流程相似性查询算法可以被分成以下３类：①文本相似性衡量标准，主要衡量两个流程模型中任务节点标签间的相似程度［３－５］；②结构相似性衡量标准，计算两个流程模型对应图结构间的相似性［６－１１］；③ 行为相似性衡量标准，主要衡量任务节点对应的执行序列之间的相似性［１２－１５］。然而，目前尚未发现针对流程相似性算法进行评估的基准数据集，即以上算法的实验结果都是在不同数据集和不同参数设定下得到的，因此不能对其进行直接比较。总之，缺少一个统一的基准数据集会引起以下几个问题［１６－１７］：（１）现有的大多数流程相似性查询算法都是基于特定场景提出的。例如，算法Ａ的提出是为了计算流程模型间的结构相似性，它不一定适合计算行为相似的场景。（２）不同的研究者使用他们自己的数据集（不公开）得到的实验结果与其他算法进行比较，这种做法很有可能存在问题。（３）同一个算法的实验结果会因人而异，因为不同研究团队会选择不同的数据集进行实验。为了解决以上问题，本文建立了一个用Ｐｅｔｒｉ网建模流程的基准数据集，来评估不同流程相似性查询算法的性能。该数据集包括１００个流程模型，本文标记出了其中的１０个检索流程和每个检索流程对应的９个相关流程，以及９个相关流程的排序结果。由用户调查的结果确定相关流程的排序，通过访问２３个领域专家来对每一组相关流程进行排序，将最终的排序结果作为基准排序结果，用来评估算法的准确性。１　数据集本文的数据集由１００个Ｐｅｔｒｉ网建模的流程模型组成，将其分成１０组，每组流程包括１个检索流程及其对应的９个相关流程，其中的９个相关流程按与该检索流程的相关程度由高到低排序，排序结果根据用户调查得到。数据集中的流程来源于现有的一个真实数据集———ＩＢＭ数据集［１８］，其包括５个流程库共３　０００多个流程模型。这些流程模型被完全匿名化处理，即流程模型的名字和流程中的节点名称是未知的。ＩＢＭ数据集不能直接使用，因为数据集中没有标记出哪些流程是检索流程、哪些流程是检索流程对应的相关流程。基于ＩＢＭ数据集，按照以下４个步骤建立基准数据集：①选择检索流程。从ＩＢＭ数据集中选出１０个检索流程模型，主要考虑顺序、选择、并行和循环４种流程控制流结构。②创建混淆流程。混淆流程的引入是为了迷惑算法，使其将不相关的流程模型作为其相关流程，从而将优秀的算法区分出来（优秀的算法不会将不相关的流程作为其相关流程）。③改造相关流程。人为地给每个检索流程改造了其对应的９个相关流程，包括检索流程本身，每个检索流程包括１０个相关流程。④对相关流程进行排序。通过１０个用户调查对每组流程内的相关流程进行排序。１．１　选择检索流程从ＩＢＭ数据集中选择１０个检索流程时，主要考虑流程的复杂度和控制流结构。１０个检索流程的细节如表１所示，从中可以看出每个检索流程的流程编号为１～１０（表中第１行），以及每个检索流程的库所数、变迁数、边数及包含的结构。在结构中，Ｓ（Ｓｅｑｕｅｎｃｅ）表示顺序结构，Ｅ（Ｅｘｃｌｕｓｉｖｅ）表示选择结构，Ｐ（Ｐａｒａｌｌｅｌ）表示并行结构，Ｌ（Ｌｏｏｐ）表示循环结构，ＥＰ和ＥＰＬ表示复合结构，分别是Ｅ和Ｐ的复合以及Ｅ，Ｐ和Ｌ结构的复合，如图１所示。由表１可知，每两个检索流程（如流程１和流程２）包含相同的结构。７０１０曹　斌等：ＰｒｏＢｅｎｃｈ：一种评估流程相似性查询算法的基准数据集表１　１０个检索流程的细节流程１　２　３　４　５　６　７　８　９　１０库所１４　１１２　４２　４２　７３　３９　１０１　９１　４６　４８变迁１０　１０　４６　４８　４５　３２　９９　８４　３６　３６边２６　２２２　９２　９６　１４４　７６　２２０　１９８　９６　１００结构Ｓ　Ｓ　Ｅ　Ｅ　Ｐ　Ｐ　ＥＰ　ＥＰ　ＥＰＬ　ＥＰＬ在每个检索流程的基础上添加或删除边／节点，从而在原有的检索流程上添加或删除控制流结构。例如，表１中的１号检索流程只包含顺序结构，但通过对１号检索流程添加或删除边／节点，可以得到包含选择、并行、循环结构或各个结构的不同组合的相关流程。因此，数据集中的流程基本涵盖了所有可能出现的控制流结构。１．２　创建混淆流程若每组流程（１个检索流程及其９个相关流程）包含的节点标签都不同，则任意的流程相似性查询算法都能为检索流程找到其相关流程，即所有算法的准确率都为１００％。为了避免这类情况发生，对包含相同结构的两组流程模型中的节点标签进行修改，使这两组流程模型中的部分节点标签相同。事实上，一旦将一个检索流程Ｓ１改造成另一个检索流程Ｓ２的混淆流程，则Ｓ２对应的相关流程也为Ｓ１所在组流程的混淆流程，这是因为Ｓ２的相关流程是在Ｓ２的基础上修改的，包含大部分与Ｓ２相同的节点标签。这种做法可以使两组中的一组流程模型成为另一组流程模型的混淆流程，这是因为在查询一组流程中检索流程的相关流程时，有可能查询到另一组流程中的流程模型，以此区分好的算法和差的算法。在本文实现的待评估算法中，两个库所节点间的相似度是用它们的上下文环境（流入、流出库所的变迁）来衡量的［１１］，因此仅考虑任务节点的标签。如图２所示，图２ａ和图２ｂ是两个检索流程，它们包含相同的选择结构。图２ａ和图２ｂ共享了部分节点标签Ａ和Ｂ，如虚线框中所示，其他节点的标签都不同。因为图２ｂ的相关流程也都包含虚线框中的节点，所以图２ｂ及其相关流程都是图２ａ所在流程组的混淆流程。１．３　改造相关流程给定一个流程模型，下面介绍改造相关流程的不同策略，主要从结构和行为两个方面来考虑。为了得到一个给定流程模型的相关流程，采用以下４个策略：①添加子结构或子行为，即将额外的节点、边或执行序列加到给定的流程模型上，使改造后的相关流程模型包含原流程模型的结构或行为；②删除子结构或子行为，即删除给定流程中的部分结构或部分执行序列，使原流程包含改造后流程的结构或行为；③重命名任务节点标签或者打乱任务节点顺序；④组合上述２种以上策略。１．３．１　添加子结构或子行为一个流程模型Ｓ是另一个流程模型Ｍ的父流程，因此Ｓ除了包含Ｍ的结构或者行为外还包含额外的节点、边或者执行序列。给定一个流程模型，采用以下几种策略得到其父流程：（１）添加额外的顺序节点将一系列顺序节点添加到头部、中间、尾部３个位置。如图３（１）所示，ａ是检索流程，将一系列顺序节点（库所Ｐ４和变迁Ｃ）分别加在ａ的头部、中间和尾部，可以得到ｂ～ｄ。这种改造没有影响原流程模型的整体结构，但是改变了其执行序列。７０１１计算机集成制造系统第２３卷（２）添加选择分支将额外的选择分支添加到给定流程模型上，从行为上考虑，改造后的流程模型会在执行序列上多一个选择。如图３（２）所示，ａ是一个检索流程，包括２个选择分支。将一条额外的选择分支Ｐ２→Ｆ→Ｐ６→Ｇ→Ｐ５加在ａ后，得到ｂ。ｂ与ａ相比，整体结构发生了变化，但是行为有可能相同。例如：若ａ和ｂ都执行Ａ，Ｂ，Ｄ或者Ａ，Ｃ，Ｅ，则它们的执行序列就是相同的。（３）添加并行分支并行分支的添加会使改造后的流程和原流程的结构与行为都发生变化。如图３（３）所示，ｂ在ａ上添加了一个并行分支Ａ→Ｐ７→Ｅ→Ｐ８→Ｄ。（４）添加循环分支添加了循环分支后，流程模型在结构上是原流程模型的父流程模型，两者的行为也有可能相同。如图３（４）所示，ａ添加了一个循环分支Ｐ３→Ｄ→Ｐ５→Ｅ→Ｐ１后变成了ｂ，该循环分支是从Ｐ３开始、Ｐ１结束。若ｂ不执行它的循环分支，则ｂ与ａ的行为就是相同的。１．３．２　删除子结构或子行为若一个流程模型Ｍ与另一个流程模型Ｓ相比，除了包含Ｓ的结构或行为外还包含额外的节点、边或者执行序列，则Ｓ是Ｍ的子模型。给定一个流程模型，有以下３种策略可以改造成其子模型：①删除选择分支、并行分支、循环分支中的一种分支；②删除一个子执行序列；③删除选择片段、并行片段、循环片段中的一个片段。（１）删除分支给定一个流程模型，删除一个选择、并行或循环分支后可以得到改造后的流程模型。分支是指控制流结构（选择、并行、循环结构）中一系列顺序节点组成的一条支路。如图４（１）所示，ａ是一个检索流程，ｂ～ｄ分别为在ａ的基础上删除一个选择分支Ｐ１→Ｅ→Ｐ７→Ｈ→Ｐ８→Ｇ→Ｐ４、一个并行分支Ａ→Ｐ５→Ｆ→Ｐ６→Ｃ和一个循环分支Ｐ３→Ｄ→Ｐ２后的结果。（２）删除子执行序列给定一个流程模型，它有多个执行序列，删除其中的部分执行序列，得到其基于行为的子流程模型。如图４（２）所示，ａ可以是一个检索流程，其包含的子序列集合为｛Ａ→Ｂ→Ｃ→Ｄ，Ａ→Ｃ→Ｂ→Ｄ｝，删除其中的一条子执行序列Ａ→Ｃ→Ｂ→Ｄ后，可以得到ｂ。（３）删除片段一个片段是指整个控制流程结构，包括从控制流结构的入口节点到出口节点间的所有节点和边。如图４（３）所示，ｂ删除了ａ中的一个顺序片段Ｐ１→Ａ→Ｐ５→Ｆ。在图４（４）中，ａ删除了一个选择片段，该片段包括节点｛Ｐ２，Ｐ３，Ｐ４，Ｐ５，Ｂ，Ｃ，Ｄ，Ｅ｝及这些节点间的边，得到ｂ，但是为了保持流程模型的连通性，保留了库所节点Ｐ２，使其与变迁Ａ连接起来。相似地，图４（５）和图４（６）分别是ａ删除了一个并行片段和一个循环片段之后的结果。１．３．３　重命名任务节点标签或者打乱任务节点顺序对流程模型中的任务节点进行以下两种操作，可以将一个给定流程改造成其相关流程：①重命名任务节点标签，即将任务节点的原有标签替换成新的标签，且新的标签在该流程模型中没有出现过。②打乱任务节点顺序，即对任务节点的顺序进行重新排序，使其与原有的顺序不同。如图５所示，ａ是一个检索流程，ｂ，ｃ和ａ具有相同的结构，ｂ将ａ中任务节点Ａ，Ｂ，Ｃ，Ｄ的标签分别重命名为Ｅ，Ｆ，Ｇ，Ｈ；ａ中的任务节点顺序为Ａ→Ｂ→Ｃ→Ｄ，ｃ将其顺序打乱为Ｄ→Ｃ→Ａ→Ｂ。１．３．４　组合结合以上２种或２种以上策略，也可以将一个给定的流程模型改造成其相关流程。如图６所示，通过使用以下２种策略可将ａ变成ｂ：①重命名任务节点标签，将任务节点Ａ，Ｂ的标签重命名为Ｇ，Ｈ；②添加循环分支Ｐ４→Ｅ→Ｐ６→Ｆ→Ｐ２。１．４　对相关流程进行排序为了获得每个检索流程对应相关流程的排序结果，设计了１０个用户调查［１９］。图７所示为第１个用户调查的例子，图中列出了检索流程１及其对应的９个相关流程（编号为２～１０）。通过采访２３位领域专家完成这１０个用户调查，让他们对每组流程模型中的相关流程进行排序。２３位受访者包括在读硕士研究生和博士研究生，专业涉及数据挖掘、图像处理、工作流管理、服务计算等领域。每个受访者根据自己的专业知识对每个检索流程的相关流程按与其相似性从大到小排序并将排序结果写在用户调查表的“排序”这一行（如图７最后一行），例如对于检索流程１，｛２，３，６，４，１０，５，７，９，８｝可能是某个受访者得到的一种排序结果。整合２３位领域专家的结果，得到该组中的检索流程对应相关流程的一个基准排序结果。７０１２６－０８－２５；修订日期：２０１６－０９－１０。Ｒｅｃｅｉｖｅｄ　２５Ａｕｇ．２０１６；ａｃｃｅｐｔｅｄ　１０Ｓｅｐ．２０１６．基金项目：国家自然科学基金资助项目（６１６０２４１１，６１２７２３０８）；浙江省自然科学基金资助项目（ＬＹ１５Ｆ０２００３０）；浙江省重大科技专项重点工业资助项目（２０１５Ｃ０１０３４，２０１５Ｃ０１０２９）；杭州市重大科技创新资助项目（２０１５２０１１Ａ０３）。Ｆｏｕｎｄａｔｉｏｎ　ｉｔｅｍｓ：Ｐｒｏｊｅｃｔ　ｓｕｐｐｏｒｔｅｄ　ｂｙ　ｔｈｅＮａｔｉｏｎａｌ　Ｎａｔｕｒａｌ　Ｓｃｉｅｎｃｅ　Ｆｏｕｎｄａｔｉｏｎ，Ｃｈｉｎａ（Ｎｏ．６１６０２４１１，６１２７２３０８），ｔｈｅ　Ｎａｔｕｒａｌ　Ｓｃｉｅｎｃｅ　Ｆｏｕｎｄａｔｉｏｎ　ｏｆ　Ｚｈｅｊｉａｎｇ　Ｐｒｏｖｉｎｃｅ，Ｃｈｉｎａ（Ｎｏ．ＬＹ１５Ｆ０２００３０），ｔｈｅ　Ｋｅｙ　Ｒｅｓｅａｒｃｈ　ａｎｄ　Ｄｅｖｅｌｏｐｍｅｎｔ　Ｐｒｏｊｅｃｔ　ｏｆ　Ｚｈｅｊｉａｎｇ　Ｐｒｏｖｉｎｃｅ，Ｃｈｉｎａ（Ｎｏ．２０１５Ｃ０１０３４，２０１５Ｃ０１０２９），ａｎｄｔｈｅ　Ｍａｊｏｒ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ　Ｉｎｎｏｖａｔｉｏｎ　Ｐｒｏｊｅｃｔ　ｏｆ　Ｈａｎｇｚｈｏｕ　Ｃｉｔｙ，Ｃｈｉｎａ（Ｎｏ．２０１５２０１１Ａ０３）．ＰｒｏＢｅｎｃｈ：一种评估流程相似性查询算法的基准数据集曹　斌，王佳星，安卫士，范　菁＋，程时伟（浙江工业大学计算机科学与技术学院，浙江　杭州　３１００２３）摘　要：针对目前缺乏评估现有流程相似性算法性能的基准数据集问题，在ＩＢＭ公开的数据集基础上，用Ｐｅ－ｔｒｉ网建模流程模型，提出一种评估流程相似性查询算法的基准数据集。该数据集由１００个流程模型组成，其中标记出了１０个检索流程与其各自的９个相关流程，以及相关流程的排序顺序。对于每个检索流程，其９个相关流程与该检索流程的相关性排序顺序由一个用户调查的结果确定，将该结果作为一个基准对算法的结果进行评估。选取３个基于结构的和１个基于行为的流程相似性查询算法，对它们在准确率和效率两个方面进行了评估，实验结果展示了这些算法各自的适用场景。所提出的基准数据集和相关的算法代码已经公开发布在网上，可供研究人员下载使用。关键词：基准数据集；业务流程；相似性；Ｐｅｔｒｉ网中图分类号：ＴＰ３１１　　　文献标识码：ＡＰｒｏＢｅｎｃｈ：ａ　ｂｅｎｃｈｍａｒｋ　ｄａｔａｓｅｔ　ｆｏｒ　ｅｖａｌｕａｔｉｎｇ　ｔｈｅ　ｐｒｏｃｅｓｓ　ｓｉｍｉｌａｒｉｔｙ　ｓｅａｒｃｈ　ｍｅｔｈｏｄｓＣＡＯ　Ｂｉｎ，ＷＡＮＧ　Ｊｉａｘｉｎｇ，ＡＮ　Ｗｅｉｓｈｉ，ＦＡＮ　Ｊｉｎｇ＋，ＣＨＥＮＧ　Ｓｈｉｗｅｉ（Ｃｏｍｐｕｔｅｒ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ　Ｃｏｌｌｅｇｅ，Ｚｈｅｊｉａｎｇ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｔｅｃｈｎｏｌｏｇｙ，Ｈａｎｇｚｈｏｕ　３１００２３，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ａ　Ｂｅｎｃｈｍａｒｋ　ｄａｔａｓｅｔ　ｉｓ　ｐｒｅｓｅｎｔｅｄ　ｔｏ　ｅｖａｌｕａｔｅ　ｔｈｅ　ｐｅｒｆｏｒｍａｎｃｅ　ｏｆ　ｄｉｆｆｅｒｅｎｔ　ｐｒｏｃｅｓｓ　ｓｉｍｉｌａｒｉｔｙ　ｓｅａｒｃｈ　ｍｅｔｈ－ｏｄｓ．Ｔｈｉｓ　ｄａｔａｓｅｔ　ｉｓ　ｂｕｉｌｔ　ｂａｓｅｄ　ｏｎ　ｔｈｅ　ｅｘｉｓｔｉｎｇ　ｐｕｂｌｉｃ　ＩＢＭ　ｄａｔａｓｅｔ，ｗｈｅｒｅ　ｔｈｅ　ｓｅａｒｃｈ　ｍｏｄｅｌｓ，ｔｈｅｉｒ　ｃｏｒｒｅｓｐｏｎｄｉｎｇｒｅｌｅｖａｎｔ　ｍｏｄｅｌｓ　ａｎｄ　ｔｈｅ　ｏｒｄｅｒ　ｏｆ　ｔｈｅｓｅ　ｒｅｌｅｖａｎｔ　ｍｏｄｅｌｓ　ａｒｅ　ｍａｎｕａｌｌｙ　ｌａｂｅｌｅｄ　ｂｙ　ｕｓｉｎｇ　ｔｈｅ　ｂｕｓｉｎｅｓｓ　ｄｏｍａｉｎ　ｋｎｏｗｌ－ｅｄｇｅ．Ｔｈｅ　ｒｅｌｅｖａｎｔ　ｍｏｄｅｌｓ　ａｒｅ　ｍａｎｕａｌｌｙ　ｓｙｎｔｈｅｔｉｚｅｄ　ｂｙ　ａｄｄｉｎｇ，ｄｅｌｅｔｉｎｇ，ｏｒ　ｃｏｍｂｉｎｉｎｇ　ｔｈｅ　ｒｅｌｅｖａｎｔ　ｎｏｄｅｓ　ａｎｄ　ｆｒａｇ－ｍｅｎｔｓ．Ｂａｓｅｄ　ｏｎ　ｔｈｉｓ　ｄａｔａｓｅｔ，ｔｈｅ　ｐｒｅｃｉｓｉｏｎ　ａｎｄ　ｅｆｆｉｃｉｅｎｃｙ　ｏｆ　ｓｏｍｅ　ｐｒｏｃｅｓｓ　ｓｉｍｉｌａｒｉｔｙ　ｓｅａｒｃｈ　ｓｉｍｉｌａｒｉｔｙ　ｍｅｔｈｏｄｓ　ｉｎｔｅｒｍｓ　ｏｆ　ｓｔｒｕｃｔｕｒｅ　ａｎｄ　ｂｅｈａｖｉｏｒ　ａｒｅ　ｅｖａｌｕａｔｅｄ．Ｔｈｅ　ｄａｔａｓｅｔ　ａｎｄ　ｃｏｒｒｅｓｐｏｎｄｉｎｇ　ｓｉｍｉｌａｒｉｔｙ　ｓｅａｒｃｈ　ａｌｇｏｒｉｔｈｍ　ｃｏｄｅｓ　ａｒｅａｖａｉｌａｂｌｅ　ｔｏ　ｔｈｅ　ｐｕｂｌｉｃ　ｏｎ　ａ　ｗｅｂｓｉｔｅ１．Ｋｅｙｗｏｒｄｓ：ｂｅｎｃｈｍａｒｋ　ｄａｔａｓｅｔ；ｂｕｓｉｎｅｓｓ　ｐｒｏｃｅｓｓ；ｓｉｍｉｌａｒｉｔｙ；Ｐｅｔｒｉ－ｎｅｔ０　引言近几年，随着业务流程管理（Ｂｕｓｉｎｅｓｓ　ＰｒｏｃｅｓｓＭａｎａｇｅｍｅｎｔ，ＢＰＭ）技术的快速发展，大量业务流程模型应运而生。例如，中国海尔集团拥有３　０００多个流程模型，其中大多数流程模型都涉及家用电器的开发［１］。这些流程模型都是公司宝贵的资产，需要有效地管理起来，由此产生了不同的流程管理技术。业务流程再造（Ｂｕｓｉｎｅｓｓ　Ｐｒｏｃｅｓｓ　Ｒｅ－ｅｎｇｉｎｅｅｒｉｎｇ，ＢＰＲ）便是其中的一种流程管理技术，该技术旨在对现有的流程模型进行重新设计。在该过程中，若设计人员能够在流程库中找到一个与该待重新设计流程相似的流曹　斌等：ＰｒｏＢｅｎｃｈ：一种评估流程相似性查询算法的基准数据集不同的受访者有不同的排序结果，先对排序结果进行简单的人工复审，即检查受访者给出的排序顺序是否包含了所有的待排序流程编号、是否出现了重复的流程编号、是否遗漏了某个流程的编号。若出现以上错误，则该排序顺序作废，再使用下面的策略整合同一个用户调查的不同结果。如表２所示，首先将排在第１名的流程模型赋权重０．９，第２名赋权重０．８，…，第９名赋权重０．１；然后对于每一个编号对应的流程模型，将所有受访者对其排序得到的权重进行相加，得到一个总权重。以表２中的例子进行说明，表中数据来自３个７０１３计算机集成制造系统第２３卷受访者对同一个检索流程的相关流程进行排序的结果。２号流程得到的总权重为０．９＋０．８＋０．９＝２．６，３号流程的总权重为０．８＋０．９＋０．６＝２．３。同样地，剩余７个相关流程的总权重如下：４号２．０、５号１．１、６号１．２、７号１．７、８号０．７、９号１、１０号０．９。因此该检索流程的相关流程最后的排序结果为｛２，３，４，７，６，５，９，１０，８｝。表２　排序例子位置１　２　３　４　５　６　７　８　９权重０．９　０．８　０．７　０．６　０．５　０．４　０．３　０．２　０．１受访者１　２　３　５　４　１０　９　７　６　８受访者２　３　２　４　７　６　８　５　９　１０受访者３　２　７　４　３　６　９　１０　８　５事实上，不同的受访者会根据自己的专业知识对相关流程与检索流程之间的相似程度作出不同的判断。因此，为了使本文的数据集更适合工作流领域，可以请一些工作流领域的专家接受用户调查，因为他们更了解流程图，其排序结果会更具代表性，从而使数据集更有效、更加令人信服。２　算法已有的计算结构和行为相似度的４个流程相似性查询算法主要有：①基于贪心算法的结构相似性查询算法（Ｇｒｅｅｄｙ）［７］。②基于Ａ星的结构相似性查询算法（Ａ＊）［７］。③基于匈牙利算法的结构相似性查询算法（Ｈｕｎｇａｒｉａｎ）［１１］。④基于变迁紧邻关系（Ｔｒａｎｓｉｔｉｏｎ　Ａｄｊａｃｅｎｃｙ　Ｒｅｌａｔｉｏｎ，ＴＡＲ）的行为相似性查询算法［１３］。现有大多流程相似性研究都关注结构相似性，少部分关注行为相似性，因此本文选择３个结构相似性算法和１个行为相似性算法进行描述。２．１　结构相似性查询算法２．１．１　基于贪心（Ｇｒｅｅｄｙ）算法实现Ｇｒｅｅｄｙ算法在计算两个流程模型的相似度时，会在每一轮迭代地寻找当前最佳映射的节点对，即原来的结构加上当前选出的节点对后，其图编辑距离（Ｇｒａｐｈ　Ｅｄｉｔ　Ｄｉｓｔａｎｃｅ，ＧＥＤ）［２０］最小。给定两个用Ｐｅｔｒｉ网建模的流程模型，Ｇｒｅｅｄｙ算法首先将所有可能映射的节点对组合都加到一个集合ｏｐｅｎｐａｉｒｓ中，需要注意的是，只有相同类型的节点之间才能进行映射，即库所只能与库所映射，变迁只能与变迁映射。于是一个空的映射集合Ｍ建立起来，用以存储最终映射起来的节点对。在每一轮迭代过程中，算法会在ｏｐｅｎｐａｉｒｓ中挑选出一个映射的节点对，该节点对能最大程度地增加两个流程模型的相似度。接着，映射的节点对会从ｏｐｅｎｐａｉｒｓ中删除。算法如此不断迭代地构建Ｍ，直到没有节点对可以再增加两个流程模型的相似度。Ｇｒｅｅｄｙ算法的时间复杂度为Ｏ（ｎ３）、空间复杂度为Ｏ（ｎ２），其中ｎ表示两个流程模型中包含的最大节点数目。Ｇｒｅｅｄｙ算法属于一种启发式算法，其得到的解是局部最优解，并不是真正的全局最优解。２．１．２　基于Ａ＊算法实现Ａ＊算法的目标是构建一个使两个流程模型相似度最高的节点映射集合，用ＧＥＤ的思想来说就是每一轮都寻找使两个流程模型ＧＥＤ最小的一对映射节点。在每一轮中，Ａ＊将在原来映射节点对的基础上构建一个更大的节点映射集合，在未映射的节点对集合中选择当前能最大程度增加两个流程模型相似度的节点对，然后开始下一轮新的计算。算法迭代地构建部分最佳映射节点对，直至不能找到一个更大的映射节点对集合来增加两个流程的相似度。Ａ＊算法至少需要执行Ｏ（ｎ２　ｍ）步，最差的情况是Ｏ（ｎｍ），其中ｍ和ｎ分别表示两个流程模型中的节点数目。有研究已经证明Ａ＊算法能找出全局最优的节点映射集合［７，２１］。２．１．３　基于匈牙利（Ｈｕｎｇａｒｉａｎ）算法实现Ｇｒｅｅｄｙ和Ａ＊算法耗时多，这是由于它们在每一轮寻找映射节点对时都需要多次计算ＧＥＤ。Ｈｕｎｇａｒｉａｎ算法在计算两个流程模型的相似度时只需计算一次ＧＥＤ，从而节省了大量的时间。Ｈｕｎｇａｒｉａｎ算法与Ｇｒｅｅｄｙ和Ａ＊算法不同，它７０１４曹　斌等：ＰｒｏＢｅｎｃｈ：一种评估流程相似性查询算法的基准数据集不是一边计算ＧＥＤ一边寻找映射的节点对，而是在找完映射的节点对后计算一次ＧＥＤ。首先，算法创建一个节点相似度矩阵，该矩阵记录了两个流程模型中所有可能映射的节点对之间的节点相似度。在该矩阵中，用Ｈｕｎｇａｒｉａｎ算法［２２］找出使总的节点相似度（即所有映射节点对的节点相似度的总和）最高的映射节点对集合。最后基于该节点映射集合得到两个流程间的相似度。２．２　行为相似性查询算法一个流程模型的行为指其任务节点的执行顺序组成的执行序列，包括哪些任务节点已被执行以及以怎样的顺序被执行［１］。当前计算流程间行为相似度的算法很多，本文选择基于ＴＡＲ的行为相似性查询算法。ＴＡＲ指两个相邻变迁的触发顺序，即哪一个变迁先被触发，哪一个被后触发。之所以采用ＴＡＲ，是因为用ＴＡＲ计算流程模型间行为相似度时的限制更小，若用全序列来计算相似度则过于严格［１３］，只有全序列完全相同的两个流程的行为才是一致的。由此，两个流程模型的行为相似度是基于对应的两个ＴＡＲ集合的相似程度来衡量。在得到一个流程模型的变迁紧邻关系集合时，用前缀展开的方法可以避免状态爆炸的问题，比用可达图的方法更好［２３］。分别得到两个流程模型的ＴＡＲ集合后，其相似度可以通过其ＴＡＲ集合的交集和并集的比率得到［１２］。３　实验评估下面从以下几方面对本文所提数据集的有效性或可用性进行评估：①数据集中选取和改造流程的正确性。用Ｐｅｔｒｉ网对工作流进行建模，并保证其建模的正确性，使结构和行为相似性算法都能对每个Ｐｅｔｒｉ网建模的流程进行解析。② 使用者的反馈。使用者使用本文所提基准数据集进行实验后会有一个反馈，根据反馈可知该数据集是否有效、是否可行，并通过反馈及时对数据集进行改进，使数据集更有效、更具有可用性。本节从准确率和效率两个方面使用本文提出的基准数据集考察第２章流程相似性查询算法的性能。准确率的评估主要是将数据集中标记出来的相关流程及其排序顺序与算法查询出来的结果进行比较，算法的效率通过评估一个流程查询一个流程库的时间来确定。所有实验都在以下配置机器上进行：Ｉｎｔｅｌ（Ｒ）Ｘｅｏｎ（Ｒ）ＣＰＵ　Ｅ５－２６３７，３．５０ＧＨｚ处理器，８ＧＢ　ＲＡＭ，ＪＤＫ７，Ｗｉｎｄｏｗｓ　７。３．１　准确率评估３．１．１　衡量标准现有的一些评估准确率的衡量标准，如Ｐ＠ｎ和ＭＡＰ都没有对相关流程的位置进行评估，因此不能准确描述流程相似性查询算法的准确率，它们不能反映出这种信息，即排在前面的相关流程比排在后面的相关流程重要［２４］。因此，本文对算法准确率的评估使用归一化折损累积增益（Ｎｏｒ－ｍａｌｉｚｅｄ　Ｄｉｓｃｏｕｎｔ　Ｃｕｍｕｌａｔｉｖｅ　Ｇａｉｎ，ＮＤＣＧ）［２５］，ＮＤ－ＣＧ按式（１）给相关流程的排序结果计算出一个得分：Ｎ（ｎ）＝ｒ（ｎ），ｎ＝１；ｒ（１）＋∑Ｎｎ＝２ｒ（ｎ）ｌｏｇ２ｎ，ｎ＞１烅烄烆；（１）ｐｒｅｃｉｓｉｏｎ＝Ｎ（ｎ）Ｉ（ｎ）×｜前ｎ个流程中相关流程｜ｎ。（２）式中：Ｎ（ｎ）表示某个给定流程模型和其ｎ个相关流程的ＮＤＣＧ值；ｒ（ｎ）是排在第ｎ个位置的相关流程的权重，由用户自定义决定；Ｉ（ｎ）表示某个给定流程模型和与其ｎ个相关流程的归一化折损累积增益（Ｉｄｅａｌ　Ｄｉｓｃｏｕｎｔ　Ｃｕｍｕｌａｔｉｖｅ　Ｇａｉｎ，ＩＤＣＧ）值。在查询一个检索流程模型的相关流程时，不同的流程相似性查询算法查询到的相关流程可能不同，即使查询到的相关流程相同，其排序顺序也有可能不同，为了比较不同算法的准确率，通过用户调查获得一个检索流程模型相关流程的基准排序，即标准的ＩＤ－ＣＧ，该基准排序结果通过式（１）计算得到。然后，计算不同算法为一个检索流程查询其前ｎ个相关流程对应的ＮＤＣＧ值，用式（２）将ＮＤＣＧ与ＩＤＣＧ进行比较得到算法的准确率。在实验中考察查询１０个检索流程的相关流程及其排序的平均准确率，即平均归一化折损累积增益（Ａｖｅｒａｇｅ　Ｎｏｒｍａｌｉｚｅｄ　Ｄｉｓ－ｃｏｕｎｔ　Ｃｕｍｕｌａｔｉｖｅ　Ｇａｉｎ，ＡＮＤＣＧ）。３．１．２　结果对于数据集中标记出来的１０个检索流程，通过计算查询每个检索流程对应的相关流程及其排序顺序的ＮＤＣＧ，比较Ｇｒｅｅｄｙ，Ａ＊，ＴＡＲ和Ｈｕｎｇａｒｉａｎ４个算法的查询准确率。如图８所示，每个检索流程都采用４个算法进行查询。表３所示为每个算法查询１０个检索流程的ＡＮＤＣＧ，即对图８的平均结７０１５计算机集成制造系统第２３卷果。从表中可以看出，所有算法查询１号和２号检索流程的准确率都很高，这是由于这两个检索流程包含的是最简单的顺序结构，所有算法都能处理得很好。对于包含比较复杂结构的检索流程，如４，６，７，８，９号检索流程，ＴＡＲ算法的准确率最高，Ｈｕｎ－ｇａｒｉａｎ和Ｇｒｅｅｄｙ算法展现了相似的准确率，Ａ＊的准确率最低。随着控制流结构变得复杂，ＴＡＲ算法在准确率方面比其他３种算法表现得更优秀，其中的一个原因是，在受访者进行相关流程排序时，相比于流程结构，他们更看重流程行为。表３　ＡＮＤＣＧ算法ＡＮＤＣＧ／％Ｇｒｅｅｄｙ　９０．４６Ａ＊８４．３５ＴＡＲ　９２．３４Ｈｕｎｇａｒｉａｎ　９０．６５３．２　效率评估下面比较Ｇｒｅｅｄｙ，Ａ＊，ＴＡＲ和Ｈｕｎｇａｒｉａｎ　４个算法的查询时间。一方面，考察各算法计算两个流程（单个流程和单个流程）的相似度执行时间；另一方面，考察不同算法为一个检索流程查询一个流程库（单个流程与多个流程）的查询时间。３．２．１　单个流程与单个流程对于包含复杂并行结构的流程模型，ＴＡＲ不能很快对其进行相似度计算，由此设计一个实验来考察并行结构中所包含的任务节点数对ＴＡＲ算法执行时间的影响。给定一个基准流程模型，它包含３个并行分支，每个并行分支中有５个任务节点。与该基准流程模型进行相似度计算的５个待比较流程模型分别包含２，３，４，５，６个分支，如图９ａ横坐标所示。由实验结果可知，当待比较流程模型包含的并行分支数较少时（２或者３），流程模型中对应的执行序列长度也较短，因此ＴＡＲ算法能快速地对其进行处理。当待比较流程的分支数大于３时，ＴＡＲ处理这些流程的时间呈指数增长，因为分支数增多后任务节点之间的执行顺序排列方式也呈指数增多。图９ｂ～图９ｄ是固定基准流程，分别改变另一个流程的库所数、变迁数、边数３个因素后，查看计算两个流程相似度的执行时间。图９ｂ中使用的基准流程包括５３个库所节点、５５个变迁节点和２００条边；图９ｃ和图９ｄ使用的是同一个基准流程，包括９７个库所节点、５５个变迁节点和２００条边。从图中可以看到，库所数和边数的变化对算法执行时间的影响不大，即随着库所数和边数的增大，两个流程间的相似度计算时间没有明显变化。然而随着变迁数的增大，Ｇｒｅｅｄｙ算法的执行时间有明显的增加，Ａ＊算法有轻微的增加趋势，如图９ｃ所示。总之，在计算单个流程模型与单个流程模型间的相似度时，Ｇｒｅｅｄｙ算法耗时最多，其次是Ａ＊，Ｈｕｎｇａｒｉａｎ算法的效率最高。Ｇｒｅｅｄｙ和Ａ＊算法耗时高的原因是计算两个流程相似度时，寻找两个流程模型间的映射节点对中会涉及大量的ＧＥＤ计算。在每一轮迭代中，Ｇｒｅｅｄ－ｙ算法会选择能够最大程度增加当前两个流程模型相似度的一对映射节点对，由此每一对未映射的节点对都会被计算一次ＧＥＤ，因此Ｇｒｅｅｄｙ算法的效７０１６第５期曹　斌等：ＰｒｏＢｅｎｃｈ：一种评估流程相似性查询算法的基准数据集率会比Ａ＊低。Ｈｕｎｇａｒｉａｎ只计算一次ＧＥＤ，且寻找映射节点对的时间很快，因此耗时非常少。在本节单个流程与单个流程比较的实验数据中，流程模型中的并行结构包含的任务节点数很少，因此ＴＡＲ能很快对其进行相似度计算。任务节点数对算法的执行时间有显著的影响，这是因为在算法实现过程中，计算两个用Ｐｅｔｒｉ网流程建模的流程模型间的相似度时，库所节点间的相似度由其上下文环境（流入、流出该库所的变迁）［１１］决定，当任务节点数少时，映射的库所节点对数目随之变少，因此Ｇｒｅｅｄｙ和Ａ＊算法的执行时间也比较短。３．２．２　单个流程与多个流程选择１００个流程模型创建一个新的流程库，流程库中包含的流程模型详情如表４所示。图１０ａ所示为固定检索流程模型（库所数为９７，变迁数为５５，边数为２００），查看改变流程库中流程的数量（如横坐标）对算法执行时间的影响。从图中可以观察到，随着流程库中流程模型数的增加，每个算法的查询总时间都明显增加，其中Ｇｒｅｅｄｙ算法耗时最多，其次是Ａ＊，ＴＡＲ和Ｈｕｎｇａｒｉａｎ算法。Ｇｒｅｅｄｙ算法的耗时比Ｈｕｎｇａｒｉａｎ算法多了两个数量级，这是由于多次计算ＧＥＤ的结果。表４　新流程库的流程详情元素数最小值最大值平均值库所数７　９０　５５．０５变迁数５　９６　５０．３０边数１２　１９２　１１５．１０图１０ｂ～图１０ｄ的实验结果分别展示了固定流程库大小为１００时，改变检索流程的库所数、变迁数和边数对算法执行时间的影响。可以看出，库所数和边数变化对时间的影响不明显。需要注意的是，在图１０ｃ中，当变迁数少于３７时，Ｇｒｅｅｄｙ算法耗时比Ａ＊少；当变迁数多于３７时，Ｇｒｅｅｄｙ算法慢于Ａ＊算法。这是由于当检索流程中包含的变迁数量较少时，映射的变迁比率会随之变少，导致映射的库所对数减少，从而使总的节点映射对数变少，Ｇｒｅｅｄ－ｙ算法可以快速遍历所有可能映射的节点对，并从中找出当前最佳的节点映射对。然而随着变迁数的增加，潜在的变迁映射对数随之增加，从而使Ｇｒｅｅｄｙ算法花费大量时间来遍历它们。最后，对４种算法进行对比，考虑在何种情况下使用哪种算法比较合适。Ｇｒｅｅｄｙ，Ａ＊，ＴＡＲ，Ｈｕｎ－ｇａｒｉａｎ　４种算法在算法性质（算法计算的是两个流程间的结构相似度还是行为相似度）、流程库大小、流程库中流程是否复杂和并行任务多等情况下的适用情况如表５所示。其中Ｇｒｅｅｄｙ，Ａ＊，Ｈｕｎｇａｒｉａｎ算法均为结构相似性查询算法，ＴＡＲ算法则是行为相似性查询算法。从表中可知，Ｈｕｎｇａｒｉａｎ算法对流程库大小、流程库的复杂度不敏感，适用于任何情况；ＴＡＲ只在并行任务多的情况下不适合，在并行任务少的情况下能较快地提取出一个流程模型中的变迁紧邻关系，并进行行为相似度计算。当流程库比较小但流程结构复杂时，Ｇｒｅｅｄｙ和Ａ＊是不适合的；当流程库小但流程简单时，４种算法均适合使用；当流程库大且简单时，Ｇｒｅｅｄｙ和Ａ＊可以考虑使用；当流程库大且复杂时，这两种算法都不适用。表５　算法的对比结果算法结构算法行为算法流程库小流程库大流程库简单流程库复杂并行任务多Ｇｒｅｅｄｙ √ × 乄乄乄乄乄Ａ＊√ × 乄乄乄乄乄ＴＡＲ × √ 乄乄乄乄 ×Ｈｕｎｇａｒｉａｎ √ × √ √ √ √ √注：√为适合，×为不合适，乄为有些情况适合。４　结束语本文提出一个基准数据集，在该数据集中标记７０１７

[返回]

上一篇：安全与成本感知的实例密集型云工作流调度方法
下一篇：O2O服务推荐策略的计算实验比较