基于条件概率的临床诊疗事件打包算法研究 - 机械论文 - 一起赢论文辅导网--专业代写代发SCI、EI、核心期刊、代写MBA、硕博毕业论文。QQ910330594

欢迎访问一起赢论文辅导网

加入收藏 | 设为主页 | 联系我们

本站动态

联系我们

QQ：3949358033

微信：paperwinner

工作时间：9:00-24:00

成功案例

机械论文

当前位置：首页 > 机械论文

基于条件概率的临床诊疗事件打包算法研究

来源：一起赢论文网日期：2018-03-01 浏览数：3038 【字体：大中小】

计算机集成制造系统第２３卷要么数量众多、使人难以抓住重点。如何从医疗数据中挖掘到清晰可理解的过程模型，仍然是一个巨大的挑战。针对上述挑战，本文提出一种基于共现事件打包的临床诊疗过程挖掘方案，该方案通过将满足“共现”关系的临床诊疗事件打包在一起的方法来简化原本繁琐复杂的临床医疗数据，简化后的数据经过传统的过程挖掘可以得到清晰合理的临床诊疗过程模型，从而解决了传统过程挖掘方法在临床诊疗过程挖掘中的适配问题。本文的主要贡献如下：①提出一种全新的临床诊疗过程挖掘方案，该方案同样适用于其他病种的收费项数据，是通用的；②首次提出基于条件概率的临床诊疗事件打包（Ｃｌｉｎｉｃａｌ　Ｅｖｅｎｔ　Ｐａｃｋａｇｅ　Ｍｉｎ－ｉｎｇ，ＣＥＰＭ）算法。１　相关工作近年来，越来越多的研究试图将数据挖掘的方法应用到挖掘临床数据中的医学知识上。这些研究从总体上可以划分为对整体的探究和对局部的探究两类。整体探究的目的在于发现能够从宏观层面描述医学行为的知识，例如过程挖掘旨在挖掘到能够反映整体流程的医学知识。Ｍａｎｓ等［５］将过程挖掘的方法用于发现中风患者在不同医院如何被治疗，其采用工具ＰｒｏＭ［６］中的启发式挖掘（Ｈｅｕ－ｒｉｓｔｉｃ　Ｍｉｎｅｒ，ＨＭ）算法［７］，从工作流的角度进行研究，并进一步利用过程挖掘的方法对妇科肿瘤疾病的治疗流程进行研究［８］，然而当第一次使用ＨＭ算法时得到了意大利面状的、难以理解的流程模型，Ｍａｎｓ等将这一现象归咎于临床数据特有的复杂和非结构化的特性。作为改进，Ｍａｎｓ等对原始数据进行了轨迹聚类并改用模糊挖掘（Ｆｕｚｚｙ　Ｍｉｎ－ｅｒ，ＦＭ）算法［９］进行挖掘，得到了更易理解的流程模型。Ｌａｎｇ等［１０］在其工作中遇到了同样的问题，通过对７种过程挖掘经典算法进行实验得到如下结论：没有任何一种方法能够很好地解决临床数据自身复杂性和弱结构化带来的诸多挑战。Ｚｈａｎｇ等［１１］运用基于最长公共子序列的分层聚类方法，将病人分为６个组，并对每一个组进行了基于概率的同样诊疗路径，该工作同样面临着结果的可理解性问题。为了避免临床路径整体探究带来的混乱，局部探究的研究将重点放在发现患者事件日志自身的一些局部特征。这些研究通常会倾向于使用频繁项或者频繁模式挖掘的方法，以得到局部特征或者发现一些异常。Ｈｕａｎｇ等［１２］提出一个在多项式时间内通过频繁项集挖掘得到重要医学活动来得到总结式临床路径的方法，该方法将临床诊疗事件日志划分为多个时间段，并在每一个时间段运用频繁项集挖掘算法得到重要诊疗活动集，将这些重要诊疗活动集按照时间顺序连接起来，得到总结式临床路径。该方法的不足是非频繁诊疗活动的丢失以及对临床诊疗活动的简化过程。由于原始数据中可能存在成百上千个原始活动，而该文用于挖掘的日志中仅包含２６个基本活动，这些活动的选取方法在该文中并未提及。Ｇｏｔｚ等［１３］使用基于位图的频繁模式挖掘方法（ＳｅｑｕｅｎｔｉａｌＰａｔｔｅｒｎ　Ｍｉｎｉｎｇ，ＳＰＡＭ）［１４］，同样在特定的时间间隔内进行挖掘并得到重要活动，该方法的新颖之处在于引入了医疗活动的结果，并以此帮助医生研究医疗事件与特定医疗结果之间可能的因果关系。Ｉｗａｔａ等［１５］提出一个时间性数据挖掘方法，通过将临床诊疗事件分组的方法生成临床路径，采用聚类和多维尺度分析方法主要得到两个分组，即对治疗不可或缺的事件和对病人状态有特殊影响的事件。Ｈｕａｎｇ等［１６］提出一种在给定临床工作流日志和最小支持度的情况下可以发现临床路径模式的挖掘算法，通过对临床活动序列进行挖掘来获取这些活动序列的临床路径模式。与传统序列模式挖掘算法相比，该算法不仅在执行时间上有明显的优势，在挖掘结果上也更胜一筹。尽管如此，因为该方法关注的重点在全局频繁的临床路径模式，所以不可避免地会忽略一些非频繁的临床诊疗活动，然而这些非频繁的活动往往有一些在整个诊疗过程中扮演着非常重要的角色，不应该被忽略。Ｐｅｒｅｒ等［１７］使用一个频繁序列挖掘算法来解决现实电子病历数据中存在的问题，首先发现了频繁项集挖掘算法中由已有事件的所有可能组合及这些组合的子集合迅速累积带来的“模式爆炸”问题，在数据预处理阶段采用频繁项集挖掘算法Ａｐｒｉｏｒｉ［１９］发现临床诊疗事件包并将其作为“超事件”，然而在得到这些事件包之后并没有改用过程挖掘算法而是继续沿用频繁项挖掘算法进行挖掘，以至于最终的结果仍然不够理想。终上所述，由于医疗数据自身的动态性和复杂３０１２黄浩未等：基于条件概率的临床诊疗事件打包算法研究性，无论传统的过程挖掘算法还是频繁项挖掘算法，均无法得到比较理想的结果。因此，新的挖掘算法的研究和提出就显得非常重要和紧迫。２　数据基础及基本定义２．１　数据基础我国的临床数据根据展现粒度由大到小分为临床路径表单项数据、医嘱数据和收费项数据３个层次。其中临床路径表单项数据是一个上层的指导方针，从电子病历系统（Ｅｌｅｃｔｒｏｎｉｃ　Ｍｅｄｉｃａｌ　Ｒｅ－ｃｏｒｄ，ＥＭＲ）中得到的只有医嘱数据和收费项数据。基于以下两点原因，本文以收费项数据作为原始数据：（１）相比医嘱数据，收费项数据更加细分，可以精确到每一个诊疗活动，因此能更全面地反映整个诊疗过程。（２）收费项数据反映的是病人经历的真实临床诊疗事件，只有做过的项目才会被列入收费项中。通常，医院信息系统记录的收费项数据结构如下：每一条收费项记录都包含一个唯一标识的病人ＩＤ（ｐａｔｉｅｎｔ　ＩＤ）、一个临床诊疗活动、诊疗活动所属的类别、时间戳和费用等信息。本文从以上属性中选取了病人编号、临床诊疗活动、临床诊疗活动的类别＊?和时间戳（精确到天），并将包含这４项信息的收费项记录称为一个临床诊疗事件，收费项数据样例如表１所示。表１　收费项数据样例病人ＩＤ临床诊疗活动类别时间戳１ Ⅰ级护理护理费８／２１／２０１１１血细胞分析检验病理费８／２２／２０１１１静脉注射治疗费８／２２／２０１１２Ｘ线计算机体层护理费３／１１／２０１２２甘油果糖西药费３／１１／２０１２２．２　基本定义下面就本文涉及的相关概念给出基本定义：定义１　临床诊疗活动。一个临床诊疗活动是一条收费项记录的具体事件的名称，其集合定义为Ａ。定义２　临床诊疗事件。一个临床诊疗事件是一个４元组ｅ＝（ｐｉｄ，ａ，ｃ，ｔ），其中：ｐｉｄ∈ＰＩＤ（ＰＩＤ是病人ＩＤ集），ａ∈Ａ，ｃ∈Ｃ（Ｃ是临床诊疗活动类别集），ｔ∈Ｔ（Ｔ是时间集）。同时定义方法πｐｉｄ：ε→ＰＩＤ，πａ：ε→Ａ，πｃ：ε→Ｃ和πｔ：ε→Ｔ，分别指向一个临床诊疗活动对应的４个属性，其中ε是临床诊疗事件集。根据定义１，以表１中的一条数据为例，ｅ＝（１，Ⅰ级护理，护理费，８／２１／２０１１），其中πｐｉｄ＝１即病人的编号，πａ＝Ⅰ级护理即临床诊疗活动的名称，πｃ＝护理费表示临床诊疗活动“Ⅰ级护理”所属的类别是“护理费”，πｔ＝８／２１／２０１１表示该事件的记录时间为２０１１年８月２１日。定义３　患者诊疗—天日志（ｄａｙ　ｔｒａｃｅ）。一个患者诊疗—天日志δ是一个特定患者在特定某一天的所有临床诊疗事件的序列。即δ＝ ?ｅ１，ｅ２，…，ｅｎ?，其中πｐｉｄ（ｅ１）≡πｐｉｄ（ｅ２）≡…≡πｐｉｄ（ｅｎ），并且πｔ（ｅ１）≡πｔ（ｅ２）≡…≡πｔ（ｅｎ），ｅｉ∈ε（１≤ｉ≤ｎ）。定义４　天日志中的活动集和类别活动集。患者诊疗－天日志中的活动集Γ（δ）＝｛πａ（ｅ）｜ｅ∈δ｝｜是一个天日志中所有临床诊疗事件所覆盖的临床诊疗活动的集合，天日志中的类别活动集 Γ（δ，ｃ）＝｛πａ（ｅ）｜πｃ（ｅ）＝ｃ，ｅ∈δ｝｜是天日志中所有临床诊疗事件所覆盖的属于某一特定集合ｃ的所有临床诊疗活动的集合。例如，给定一个天日志δ＝?ｅ１，ｅ２，ｅ３?，其中：ｅ１＝（ｐｉｄ，ａ１，ｃ１，ｔ），ｅ２＝（ｐｉｄ１，ａ２，ｃ２，ｔ１），ｅ３＝（ｐｉｄ１，ａ３，ｃ２，ｔ１）。该天日志中的活动集 Γ（δ）＝｛ａ１，ａ２，ａ３｝，类别活动集有２个，分别为Γ（δ，ｃ１）＝｛ａ１｝和Γ（δ，ｃ２）＝｛ａ２，ａ３｝。定义５　患者诊疗日志。一个患者诊疗日志σ是一个特定患者在其住院期间所有患者诊疗－天日志的序列，即δ＝?δ１，δ２，…，δｎ? ，其中 πｐｉｄ（δ１）≡πｐｉｄ（δ２）≡ … ≡πｐｉｄ（δｎ）≡πｐｉｄ（σ），并且πｔ（δ１）＜πｔ（δ２）＜…＜πｔ（δｎ），δｉ∈Δ（１≤ｉ≤ｎ），其中：Δ 为天日志的集合，ｎ是该患者住院的天数（Ｌｅｎｇｔｈ　ｏｆＳｔａｙ，ＬＯＳ）。定义６　临床诊疗事件日志。一个临床诊疗事件日志Ｌ＝｛σ１，σ２，…，σｎ｝是一个数据集中所有不同患者的患者诊疗日志的集合，其中ｎ为数据集中患者的个数。以上概念之间的关系如图１所示。３０１３＊诊疗活动的分类在我国有明确规定，在本文的数据集中，诊疗活动一共分为１４个类别，分别为检查费、中成药费、诊查费、血费、检验病理费、手术费、麻醉费、护理费、采暖费、床位费、治疗费、西药费、特殊耗材费和其他费。计算机集成制造系统第２３卷下面给出临床诊疗事件包和合事件两个重要概念的定义。其中前者不带有任何与患者和时间相关的信息，后者则包含特定的患者和时间信息，两者之间的关系与临床诊疗活动（定义１）和临床诊疗事件（定义２）之间的关系类似。定义７　临床诊疗事件包。一个临床诊疗事件包ｐｋｇ是临床诊疗活动的一个集合。定义８　合事件。一个合事件ｐｅ＝（ｐｉｄ，ｐｋｇ，ｔ）是一个将临床诊疗事件包赋予病人信息和时间信息之后得到的事件。本文的ＣＥＰＭ算法打包的结果是一系列临床诊疗事件包，若用这些事件包替代原始的临床诊疗事件，则需要为其加上相对应的患者和时间属性。假设原来某患者的天日志为δ＝?ｅ１，ｅ２，…，ｅ６，ｅ７?，ｐｋｇ１＝｛πａ（ｅ１），πａ（ｅ２）…，πａ（ｅ６）｝，ｐｋｇ２＝｛πａ（ｅ７）｝，则替换后δ＝?ｐｅ１，ｐｅ２?，其中：ｐｅ１＝（ｐｉｄ１，ｐｋｇ１，ｔ１），ｐｅ２＝（ｐｉｄ１，ｐｋｇ２，ｔ１）。３　方案流程与算法实现下面按照图２所示的流程介绍临床过程模型挖掘方案，并重点介绍ＣＥＰＭ算法。３．１　数据预处理在数据预处理阶段，将对原始数据进行简单的数据格式处理及数据清洗工作，以保证随后算法用到的数据具有比较高的质量。首先，去除或整合数据中重复的或者具有相同含义的活动名。例如，将原始数据中出现的“钙测定（比色法）”、“钙测定（选择电极法）”和“钙测定（选择电极法加收２元）”统一为“钙测定”，因为本文并不关心钙测定的方法。由此将原始数据中的无重复活动个数从７６２个降到６６７个。其次，去除１４个类别中无关的两个类别“采暖费”和“床位费”，因为这两个数据几乎没有提供任何与临床诊断相关的信息。３．２　临床诊疗事件打包在介绍打包算法之前，需要对两个重要的关系进行定义。定义９　两个临床诊疗活动之间的条件概率。活动ａ１在活动ａ２下的条件概率Ｐ（ａ１｜ａ２）＝Ｎ（ａ１ａ２）Ｎ（ａ２）。其中：Ｎ（ａ２）表示整个日志的所有天日志的活动集中包括ａ２的天日志个数，Ｎ（ａ１ａ２）表示整个日志的所有天日志的活动集中同时包括ａ１和ａ２的天日志个数。定义１０　同现关系。给定一个最小阈值ｍｉｎ＿ｓｕｐ，当且仅当两个临床诊疗活动ａ１和ａ２在互相之间的条件概率Ｐ（ａ１｜ａ２）和Ｐ（ａ２｜ａ１）均＊?不小于阈值ｍｉｎ＿ｓｕｐ时，称两个活动为同现关系。同现是度量两个活动间相关性的一个很好的指标，尤其当阈值设置比较高时。同时出于以下两点考虑，在后文实验中将阈值设为０．８：（１）当阈值设为０．８时，具有同现关系的两个活动在其中任意一方出现的８０％情况中另一方也同时出现，足以表明这两个活动有很大的概率会一起出现，故将这两个活动打包在一起是合理的。３０１４＊要求互相条件概率都达到阈值要比单边条件概率达到阈值更加严格，更符合对“同现”的定义。６－０６－２０；修订日期：２０１６－０９－２８。Ｒｅｃｅｉｖｅｄ　２０Ｊｕｎｅ　２０１６；ａｃｃｅｐｔｅｄ　２８Ｓｅｐ．２０１６．基于条件概率的临床诊疗事件打包算法研究黄浩未，金　涛＋，王建民（清华大学软件学院，北京　１０００８４）摘　要：为了从过往的医疗数据中得到清晰可理解的过程模型，并将其合理应用于医疗决策的制定以及临床路径的改善，提出一种全新的临床诊疗过程挖掘方案，通过将相关临床诊疗事件进行合理打包来减少作为过程挖掘算法输入的事件个数，从而简化挖掘到的临床诊疗过程模型。针对临床诊疗事件打包，提出一种基于条件概率的打包算法，该算法将条件概率作为衡量事件之间关联程度的标准，并将关联程度达到一定程度的事件进行打包。实验结果表明，所提出的临床诊疗过程挖掘方案确实能够得到清晰可理解的过程模型，所提出的打包算法能够在更高容忍度的基础上得到更加精确、合理的结果。关键词：过程挖掘；临床诊疗过程；临床诊疗事件包；条件概率中图分类号：ＴＰ３１１．１１　　　文献标识码：ＡＣｌｉｎｉｃａｌ－ｅｖｅｎｔ　ｐａｃｋｉｎｇ　ｍｅｔｈｏｄ　ｂａｓｅｄ　ｏｎ　ｃｏｎｄｉｔｉｏｎａｌ　ｐｒｏｂａｂｉｌｉｔｙＨＵＡＮＧ　Ｈａｏｗｅｉ，ＪＩＮ　Ｔａｏ＋，ＷＡＮＧ　Ｊｉａｎｍｉｎ（Ｓｃｈｏｏｌ　ｏｆ　Ｓｏｆｔｗａｒｅ，Ｔｓｉｎｇｈｕａ　Ｕｎｉｖｅｒｓｉｔｙ，Ｂｅｉｊｉｎｇ　１００８４，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｔｏ　ｏｂｔａｉｎ　ｔｈｅ　ｕｎｄｅｒｓｔａｎｄａｂｌｅ　ｃｌｉｎｉｃａｌ　ｐｒｏｃｅｓｓ　ｍｏｄｅｌ　ａｎｄ　ａｐｐｌｙ　ｔｏ　ｍｅｄｉｃａｌ　ｄｅｃｉｓｉｏｎ　ｍａｋｉｎｇ，ａｎ　ｉｎｎｏｖａｔｉｏｎｃｌｉｎｉｃａｌ　ｐｒｏｃｅｓｓｅｓ　ｓｃｈｅｍｅ　ｔｈａｔ　ｒｅｄｕｃｉｎｇ　ｔｈｅ　ｎｕｍｂｅｒ　ｏｆ　ｄｉｆｆｅｒｅｎｔ　ｃｌｉｎｉｃａｌ　ｅｖｅｎｔｓ　ｉｎ　ｂｉｌｌｉｎｇ　ｄａｔａ　ｂｙ　ｐｕｔｔｉｎｇ　ｃｏｒｒｅｌａｔｅ　ｅ－ｖｅｎｔｓ　ｉｎｔｏ　ｃｌｉｎｉｃａｌ－ｅｖｅｎｔ－ｐａｃｋａｇｅｓ　ａｓ　ｎｅｗ　ｕｎｉｔｓ　ｏｆ　ｌｏｇ　ｅｖｅｎｔ　ｆｏｒ　ｆｕｒｔｈｅｒ　ｍｉｎｉｎｇ　ｗａｓ　ｐｒｏｐｏｓｅｄ．Ａｉｍｉｎｇ　ａｔ　ｔｈｅ　ｃｌｉｎｉｃａｌ－ｅｖｅｎｔ　ｐａｃｋａｇｅ，ａｐａｃｋｉｎｇ　ｓｔｒａｔｅｇｙ　ｂａｓｅｄ　ｏｎ　ｃｏｎｄｉｔｉｏｎａｌ　ｐｒｏｂａｂｉｌｉｔｙ　ｎａｍｅｄ　ＣＥＰＭ　ｔｏ　ｃｏｎｓｔｒｕｃｔ　ｃｌｉｎｉｃａｌ－ｅｖｅｎｔ－ｐａｃｋａｇｅｓｗｉｔｈ　ｃｏｒｒｅｌａｔｅ　ｅｖｅｎｔｓ　ｗａｓ　ｐｒｅｓｅｎｔｅｄ．Ｔｈｅ　ｅｘｐｅｒｉｍｅｎｔ　ｒｅｓｕｌｔｓ　ｓｈｏｗｅｄ　ｔｈａｔ　ｔｈｅ　ｐａｃｋｉｎｇ　ｃｌｉｎｉｃａｌ　ｅｖｅｎｔｓ　ｗａｓ　ａ　ｇｏｏｄ　ｗａｙｏｆ　ｇｅｎｅｒａｔｉｎｇ　ｍｏｒｅ　ｃｏｍｐｒｅｈｅｎｓｉｂｌｅ　ｃｌｉｎｉｃａｌ　ｐｒｏｃｅｓｓｅｓ　ａｎｄ　ｔｈｅ　ｐｒｏｐｏｓｅｄ　ｐａｃｋｉｎｇ　ｍｅｔｈｏｄ　ｃｏｕｌｄ　ｇｅｎｅｒａｔｅ　ｐａｃｋａｇｅｓ　ｗｉｔｈｂｅｔｔｅｒ　ａｃｃｕｒａｃｙ　ａｎｄ　ｔｏｌｅｒａｎｃｅ　ａｃｃｏｒｄｉｎｇ　ｔｏ　ｍｅｄｉｃａｌ　ｐｒａｃｔｉｔｉｏｎｅｒｓ．Ｋｅｙｗｏｒｄｓ：ｐｒｏｃｅｓｓ　ｍｉｎｉｎｇ；ｃｌｉｎｉｃａｌ　ｐｒｏｃｅｓｓ；ｃｌｉｎｉｃａｌ－ｅｖｅｎｔ－ｐａｃｋａｇｅ；ｃｏｎｄｉｔｉｏｎａｌ　ｐｒｏｂａｂｉｌｉｔｙ０　引言临床路径因其在医疗质量管理、费用控制和资源调控方面的巨大作用而得到广泛应用。实验结果表明，临床路径的应用能够有效规范临床诊疗活动、提高医疗效率［１－２］。自２００９年起，我国卫生部陆续发布了超过３００个病种的临床路径，这些临床路径被应用到医院，以促进诊疗流程的标准化、加强费用控制。然而，几乎所有的临床路径都是临床专家基于其临床经验制定的，从循证医学［３］的角度来看，这些临床路径在一定程度上缺乏临床数据的支持。与此同时，随着医疗信息技术的发展，越来越多的数据被收集到医院信息系统中，如何有效利用这些宝贵的数据资源，已经成为越来越多研究者的目标。若能够从这些已有的数据中挖掘到临床路径，则能够为临床路径制定者提供重要的数据支持，并能够协助他们制定新的临床路径、完善已有的临床路径。临床诊疗过程模型可以在很大程度上表示一个临床路径，它可以利用过程挖掘［４］技术从临床诊疗事件日志中挖掘得到。由于临床医学活动的多样性和多变性，直接对其运用传统的过程挖掘方法得到的过程模型，要么呈现意大利面状、令人难以理解；黄浩未等：基于条件概率的临床诊疗事件打包算法研究（２）将阈值设为０．８是基于对医疗数据本身灵活性和动态性特点的考虑，因为几乎不可能有两个活动是１００％一起出现的，这样设置也是为了加强本文算法的容忍度。需要指出的是，本文算法要求同一个包内的活动两两之间均满足同现关系，因此通过两层ＣＥＰＭ算法来寻找这些包，伪代码如算法１～３所示。算法的输入是一个临床诊疗事件日志Ｌ，Ｌ将先转化成一个活动的集合Ｄ作为打包算法的输入。算法采取两层打包的思路，即将１２个类别分为内部和整体依次各进行一次打包：（１）第一层打包　利用活动类别属性，先对每一个类别内部的活动进行打包，即首先获得每一个类别下的所有天日志中对应类别的类别活动集（算法１第６行）Ｄ（ｃ），然后利用打包算法（算法２）对这些类别活动集中的活动进行打包（算法１第３～８行）。（２）第二层打包　将第一层打包得到的结果转化成合事件（定义８），替换原来的事件并得到新日志Ｌｎｅｗ，将Ｌｎ转化成Ｄｎ（此时已经没有了类别的概念），并对Ｄｎ用同样的打包算法（算法２）再进行一次打包（算法１第１１行），得到最终的打包结果。值得一提的是，在打包算法（算法２）中，首先通过算法３得到初始的临床诊疗包集合（算法２第２行），该算法将每一个原始临床诊疗活动作为唯一的一个活动放到一个独立的包内。随后（算法２第３～１３行）通过初始临床诊疗包集合内包的不断合并（当且仅当两个包内的所有活动两两之间均符合同现条件时将两个包合并），遍历所有可能的序列后得到的临床诊疗事件包集合即为所求，该方法能够保证最后得到的每一个临床诊疗事件包内的所有临床诊疗活动两两之间都是同现的。算法１　临床诊疗事件包挖掘算法ＣＥＰＭ。输入：Ｌ为一个临床诊疗事件日志；ｍｉｎ＿ｓｕｐｃ为第一层（类别层）打包的最低阈值；ｍｉｎ＿ｓｕｐｐ为第二层（病人层）打包的最低阈值。输出：临床诊疗事件包集合ＰＳ。１　记Ｃ为Ｌ中的１２个类别的集合２　记Ｄ为Ｌ中所有天日志的活动集 Γ（δ）的集合３　ＰＳｃ←一个全新的临床诊疗事件包的集合／／第一层打包的结果４　对每一个ｃ∈Ｃ５　　记Ｄ（ｃ）为Ｌ中每一个天日志在类别ｃ下的类别活动集 Γ（δ，ｃ）的集合６　　ｐｓ←Ｐａｃｋｉｎｇ（Ｄ（ｃ），ｍｉｎ＿ｓｕｐｃ）７　　对每一个集合ｓ∈ｐｓ８　　将ｓ加到ＰＳｃ中９　记Ｌｎ为用第一层打包结果替换到Ｌ中对应事件后得到的新的日志１０　记Ｄｎ为Ｌｎ中所有天日志的活动集 Γ（δ）的集合１１　ＰＳ←Ｐａｃｋｉｎｇ（Ｄｎ，ｍｉｎ＿ｓｕｐｐ）１２　返回ＰＳ算法２　打包算法（ｐａｃｋｉｎｇ）。输入：Ｄ为一系列活动集Γ 的集合；ｍｉｎ＿ｓｕｐ为判断两个活动是否同现的最低阈值。输出：临床诊疗事件包集合ＰＳ。１　ｍａｘ＿ｌｅｎｇｔｈ←Ｄ中最大的活动集的大小２　ＰＳ←Ｉｎｉｔ＿ｐａｃｋａｇｅ＿ｓｅｔ（Ｄ）３　ｆｏｒ　ｉ＝２→ｍａｘ＿ｌｅｎｇｔｈ４　　对每一个活动集ｓ∈Ｄ５　　找到ＰＳ中包含有活动ｓ［ｉ－１］的包ｐ６　　若ｓ［ｉ］已经属于某个包，则７　　　找到ＰＳ中包含有活动ｓ［ｉ］的包ｐ２８　　否则９　　　先建一个只包含活动ｓ［ｉ］的包ｐ２１０　　　将ｐ２加到ＰＳ中１１　　若ｐ１和ｐ２不是同一个包，则１２　　　若ｐ１和ｐ２内的所有活动两两之间都满足同现关系，则１３　　　　将ｐ１和ｐ２合并１４　返回ＰＳ算法３　初始包集合生成算法（ｉｎｉｔ＿ｐａｃｋａｇｅ＿ｓｅｔ）。输入：Ｄ为一系列活动集Γ 的集合。输出：临床诊疗事件包集合ＰＳ。１　ＰＳ←一个新的临床诊疗事件包的集合２　对每一个活动集ｓ∈Ｄ３　　对每一个活动ａ∈ｓ４　　　若ＰＳ还没有包含有ａ，则５　　　　新建一个只包含活动ａ的包ｐａ６　　　　将ｐａ加到ＰＳ中７　返回ＰＳ３．３　临床诊疗过程挖掘在使用过程挖掘工具进行挖掘之前，需要先对得到的临床诊疗事件包做一些简单的筛选。首先去除只包含一个活动并且在整个数据集中的３　２００多天内出现次数不足１０次的“干扰包”，由于希望挖掘的是最通用的诊疗流程，这些所谓的“干扰包”对最后的结果几乎没有影响。随后，排除病人覆盖３０１５计算机集成制造系统第２３卷率＊?不足９８％的包，从剩下的包中按照出现频率的高低选出前２０个包，并用这些包生成的合事件（定义８）替换原始日志中对应的事件，最后用过程挖掘算法中的模糊挖掘算法［９］对新生成的日志进行挖掘。模糊挖掘算法是第一个将高频事件和路径高亮等地图隐喻信息引入过程挖掘的算法，其特点正好与本文简化模型的目的相契合，因此将其作为医疗过程的挖掘算法。４　实验评估下面通过实验分别对临床诊疗过程挖掘方案的可行性和ＣＥＰＭ算法进行评估。实验采用的数据集来自我国某省医院在使用临床路径模板前２４０位脑出血病人的所有收费项数据。该数据集清晰地记录了２４０位病人在总时间跨度长达５年的时间内共计１３７　２５４条收费项记录，涵盖了１４个不同类别的７６２个不重复的临床诊疗事件。正如前所述，选择收费项数据是因为它包含更多的细节，比医嘱数据更加清晰易懂。４．１　临床诊疗过程挖掘方法结果分析按照图２所示的流程，在数据预处理阶段后，将重复的临床诊疗事件数减少到６６７个，将总的类别数减少到１２个。在临床诊疗事件包挖掘阶段，将ＣＥＰＭ算法在两个层次的阈值ｍｉｎ＿ｓｕｐ均设为０．８，挖掘并去除干扰项之后得到６５个临床诊疗事件包，使作为输入的事件数从原先的７６２减少到６５（减少了９１％）。随后，对这６５个包按照３．３节的步骤筛选后得到２０个合事件，并将筛选后的日志用工具Ｄｉｓｃｏ［１８］进行挖掘。Ｄｉｓｃｏ中的挖掘算法正是基于模糊挖掘算法［９］实现的，因此与本文使用模糊挖掘算法的方案相符。挖掘得到的结果如图３所示，该过程模型反映了过去该医院在治疗脑出血病时最通用的治疗流程。图中每一个节点都被标注了它的频率，同时也代表着一个临床诊疗事件包。从整个工作流中可以清晰地看到：一位病人来到医院就诊，他／她首先会做一个“Ｘ线计算机体层”来帮助医生诊断其病症，将这部分记为第一阶段（如图３）；接下来，若该病人被确诊为脑出血，则将接受住院治疗，同时进入本文标记的第二阶段。在该阶段病人会经历一系列检查，如动态血压监测、尿素测定和心电监测等，同时也会服用包括复方川芎胶囊和复方氨基酸在内的心血管药物，当然该过程中必要的护理（如Ⅰ级护理和动静脉置管护理）是必不可少的，将这一部分称为常规护理阶段。随后，医生会对病人进行一系列血液检查（血氧饱和度监测、血清尿酸测定和血细胞分析等），以判断该病人的状态是否适合做接下来的手术。若检测结果合适，则该病人将会进入下一个阶段———手术阶段，否则继续第二阶段的治疗，直到下一次血液检查。第三阶段是手术———静脉穿刺置管术，手术之后病人将会再做一次Ｘ线计算机体层，以查看手术效果并决定是否可以出院。３０１６＊一个活动（或者活动包）的病人覆盖率是指那些在整个治疗阶段中出现过该活动的病人占总病人数的百分比。黄浩未等：基于条件概率的临床诊疗事件打包算法研究由此可以得出结论，本文提出的基于事件打包的临床诊疗过程挖掘方法，不但能够解决医疗数据的多样性和动态性带来的挖掘结果混乱、可读性差等问题，而且该算法挖掘得到的流程模型还能够被合理地解释并得到医疗工作者的认同。４．２　ＣＥＰＭ算法与基于频繁项集挖掘算法的打包算法比较临床诊疗事件打包从某种程度上可以定义为频繁事件的挖掘。作为更加传统的挖掘方法，频繁项集挖掘算法在挖掘频繁模式等方面更为人们所熟知。但是由于挖掘目的和数据基础等原因，传统的频繁项集挖掘方法并不完全适用于临床诊疗事件打包。为了证明这一点，本文基于频繁项集挖掘算法中最常见的Ａｐｒｉｏｒｉ算法的基本思想实现了ＡＢＰＭ（Ａｐｒｉｏｒｉｂａｓｅｄ　ｐａｃｋａｇｅ　ｍｉｎｉｎｇ）算法，并将其挖掘结果与本文提出的ＣＥＰＭ算法进行比较。依照Ａｐｒｉｏｒｉ算法的核心思想和输入，将所有病人每一天的所有记录和阈值ｍｉｎ＿ｓｕｐｐｏｒｔ作为Ａｐｒｉｏｒｉ算法的输入，得到长度递增的一系列频繁项集，然后按照以下方案得到临床诊疗事件包：从最大的一个频繁项集开始，依次将每一个频繁项集内的所有临床诊疗事件放到同一个临床诊疗事件包中，同时为了保证每一个不重复的临床诊疗事件只能属于一个临床诊疗事件包，本文规定已经属于更大包中的事件将不会被放到更小的包中。由于Ａｐｒｉｏｒｉ算法自身阈值反映的是一个活动在整合集合所有活动中出现的比重，经过对该算法进行深入分析，结合实验结果可以发现：所选阈值越低（趋近于０），得到的最大包越大，随着阈值的升高，越来越多的活动因自身比重达不到阈值而无法参与到频繁项集的构造中。例如，当ｍｉｎ＿ｓｕｐｐｏｒｔ为０．３和０．２的时，挖掘得到的最大包的大小分别为６和７；当ｍｉｎ＿ｓｕｐｐｏｒｔ降到０．１和０．０８时，挖掘得到的最大包的大小升高到１３和１６；而当ｍｉｎ＿ｓｕｐｐｏｒｔ小于０．０８时，由于Ａｐｒｉｏｒｉ算法自身存在的指数爆炸问题而无法在有效时间范围内得到输出结果。因此最终确定ｍｉｎ＿ｓｕｐｐｏｒｔ的最优值为０．０８。针对打包结果的评价，本文提出归纳程度和准确度两个评价指标。其中，归纳程度描述算法对临床诊疗事件的归纳能力，即对于同样的初始事件数，得到的临床诊疗事件包越少，算法的归纳程度越高。尽管归纳程度的评价更加客观并能够通过不同的维度来衡量，但是它无法反映每一个包自身的质量高低。相比之下，准确度的评价更加重要而主观，因为打包的最好结果便是不多不少地将相关联的一类事件恰到好处地打包在一起。由于缺乏通用指标来度量，本文将准确度的评价交由相应的医疗工作者基于实际的医疗场景进行评价。（１）归纳程度比较如表２所示，本文的两层ＣＥＰＭ算法能够得到比ＡＢＰＭ更少（包的个数）和更大的包（包的平均大小）。尽管ＡＢＰＭ得到的最大包的大小是ＣＥＰＭ的两倍，在深入分析ＡＢＰＭ算法后发现，它产生的最大包始终是Ａｐｒｉｏｒｉ算法得到的最大的频繁项集，且其最大包是“一支独大”的，剩下的包都会比最大包小很多。例如在本次实验中，ＡＢＰＭ中次大和第三大的包的大小分别只有６和４，而ＣＥＰＭ的结果中大小为８的包就有３个。因此可以认为，ＣＥＰＭ算法的归纳程度比ＡＢＰＭ算法更好。表２　ＣＥＰＭ与ＡＢＰＭ在归纳程度上的实验结果算法包个数最大包大小包平均大小ＡＢＰＭ　７６　１６　１．１ＣＥＰＭ　６５　８　２．０（２）准确度比较为了比较两种算法结果的准确度，邀请了相关医疗人员来帮助判定每个包的划分是否合理，即每个包内的临床诊疗事件是否在临床实践中有比较高的关联度。结果表明，ＣＥＰＭ算法得到的大多数临床诊疗事件包内的事件都有很高的关联度，并且可以针对每一个包归纳出一个主题，而ＡＢＰＭ算法得到的临床诊疗事件包内的组织就显得比较零散，尽管它拥有最大的包。两种算法的部分输出结果如图４所示（其中图４ａ是ＡＢＰＭ算法结果中的最大和次大的包）。可以看出，图４ｂ中的腺苷脱氧酶测定包中几乎都是血液检测方面的事件，丙型肝炎抗体测定包中全是乙肝、丙肝检验相关的内容。然而，图４ａ中的ＡＢＰＭ算法第一大包———一次性输液器则涵盖了包括药物（葡萄糖）、检查（尿素测定）和护理（住院诊查费）在内的多方面内容，显得更加笼统、不够准确。３０１７计算机集成制造系统第２３卷通过上述比较可知，本文的ＣＥＰＭ算法在归纳程度和准确度两个指标上都强于ＡＢＰＭ算法。除此之外，在临床诊疗事件包挖掘上，基于频繁项集挖掘算法实现的ＡＢＰＭ算法还有３个明显的缺点。首先，ＡＢＰＭ算法仅从临床诊疗事件个体的发生频率这一维度进行度量，默认将频率接近的事件放入同一个包中，忽略了事件之间的关联性，由此导致图４ａ中出现“大杂烩”现象；其次，Ａｐｒｉｏｒｉ算法可调控的阈值ｍｉｎ＿ｓｕｐｐｏｒｔ过低（普遍低于０．１），以至于轻微的变化都可能导致挖掘结果的巨大变化，使整个算法不够稳定，这也是频繁项挖掘算法的通病；最后也是最重要的一点，假设理论上事件Ａ和事件Ｂ应该在一起，然而在实际数据中两者不可能任何情况下都同时出现，导致两者无论在自身的频率还是各自的条件概率上都存在一定差异，显然ＡＢＰＭ算法本身并没有考虑到这一点并采取相应的应对策略，而在ＣＥＰＭ算法中只要将阈值ｍｉｎ＿ｓｕｐ设置得比１．０更小一些（如本文选择的０．８＊?）便能很好地解决该问题。由此可见ＣＥＰＭ算法比ＡＢＰＭ算法具有更高的容忍度。基于以上实验和分析可以得出如下结论：相比于基于频繁项集挖掘算法实现的打包算法，本文提出的基于条件概率的打包算法无论是准确度还是稳定性甚至容忍度都更胜一筹。５　结束语本文针对传统过程挖掘方法在医疗数据应用中存在的模型可读性差的问题，提出基于共现事件打包的临床诊疗过程挖掘方案，该方案通过将满足共现关系的临床诊疗事件打包在一起来简化原本繁琐复杂的临床医疗数据，简化后的数据经过传统过程挖掘可以得到清晰合理的临床诊疗过程模型。与此同时，本文针对事件打包首次提出基于条件概率的ＣＥＰＭ算法，并通过实验证明了挖掘方案的可行性和打包算法的正确性。未来研究将从打包算法的优化和打包结果可视化两个方面进行延展。参考文献：［１］　ＰＡＮＥＬＬＡ　Ｍ，ＭＡＲＣＨＩＳＩＯ　Ｓ，ＤＩ　ＳＴＡＮＩＳＬＡＯ　Ｆ．Ｒｅｄｕｃ－ｉｎｇ　ｃｌｉｎｉｃａｌ　ｖａｒｉａｔｉｏｎｓ　ｗｉｔｈ　ｃｌｉｎｉｃａｌ　ｐａｔｈｗａｙｓ：ｄｏ　ｐａｔｈｗａｙｓｗｏｒｋ？［Ｊ］．Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｊｏｕｒｎａｌ　ｆｏｒ　Ｑｕａｌｉｔｙ　ｉｎ　Ｈｅａｌｔｈ　Ｃａｒｅ，２００３，１５（６）：５０９－５２１．［２］　ＬＯＥＢ　Ｍ，ＣＡＲＵＳＯＮＥ　Ｓ　Ｃ，ＧＯＥＲＥＥ　Ｒ，ｅｔ　ａｌ．Ｅｆｆｅｃｔ　ｏｆ　ａｃｌｉｎｉｃａｌ　ｐａｔｈｗａｙ　ｔｏ　ｒｅｄｕｃｅ　ｈｏｓｐｉｔａｌｉｚａｔｉｏｎｓ　ｉｎ　ｎｕｒｓｉｎｇ　ｈｏｍｅ　ｒｅｓ－ｉｄｅｎｔｓ　ｗｉｔｈ　ｐｎｅｕｍｏｎｉａ：ａ　ｒａｎｄｏｍｉｚｅｄ　ｃｏｎｔｒｏｌｌｅｄ　ｔｒｉａｌ［Ｊ］．Ｊａ－ｍａ，２００６，２９５（２１）：２５０３－２５１０．［３］　ＳＡＣＫＥＴＴ　Ｄ　Ｌ．Ｅｖｉｄｅｎｃｅ－ｂａｓｅｄ　ｍｅｄｉｃｉｎｅ［Ｊ］．Ｓｅｍｉｎａｒｓ　ｉｎ　Ｐｅｒ－３０１８＊在实际实验中，当算法ＣＥＰＭ的阈值取值在０．７～０．９的范围内时均能得到较好的挖掘结果，选取中间值０．８作为结果展示。

[返回]

上一篇：基于多源信息融合故障树与模糊复杂系统的故障诊断
下一篇：基于动态非正态 EWMA 控制图的废旧产品再制造质量控制方法