欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
机械论文
当前位置:首页 > 机械论文
基于条件概率的临床诊疗事件打包算法研究
来源:一起赢论文网     日期:2018-03-01     浏览数:2758     【 字体:

 计算机集成制造系统 第23卷要么数量众多、使人难以抓住重点。如何从医疗数据中挖掘到清晰可理解的过程模型,仍然是一个巨大的挑战。针对上述挑战,本文提出一种基于共现事件打包的临床诊疗过程挖掘方案,该方案通过将满足“共现”关系的临床诊疗事件打包在一起的方法来简化原本繁琐复杂的临床医疗数据,简化后的数据经过传统的过程挖掘可以得到清晰合理的临床诊疗过程模型,从而解决了传统过程挖掘方法在临床诊疗过程挖掘中的适配问题。本文的主要贡献如下:①提出一种全新的临床诊疗过程挖掘方案,该方案同样适用于其他病种的收费项数据,是通用的;②首次提出基于条件概率的临床 诊 疗 事 件 打 包 (Clinical Event Package Min-ing,CEPM)算法。1 相关工作近年来,越来越多的研究试图将数据挖掘的方法应用到挖掘临床数据中的医学知识上。这些研究从总体上可以划分为对整体的探究和对局部的探究两类。整体探究的目 的 在于 发现 能够从宏观层面描述医学行 为 的 知 识,例 如 过 程 挖 掘 旨 在 挖 掘 到 能够反映 整 体 流 程 的 医 学 知 识。Mans等[5]将 过 程挖掘的方法用于发现中风患者在不同医院如何被治疗,其 采 用 工 具 ProM[6]中 的 启 发 式 挖 掘 (Heu-ristic Miner,HM)算 法[7],从工作流 的 角 度 进 行 研究,并进一 步 利 用 过 程 挖 掘 的 方 法 对 妇 科 肿 瘤 疾病的治疗流程进行研究[8],然而当第一次使用 HM算法时得 到 了 意 大 利 面 状 的、难 以 理 解 的 流 程 模型,Mans等将这一现象 归 咎于 临床数据特有的复杂和非结构化的特性。作为改进,Mans等对原始数据进行了轨迹聚类并改用模糊挖掘(Fuzzy Min-er,FM)算法[9]进 行 挖 掘,得 到 了 更 易 理 解 的 流 程模型。Lang等[10]在其工作中遇 到了同样的问题,通过对7种过程挖掘经典算法进行实验得到如下结论:没有 任 何 一 种 方 法 能 够 很 好 地 解 决 临 床 数据自 身 复 杂 性 和 弱 结 构 化 带 来 的 诸 多 挑 战。Zhang等[11]运用基于最 长 公共 子序列的分层聚类方法,将病人分为6个组,并对每一个组进行了基于概率的 同 样 诊 疗 路 径,该 工 作 同 样 面 临 着 结 果的可理解性问题。为了避免 临 床 路 径 整 体 探 究 带 来 的 混 乱,局部探究的研究将重点放在发现患者事件日 志自身的一些局部特征。这些研究通常会倾向 于使用频繁项或者 频 繁 模 式 挖 掘 的 方 法,以 得 到 局 部 特 征或者发现一些异常。Huang等[12]提出一个在多项式时间内通过频繁项集挖掘得到重要医学 活动来得到总结 式 临 床 路 径 的 方 法,该 方 法 将 临 床 诊 疗事件日志 划 分 为 多 个 时 间 段,并 在 每 一 个 时 间 段运用频繁 项 集 挖 掘 算 法 得 到 重 要 诊 疗 活 动 集,将这些重要 诊 疗 活 动 集 按 照 时 间 顺 序 连 接 起 来,得到总结式临床路径。该方法的不足是非 频繁 诊疗活动的丢失以及对临床诊疗活动的简化过程。由于原始数 据 中 可 能 存 在 成 百 上 千 个 原 始 活 动,而该文用于挖掘的日志中仅包含26个基本 活 动,这些活动的选取方法在该文中并未提及。Gotz等[13]使用 基 于 位 图 的 频 繁 模 式 挖 掘 方 法 (SequentialPattern Mining,SPAM)[14],同样 在 特 定 的 时 间 间隔内进行 挖 掘 并 得 到 重 要 活 动,该 方 法 的 新 颖 之处在于引 入 了 医 疗 活 动 的 结 果,并 以 此 帮 助 医 生研究医疗事件与特定医疗结果之间可能的 因果关系。Iwata等[15]提出一个时间性数据挖掘方法,通过将临床 诊 疗 事 件 分 组 的 方 法 生 成 临 床 路 径,采用聚类和 多 维 尺 度 分 析 方 法 主 要 得 到 两 个 分 组,即对治疗不可或缺的事件和对病人状态有 特殊影响的事件。Huang等[16]提出一种在给定临床工作流日志和最小支持度的情况下可以发现临 床路径模式的挖 掘 算 法,通 过 对 临 床 活 动 序 列 进 行 挖 掘来获取这些活动序列的临床路径模式。与传统序列模式挖 掘 算 法 相 比,该 算 法 不 仅 在 执 行 时 间 上有明显的 优 势,在 挖 掘 结 果 上 也 更 胜 一 筹。 尽 管如此,因为 该 方 法 关 注 的 重 点 在 全 局 频 繁 的 临 床路径模式,所 以 不 可 避 免 地 会 忽 略 一 些 非 频 繁 的临床诊疗 活 动,然 而 这 些 非 频 繁 的 活 动 往 往 有 一些在整个 诊 疗 过 程 中 扮 演 着 非 常 重 要 的 角 色,不应该被 忽 略。Perer等[17]使 用 一 个 频 繁 序 列 挖 掘算法来解 决 现 实 电 子 病 历 数 据 中 存 在 的 问 题,首先发现了频繁项集挖掘算法中由已有事件 的所有可能组 合 及 这 些 组 合 的 子 集 合 迅 速 累 积 带 来 的“模式爆炸”问 题,在 数 据 预 处 理 阶 段 采 用 频 繁 项集挖掘算法 Apriori[19]发现临床诊疗事件包并将其作为“超事件”,然 而 在 得 到 这 些 事 件 包 之 后 并 没有改用过程挖掘算法而是继续沿用频繁项 挖掘算法进行挖掘,以至于最终的结果仍然不够理想。终上所述,由于医疗数据自身的动态性和复杂3012 黄浩未 等:基于条件概率的临床诊疗事件打包算法研究性,无论传统的过程挖掘算法还是频繁项挖掘算法,均无法得到比较理想的结果。因此,新的挖掘算法的研究和提出就显得非常重要和紧迫。2 数据基础及基本定义2.1 数据基础我国的临床数 据 根据 展现 粒度由大到小分为临床路径 表 单 项 数 据、医 嘱 数 据 和 收 费 项 数 据 3个层次。其中临床路径表单项数据是一个上层的指导方针,从电子病历系统(Electronic Medical Re-cord,EMR)中 得 到 的 只 有 医 嘱 数 据 和 收 费 项 数据。基于以 下 两 点 原 因,本 文 以 收 费 项 数 据 作 为原始数据:(1)相比医嘱数据,收费项数据更加细分,可以精确到每一个诊疗活动,因此能更全面地反映整个诊疗过程。(2)收费项数据反映的是病人经历的真实临床诊疗事件,只有做过的项目才会被列入收费项中。通常,医院信息系统记录的收费项数据结构如下:每一条收费项记录都包含一个唯一标识的病人ID(patient ID)、一个临床诊疗活动、诊疗活动所属的类别、时间戳和费用等信息。本文从以上属性中选取了病人编号、临床诊疗活动、临床诊疗活动的类别*?和时间戳(精确到天),并将包含这 4 项信息的收费项记录称为一个临床诊疗事件,收费项数据样例如表1所示。表1 收费项数据样例病人ID 临床诊疗活动 类别 时间戳1 Ⅰ级护理 护理费 8/21/20111 血细胞分析 检验病理费 8/22/20111 静脉注射 治疗费 8/22/20112 X 线计算机体层 护理费 3/11/20122 甘油果糖 西药费 3/11/20122.2 基本定义下面就本文涉及的相关概念给出基本定义:定义1 临床诊疗活动。一个临床诊疗活动是一条收费 项 记 录 的 具 体 事 件 的 名 称,其 集 合 定 义为 A。定义2 临床诊疗事件。一个临床诊疗事件是一个4元组e=(pid,a,c,t),其中:pid∈PID(PID是病人ID 集),a∈A,c∈C(C 是临床诊疗活动类别集),t∈T(T 是 时 间 集)。同 时 定 义 方 法πpid:ε→PID,πa:ε→A,πc:ε→C 和πt:ε→T,分别指向一个临床诊疗活动对应的4个属性,其中ε是临床诊疗事件集。根据定义1,以表1中的一条数据为例,e=(1,Ⅰ级护理,护理费,8/21/2011),其中πpid=1即病人的编号,πa=Ⅰ级护理即临床诊疗活动的名称,πc=护理费表示临床诊疗活动“Ⅰ级护理”所属的类别是“护理费”,πt=8/21/2011 表示该事件的记录时间为2011年8月21日。定义3 患者诊疗—天日志(day trace)。一个患者诊疗—天日志δ是一个特定患者在特定某一天的所 有 临 床 诊 疗 事 件 的 序 列。即δ= ?e1,e2,…,en?,其中πpid(e1)≡πpid(e2)≡…≡πpid(en),并且πt(e1)≡πt(e2)≡…≡πt(en),ei∈ε(1≤i≤n)。定义4 天日志中的活动集和类别活动集。患者诊疗-天日志中的活动集Γ(δ)={πa(e)|e∈δ}|是一个天日志中所有临床诊疗事件所覆盖的临床诊疗活动的集合,天日 志 中 的 类 别 活 动 集 Γ(δ,c)={πa(e)|πc(e)=c,e∈δ}|是天日志中所有临床诊疗事件所覆盖的属于某一特定集合c的所有临床诊疗活动的集合。例如,给定一个天日志δ=?e1,e2,e3?,其中 :e1=(pid,a1,c1,t),e2=(pid1,a2,c2,t1),e3=(pid1,a3,c2,t1)。该 天 日 志 中 的 活 动 集 Γ(δ)= {a1,a2,a3},类别活动集有2个,分别为Γ(δ,c1)={a1}和Γ(δ,c2)={a2,a3}。定义5 患者诊疗日志。一个患者诊疗日志σ是一个特定患者在其住院期间所有患者诊 疗 - 天日志的序列,即δ=?δ1,δ2,…,δn? ,其中 πpid(δ1)≡πpid(δ2)≡ … ≡πpid(δn)≡πpid(σ),并 且πt(δ1)<πt(δ2)<…<πt(δn),δi∈Δ(1≤i≤n),其 中:Δ 为 天日志的 集 合,n 是 该 患 者 住 院 的 天 数 (Length ofStay,LOS)。定义6 临床诊疗事件日志。一个临床诊疗事件日志L={σ1,σ2,…,σn}是一个数据集中所有不同患者的患者诊疗日志的集合,其中n 为数据集中患者的个数。以上概念之间的关系如图1所示。3013* 诊疗活动的分类在我国有明确规定,在本文的数据集中,诊疗活动一共分为 14个类别,分别为检查费、中成药费、诊查费、血 费、检验病理费、手术费、麻醉费、护理费、采暖费、床位费、治疗费、西药费、特殊耗材费和其他费。计算机集成制造系统 第23卷下面给出临床诊疗事件包和合事件两个重要概念的定义。其中前者不带有任何与患者和时间相关的信息,后者则包含特定的患者和时间信息,两者之间的关系与临床诊疗活动(定义1)和临床诊疗事件(定义2)之间的关系类似。定义7 临床诊疗事件包。一个临床诊疗事件包pkg 是临床诊疗活动的一个集合。定义8 合事件。一个合事件pe=(pid,pkg,t)是一个将临床诊疗事件包赋予病人信息和时间信息之后得到的事件。本文的 CEPM 算法打包的结果是一系列临床诊疗事件包,若用这些事件包替代原始的临床诊疗事件,则需要为其 加上相对 应 的患者和 时 间属性。假设原来某患者的天日志为δ=?e1,e2,…,e6,e7?,pkg1= {πa (e1),πa (e2)…,πa (e6)},pkg2 = {πa(e7)},则替换后δ=?pe1,pe2?,其中:pe1=(pid1,pkg1,t1),pe2=(pid1,pkg2,t1)。3 方案流程与算法实现下面按照图2所示的流程介绍临床过程模型挖掘方案,并重点介绍 CEPM 算法。3.1 数据预处理在数据预处理阶段,将对原始数据进行简单的数据格式处理及数据清洗工作,以保证随后算法用到的数据具有比较高的质量。首先,去除或整合数据中重复的或者具有相同含义的活动名。例如,将原始数据中出现的“钙测定(比色法)”、“钙测定(选择电极法)”和“钙测定(选择电极法加收2元)”统一为“钙测定”,因为本文并不关心钙测定的方法。由此将原始数据中的无重复活动个数从762个降到667个。其次,去除14个类别中无关的两个类别“采暖费”和“床位费”,因为这两个数据几乎没有提供任何与临床诊断相关的信息。3.2 临床诊疗事件打包在介绍打包算法之前,需要对两个重要的关系进行定义。定义9 两个临床诊疗活动之间的条件概率。活动 a1在 活 动 a2下 的 条 件 概 率 P (a1|a2)=N(a1a2)N(a2)。其中:N(a2)表示整个 日 志的所 有 天 日志的活动集中包括a2的天日志个数,N(a1a2)表示整个日志的所有天日志的活动集中同时包括a1和a2 的天日志个数。定义10 同现关系。给定一个最小阈值 min_sup,当且仅当两个临床诊疗活动a1和a2在互相之间的条件概率 P(a1|a2)和 P(a2|a1)均*?不小于阈值 min_sup时,称两个活动为同现关系。同现是度量两个活动间相关性的一个很好的指标,尤其当阈值设置比较高时。同时出于以下两点考虑,在后文实验中将阈值设为0.8:(1)当阈值设为0.8时,具有同现关系的两个活动在其中任意一方出现的80%情况中另一方也同时出现,足以表明这两个活动有很大的概率会一起出现,故将这两个活动打包在一起是合理的。3014* 要求互相条件概率都达到阈值要比单边条件概率达到阈值更加严格,更符合对“同现”的定义。6-06-20;修订日期:2016-09-28。Received 20June 2016;accepted 28Sep.2016.基于条件概率的临床诊疗事件打包算法研究黄浩未,金 涛+,王建民(清华大学 软件学院,北京 100084)摘 要:为了从过往的医疗数据中得到清晰可理解的过程模型,并将其合理应用于医疗决策的制定以及临床路径的改善,提出一种全新的临床诊疗过程挖掘方案,通过将相关临床诊疗事件进行合理打包来减少作为过程挖掘算法输入的事件个数,从而简化挖掘到的临床诊疗过程模型。针对临床诊疗事件打包,提出一种基于条件概率的打包算法,该算法将条件概率作为衡量事件之间关联程度的标准,并将关联程度达到一定程度的事件进行打包。实验结果表明,所提出的临床诊疗过程挖掘方案确实能够得到清晰可理解的过程模型,所提出的打包算法能够在更高容忍度的基础上得到更加精确、合理的结果。关键词:过程挖掘;临床诊疗过程;临床诊疗事件包;条件概率中图分类号:TP311.11   文献标识码:AClinical-event packing method based on conditional probabilityHUANG Haowei,JIN Tao+,WANG Jianmin(School of Software,Tsinghua University,Beijing 10084,China)Abstract:To obtain the understandable clinical process model and apply to medical decision making,an innovationclinical processes scheme that reducing the number of different clinical events in billing data by putting correlate e-vents into clinical-event-packages as new units of log event for further mining was proposed.Aiming at the clinical-event package,apacking strategy based on conditional probability named CEPM to construct clinical-event-packageswith correlate events was presented.The experiment results showed that the packing clinical events was a good wayof generating more comprehensible clinical processes and the proposed packing method could generate packages withbetter accuracy and tolerance according to medical practitioners.Keywords:process mining;clinical process;clinical-event-package;conditional probability0 引言临床路径因其在医疗质量管理、费用控制和资源调控方面的巨大作用而得到广泛应用。实验结果表明,临床路径的应用能够有效规范临床诊疗活动、提高医疗效率[1-2]。自2009 年 起,我 国 卫 生 部 陆 续 发 布 了 超 过300个病种的临床路径,这些临床路径被应用到医院,以促进诊疗流程的标准化、加强费用控制。然而,几乎所 有 的 临 床 路 径 都 是 临 床 专 家 基 于 其 临床经验制定的,从循证医学[3]的角度来看,这些临床路径在一定程度上缺乏临床数据的支持。与此同时,随着医疗信息技术的发展,越来越 多的数据被收集到 医 院 信 息 系 统 中,如 何 有 效 利 用 这 些 宝贵的数据资源,已经成为越来越多研究者 的 目标。若能够从 这 些 已 有 的 数 据 中 挖 掘 到 临 床 路 径,则能够为临 床 路 径 制 定 者 提 供 重 要 的 数 据 支 持,并能够协助 他 们 制 定 新 的 临 床 路 径、完 善 已 有 的 临床路径。临床诊疗过程模型可以在很大程度上表示一个临床路径,它可以利用过程挖掘[4]技术从临床诊疗事件日志中挖掘得到。由于临床医学活动的多样性和多变性,直接对其运用传统的过程挖掘方法得到的过程模型,要么呈现意大利面状、令人难以理解; 黄浩未 等:基于条件概率的临床诊疗事件打包算法研究(2)将阈值设为0.8是基于对医疗数据本身灵活性和动态性特点的考虑,因为几乎不可能有两个活动是100%一起出现的,这样设置也是为了加强本文算法的容忍度。需要指出的是,本文算法要求同一个包内的活动两两之间均满足同现关系,因此通过两层 CEPM算法来寻找这些包,伪代码如算法1~3所示。算法的输入是一个临床诊疗事件日志 L,L 将先转化成一个活动的集合D 作为打包算法的输入。算法采取两层打包的思路,即将12个类别分为内部和整体依次各进行一次打包:(1)第一层打包 利用活动类别属性,先对每一个类别内部的活动进行打包,即首先获得每一个类别下的所有天日志中对应类别的类别活动集(算法1第6行)D(c),然后利用打包算法(算法2)对这些类别活动集中的活动进行打包(算法1第3~8行)。(2)第二层打包 将第一层打包得到的结果转化成合事件(定义8),替换原来的事件并得到新日志Lnew,将Ln转 化 成 Dn(此 时 已 经 没 有 了 类 别 的概念),并对 Dn用同样的打包算法(算法2)再进行一次 打 包 (算 法 1 第 11 行 ),得 到 最 终 的 打 包结果。值得一提的是,在打包算法(算法2)中,首先通过算法3得到初始的临床诊疗包集合(算法2第2行),该算法将每一个原始临床诊疗活动作为唯一的一个活动放到一个独立的包内。随后(算法2第 3~13行)通过初始临床诊疗包集合内包的不断合并(当且仅当两个包内的所有活动两两之间均符合同现条件时将两个包合并),遍历所有可能的序列后得到的临床诊疗事件包集合即为所求,该方法能够保证最后得到的每一个临床诊疗事件包内的所有临床诊疗活动两两之间都是同现的。算法1 临床诊疗事件包挖掘算法 CEPM。输入:L 为一个临床 诊 疗 事 件 日 志;min_supc为第一层(类别层)打包的最低阈值;min_supp为第二层(病人层)打包的最低阈值。输出:临床诊疗事件包集合 PS。1 记 C为 L中的12个类别的集合2 记 D为 L中所有天日志的活动集 Γ(δ)的集合3 PSc←一个全新的临床诊疗事 件 包 的 集 合//第 一 层 打 包 的结果4 对每一个c∈C5  记 D(c)为 L中每一个天日志在类别c下的类别活动集 Γ(δ,c)的集合6  ps←Packing(D(c),min_supc)7  对每一个集合s∈ps8  将s加到 PSc中9 记 Ln为用第一层打包结果替换到 L 中对应事件后得到的新的日志10 记 Dn为 Ln中所有天日志的活动集 Γ(δ)的集合11 PS←Packing(Dn,min_supp)12 返回 PS算法2 打包算法(packing)。输入:D 为一系列活动集Γ 的集合;min_sup 为判断两个活动是否同现的最低阈值。输出:临床诊疗事件包集合 PS。1 max_length←D中最大的活动集的大小2 PS←Init_package_set(D)3 for i=2→max_length4  对每一个活动集s∈D5  找到 PS中包含有活动s[i-1]的包p6  若s[i]已经属于某个包,则7   找到 PS中包含有活动s[i]的包p28  否则9   先建一个只包含活动s[i]的包p210   将p2加到 PS中11  若p1和p2不是同一个包,则12     若 p1和 p2内 的 所 有 活 动 两 两 之 间 都 满 足 同 现 关系,则13    将p1和p2合并14 返回 PS算法3  初始包集合生成算法(init_package_set)。输入:D 为一系列活动集Γ 的集合。输出:临床诊疗事件包集合 PS。1 PS←一个新的临床诊疗事件包的集合2 对每一个活动集s∈D3  对每一个活动a∈s4   若 PS还没有包含有a,则5    新建一个只包含活动a的包pa6    将pa加到 PS中7 返回 PS3.3 临床诊疗过程挖掘在使用过程挖掘工具进行挖掘之前,需要先对得到的临床诊疗事件包做一些简单的筛选。首先去除只包含一个活动并且在整个数据集中的3 200多天内出现次数不足10次的“干扰包”,由于希望挖掘的是最通用的诊疗流程,这些所谓的“干扰包”对最后的 结 果 几 乎 没 有 影 响。 随 后,排 除 病 人 覆 盖3015计算机集成制造系统 第23卷率*?不足98%的包,从剩下的包中按照出现频率的高低选出前20个包,并用这些包生成的合事件(定义8)替换原始日志中对应的事件,最后用过程挖掘算法中的模糊挖掘算 法[9]对新生成的日志进行挖掘。模糊挖掘算法是第一个将高频事件和路径高亮等 地 图 隐 喻 信 息 引 入 过 程 挖 掘 的 算 法,其特点正好 与 本 文 简 化 模 型 的 目 的 相 契 合,因 此 将其作为医疗过程的挖掘算法。4 实验评估下面通过实验分别对临床诊疗过程挖掘方案的可行性和 CEPM 算法进行评估。实验采用的数据集来自我国某省医院在使用临床路径模板前240位脑出血病人的所有收费项数据。该数据集清晰地记录了240位病人在总时间跨度长达5年的时间内共计137 254条收费项记录,涵盖了14个不同类别的762个不重复的临床诊疗事件。正如前所述,选择收费项数据是因为它包含更多的细节,比医嘱数据更加清晰易懂。4.1 临床诊疗过程挖掘方法结果分析按照图2所示的流程,在数据预处理阶段后,将重复的临床诊疗事件数减少到667个,将总的类别数减少到 12 个。在临床诊疗事件包挖掘阶段,将CEPM 算法 在 两 个 层 次 的 阈 值 min_sup 均 设 为0.8,挖掘并去除干扰项之后得到65个临床诊疗事件包,使作为输入的事件数从原先的762减少到65(减少了 91%)。随后,对这 65 个包按照 3.3节的步骤筛选后得到20个合事件,并将筛选后的日志用工具 Disco[18]进行挖掘。Disco中的挖掘算法正是基于模糊挖掘算法[9]实现的,因此与本文使用模糊挖掘算法的方案相符。挖掘得到的结果如图3所示,该过程模型反映了过去该医院在治疗脑出血病时最通用的 治疗流程。图中每 一 个 节 点 都 被 标 注 了 它 的 频 率,同 时也代表着一个临床诊疗事件包。从 整个工作流中可以清晰 地 看 到:一 位 病 人 来 到 医 院 就 诊,他/她首先会做一个“X 线计算机体 层”来 帮助医生诊断其病症,将这部分记为第一阶段(如图3);接下来,若该病人被确诊为脑出血,则将接受住 院治疗,同时进入本文标记的第二阶段。在 该 阶段病人会经历一系列检查,如动态血压监测、尿素测 定和心电监测等,同 时 也 会 服 用 包 括 复 方 川 芎 胶 囊 和 复 方氨基酸在 内 的 心 血 管 药 物,当 然 该 过 程 中 必 要 的护理(如Ⅰ级护理和动静脉置管护理)是必不可少的,将这一部分称为常规护理阶段。随后,医生会对病人进行一系列血液检查(血氧饱和度监 测、血清尿酸测定和血细胞分析等),以判断该病人的状态是否适 合 做 接 下 来 的 手 术。 若 检 测 结 果 合 适,则该病 人 将 会 进 入 下 一 个 阶 段———手 术 阶 段,否则继续 第 二 阶 段 的 治 疗,直 到 下 一 次 血 液 检 查。第三阶 段 是 手 术———静 脉 穿 刺 置 管 术,手 术 之 后病人将会再 做 一 次 X 线 计 算 机 体 层,以 查 看 手 术效果并决定是否可以出院。3016* 一个活动(或者活动包)的病人覆盖率是指那些在整个治疗阶段中出现过该活动的病人占总病人数的百分比。 黄浩未 等:基于条件概率的临床诊疗事件打包算法研究由此可以 得 出 结 论,本 文 提 出 的 基 于 事 件 打包的临床 诊 疗 过 程 挖 掘 方 法,不 但 能 够 解 决 医 疗数据的多 样 性 和 动 态 性 带 来 的 挖 掘 结 果 混 乱、可读性差等 问 题,而 且 该 算 法 挖 掘 得 到 的 流 程 模 型还能够被合理地解释并得到医疗工作者的认同。4.2 CEPM算法与基于频繁项集挖掘算法的打包算法比较临床诊疗事件打包从某种程度上可以定义为频繁事件的挖掘。作为更加传统的挖掘方法,频繁项集挖掘算法在挖掘频繁模式等 方面更为人们所熟知。但是由于挖掘目的和数据基础等原因,传统的频繁项集挖掘方法并不完全适用于临床诊疗事件打包。为了证明这一点,本文基于频繁项集挖掘算法中最常见的 Apriori算法的基本思想实现了 ABPM(Aprioribased package mining)算法,并将其挖掘结果与本文提出的 CEPM 算法进行比较。依照 Apriori算 法 的 核 心 思 想 和 输 入,将 所 有病人每一天 的 所 有 记 录 和 阈 值 min_support作 为Apriori算法的输 入,得 到 长 度 递 增 的 一 系 列 频 繁项集,然后按照以下方案得到临床诊疗事件包:从最大的一 个 频 繁 项 集 开 始,依 次 将 每 一 个 频 繁 项集内的所有临床诊疗事件放到同一个临床诊疗事件包中,同 时 为 了 保 证 每 一 个 不 重 复 的 临 床 诊 疗事件只能 属 于 一 个 临 床 诊 疗 事 件 包,本 文 规 定 已经属 于 更 大 包 中 的 事 件 将 不 会 被 放 到 更 小 的包中。由于 Apriori算法自身阈值反映的是一个活动在整合集合所有活动中出现的比重,经过对该算法进行深入分析,结合实验结果可以发现:所选阈值越低(趋近于 0),得 到 的 最 大 包 越 大,随 着 阈 值 的 升高,越来越多的活动因自身比重达不到阈值而无法参与到频繁项集的构造中。例如,当 min_support为0.3和0.2的时,挖掘得到的最大包的大小分别为6和7;当min_support降到0.1和0.08时,挖掘得到的 最 大 包 的 大 小 升 高 到 13 和 16;而 当 min_support小于 0.08 时,由于 Apriori算法自身存在的指数爆炸问题而无法在有效时间范围内得到输出结 果。 因 此 最 终 确 定 min_support 的 最 优 值为0.08。针对打包 结 果 的 评 价,本 文 提 出 归 纳 程 度 和准确度两 个 评 价 指 标。其 中,归 纳 程 度 描 述 算 法对临床诊 疗 事 件 的 归 纳 能 力,即 对 于 同 样 的 初 始事件数,得到的临床诊疗事件包越少,算法的归纳程度越高。尽管归纳程度的评价更加客 观并能够通过不同 的 维 度 来 衡 量,但 是 它 无 法 反 映 每 一 个包自身的 质 量 高 低。相 比 之 下,准 确 度 的 评 价 更加重要而 主 观,因 为 打 包 的 最 好 结 果 便 是 不 多 不少地将 相 关 联 的 一 类 事 件 恰 到 好 处 地 打 包 在 一起。由于缺 乏 通 用 指 标 来 度 量,本 文 将 准 确 度 的评价交由相应的医疗工作者基于实际的医 疗场景进行评价。(1)归纳程度比较如表2所 示,本 文 的 两 层 CEPM 算 法 能 够 得到比 ABPM 更少(包 的个 数)和 更 大 的 包(包 的 平均 大 小 )。 尽 管 ABPM 得 到 的 最 大 包 的 大 小 是CEPM 的两倍,在深入分析 ABPM 算法后发现,它产生的最大包始终是 Apriori算法得到的最大的频繁项集,且其最大包是“一支独大”的,剩下的包都会比 最 大 包 小 很 多。 例 如 在 本 次 实 验 中,ABPM中次大和 第 三 大 的 包 的 大 小 分 别 只 有 6 和 4,而CEPM 的结果中大小 为 8 的包 就 有 3 个。因此可以 认 为,CEPM 算 法 的 归 纳 程 度 比 ABPM 算 法更好。表2 CEPM 与 ABPM 在归纳程度上的实验结果算法 包个数 最大包大小 包平均大小ABPM  76  16  1.1CEPM  65  8  2.0(2)准确度比较为了比较两种算法结果的准确度,邀请了相关医疗人员来帮助判定每个包的划分是否合理,即每个包内的临床诊疗事件是否在临床实践中有比较高的关联度。结果表明,CEPM 算法得到的大多数临床诊疗事件包内的事件都有很高的关联度,并且可以针对每一个包归纳出一个主题,而 ABPM 算法得到的临床诊疗事件包内的组织就显得比较零散,尽管它拥有最大的包。两种算法的部分输出结果如图4所示(其中图 4a是 ABPM 算法结果中的最大和次大的包)。可以看出,图4b中的腺苷脱氧酶测定包中几乎都是血液检测方面的事件,丙型肝炎抗体测定包中全是乙肝、丙肝检验相关的内容。然而,图4a中的 ABPM 算法第一大包———一次性输液器则涵盖了包括药物(葡萄糖)、检查(尿素测定)和护理(住院诊查费)在内的多方面内容,显得更加笼统、不够准确。3017计算机集成制造系统 第23卷通过上述比较可知,本文的 CEPM 算法在归纳程度和准确度两个指标上都强于 ABPM 算法。除此之外,在临床诊疗事件包挖掘上,基于频繁项集挖掘算法实现 的 ABPM 算 法 还 有 3 个 明 显 的 缺 点。首先,ABPM 算法仅从临床诊疗事件个体的发生频率这一维度进行度量,默认将频率接近的事件放入同一个包中,忽略了事件之间的关联性,由此导致图4a中出现“大杂烩”现象;其次,Apriori算法可调控的阈值 min_support过低(普遍低于 0.1),以至于轻微的变化都可能导致挖掘结果的巨大变化,使整个算法不够稳定,这也是频繁项挖掘算法的通病;最后也是最重要的一点,假设理论上事件 A 和事件 B应该在一起,然而在实际数据中两者不可能任何情况下都同时出现,导致两者无论在自身的频率还是各自的条件概率上都存在一定差异,显然 ABPM 算法本身并没有考虑到这一点并 采取相应的应对策略,而在 CEPM 算法中只要将阈值 min_sup 设置得比1.0更小一些(如本文选择的0.8*?)便能很好地解决该问题。由此可见 CEPM 算法比 ABPM 算法具有更高的容忍度。基于以上实验和分析可以得出如下结论:相比于基于频繁项集挖掘算法实现的打包算法,本文提出的基于条件概率的打包算法无论是准确度还是稳定性甚至容忍度都更胜一筹。5 结束语本文针对传统过程挖掘方法在医疗数据应用中存在的模型可读性差的问题,提出基于共现事件打包的临床诊疗过程挖掘方案,该方案通过将满足共现关系的临床诊疗事件打包在一起来简化原本繁琐复杂的临床医疗数据,简化后的数据经过传统过程挖掘可以得到清晰合理的临床诊疗过程模型。与此同时,本文针对事件打包首次提出基于条件概率的CEPM 算法,并通过实验证明了挖掘方案的可行性和打包算法的正确性。未来研究将从打包算法的优化和打包结果可视化两个方面进行延展。参考文献:[1] PANELLA M,MARCHISIO S,DI STANISLAO F.Reduc-ing clinical variations with clinical pathways:do pathwayswork?[J].International Journal for Quality in Health Care,2003,15(6):509-521.[2] LOEB M,CARUSONE S C,GOEREE R,et al.Effect of aclinical pathway to reduce hospitalizations in nursing home res-idents with pneumonia:a randomized controlled trial[J].Ja-ma,2006,295(21):2503-2510.[3] SACKETT D L.Evidence-based medicine[J].Seminars in Per-3018* 在实际实验中,当算法 CEPM 的阈值取值在0.7~0.9的范围内时均能得到较好的挖掘结果,选取中间值0.8作为结果展示。

[返回]
上一篇:基于多源信息融合故障树与模糊复杂系统的故障诊断
下一篇:基于动态非正态 EWMA 控制图的废旧产品再制造质量控制方法