| 通过大规模临床工具学习为语言代理提供风险预测能力 |
| 来源:一起赢论文网 日期:2025-11-10 浏览数:326 【 字体: 大 中 小 大 中 小 大 中 小 】 |
|
通过大规模临床工具学习为语言代理提供风险预测能力
临床计算器已成为医疗保健领域不可或缺的工具,为临床医生提供风险评估,以实现准确的诊断和预后评估 1,2. 例如,广泛使用的 HEART 评分3根据病史、心电图、年龄、危险因素和肌钙蛋白值统计的点,协助评估主要不良心脏事件的风险,并已被证明对不同人群有益4. 尽管临床计算器在提高医疗保健效率和决策方面取得了成功,但其采用受到多种因素的限制。临床医生必须认识到何时以及如何应用这些工具,因此需要对它们有广泛的了解——由于传播缓慢,这个问题变得更加复杂5.临床计算器也经常被视为独立工具,很少组合在一起或同时应用。此外,非标准化输入参数的要求以及与电子健康记录的集成不良迫使临床医生手动输入数据,从而中断了临床工作流程。这不仅影响了效率,还增加了数据输入错误的风险6.此外,计算器组件的主观解释导致了手动计算的可变性,进一步破坏了其整体可靠性。
语言代理7提供一种有前途的方法来弥合临床需求和风险计算器之间的差距。它们也称为人工智能 (AI) 代理,是由 GPT-4 等大型语言模型 (LLM) 支持的自主系统8.语言代理的主要功能之一是能够使用外部工具9,例如搜索引擎 10,11和特定于域的实用程序12、13、14、15、16.此外,高级法学硕士可以创建可重用的工具 17,18供其他语言代理使用。然而,现有的语言代理主要处理数学和编码任务,对医疗保健的探索很少。
我们介绍了 AgentMD,这是一种新型的医学语言代理框架,旨在解决两个主要目标:(1) 自动管理综合医学计算器库,以及 (2) 将这些计算器精确选择并应用于个体患者场景。因此,AgentMD 的架构包含两个角色:作为工具制造商,AgentMD 自动筛选 PubMed 文章以识别和策划相关风险计算器,最终组装结构化风险计算器工具存储库(我们在这项工作中将此集合命名为 RiskCalcs)。作为工具用户,AgentMD 采用与法学硕士无关的框架,能够根据提供的患者信息从合适的风险计算器中选择、计算和总结结果。图 1 显示了 AgentMD 的架构概述。
图 1:AgentMD 工具管理和使用概述。
图1
a 由 AgentMD 策划的 RiskCalcs 工具包中的临床计算器示例,基于 PubMed 关于 CURB-65 风险评分(PMID:12728155)的文章的标题和摘要。b AgentMD工具的使用方法,包括工具选择、工具计算和结果汇总。
全尺寸图像
我们的评估评估了 AgentMD 的工具管理和工具使用能力。对于工具管理,我们使用质量、覆盖率和单元测试指标手动评估 AgentMD 在 RiskCalcs 中生成的计算器。为了使用 AgentMD 的功能评估该工具,我们将其应用于三个不同的队列,包括手动策划的 RiskQA 数据集,该数据集由 350 个多项选择题组成,用于对照评估;耶鲁大学医学院急诊科的 698 份提供者记录,用于个人层面的评估;和 MIMIC-III 的 9822 份录取通知书19用于人口层面的分析。我们的结果表明,AgentMD 策划的工具在质量检查中实现了超过 85% 的准确率,在单元测试中通过率超过 90%。AgentMD 在 RiskQA 基准测试中的表现也大大优于 GPT-4(准确率为 87.7% 对 40.9%),并且其在个人和人群水平风险预测方面的有效性已在两个真实世界的患者队列中得到验证。尽管这些发现很有希望,但在临床环境中实际使用之前,还需要进一步、更全面的评估。
结果
RiskCalcs 工具具有高质量和广泛的覆盖范围
图 2 显示了 RiskCalcs 中计算器的评估结果。我们手动评估 RiskCalcs 的两个代表性子集:被引用次数最多的前 50 个计算器(图2a)和 50 个其他计算器的随机样本(图对于每个计算器,使用三个注释器来评估工具的质量、覆盖率和单元测试正确性。三个注释者的共识被用作基本事实标签。
图 2:RiskCalcs 的质量和覆盖率分析。
图2
a RiskCalcs 中被引用次数最多的前 50 个计算器的评估结果。b RiskCalcs 中 50 个计算器的随机样本的评估结果。逻辑:计算逻辑;插值:结果解释。Q1-Q5 表示每个工具的单元测试问题(临床小插曲)。源数据以源数据文件的形式提供。
全尺寸图像
正确性评估包括计算逻辑是否正确、结果解释是否适当两个方面。总体而言,计算逻辑和结果解释的平均正确率分别为87.6%和89.0%。我们还评估了单元测试的通过率。为此,我们使用 GPT-4 生成了五组潜在参数值(图 1-Q5 中的 Q1-Q5)。2)给定每个风险计算器的计算逻辑。我们向 AgentMD 提供了生成的计算器和用于计算结果的参数集,我们将其表示为 AgentMD 计算。然后,我们使用相同的参数集手动执行结果计算,无论是使用原始 PubMed 摘要(内部验证)还是在线实现(外部验证)(如果可用)。总体而言,只有 8.4% (42/500) 的 AgentMD 计算与手动计算不一致,而 91.6% 的 AgentMD 计算分别与手动计算一致。除了 GPT-4 生成的集合外,还为 10 个随机抽样的计算器手动策划了 100 组单元测试参数。对于这个手动策划的子集,我们特别包括了更具挑战性和边缘的情况,其中患者参数接近决策边界。因此,AgentMD 的通过率为 84.0%,略低,但总体上与自动生成的单元测试的通过率保持一致。这些结果进一步验证了AgentMD计算的准确性和RiskCalcs工具的质量。
我们还通过检查计算器之前是否已作为在线工具实施来评估计算器的覆盖范围。为此,我们在 MDCalc 中搜索了计算器20,最大的临床计算器中心之一,以及从 Google 返回的用于其他在线实施的第一页。RiskCalcs 中被引用次数最多的前 25 名计算器中的大多数 (68.0%) 都有在线实施。然而,排名在 28.0-25 之间的计算器的覆盖率仅为 50%。来自许多高被引研究的风险计算器,例如 Euro-EWING 99 试验21,不是由任何网站实现的,但由 AgentMD 自动转换为可计算工具。同样,我们在 RiskCalcs 中没有发现大多数 (96.0%) 随机抽样计算器的任何在线实现。在至少有一个在线版本的计算器中,只有 53.8% (14/26) 已由 MDCalcs 和其他在线资源实施,而其余 46.2% 仅在一个来源中实施。这表明临床计算器的手动实施规模有限且进展滞后。总体而言,我们的结果表明,由 AgentMD 构建的 RiskCalcs 可以作为现有在线中心的临床计算器的补充资源。
AgentMD 可以在 RiskQA 基准上准确执行风险预测任务
与用于评估 AgentMD 策划的计算逻辑的单元测试不同,RiskQA 是一个端到端的评估基准,要求系统 (a) 选择合适的风险计算器,(b) 进行正确的计算,以及 (c) 提供适当的解释。RiskQA的实验结果如图所示。3. 当应用于此任务时,AgentMD 首先从 RiskCalcs 集合中选择一个工具,然后使用它来计算给定患者的风险并预测答案选择,如图 1 所示。3a.
图 3:AgentMD 在 RiskQA 上的评估。
图3
RiskQA 中的问题示例以及 AgentMD 如何回答它。b 基于 GPT-3.5 的 AgentMD 与 RiskQA 上的思维链 (CoT) 提示相比的性能。c 基于 GPT-4 的 AgentMD 与 CoT 提示在 RiskQA 上的性能相比。d MedCPT 和 AgentMD 工具选择的准确性。(b-d) 中的准确度(中心线)定义为所有问题中正确回答问题的比例 (N = 350)。误差线是准确率比例的标准差。源数据以源数据文件的形式提供。
全尺寸图像
我们首先将 AgentMD 与思维链 (CoT) 进行比较22,一种广泛使用的 LLM 提示策略。AgentMD 比 CoT 高出 70.1%(准确率为 0.546 vs. 0.321,图 13b)和114.4%(0.877 vs. 0.409,图。3c)分别以GPT-3.5和GPT-4为基础模型。令人惊讶的是,带有 GPT-3.5 的 AgentMD 甚至优于带有 GPT-4 的 CoT(0.546 对 0.409)。这些结果清楚地表明,大型语言模型在提供精心策划的临床计算器工具箱时,可以准确选择合适的计算器并有效地执行医疗计算任务。图3d显示了初始刀具选择步骤的精度。作为基线,使用 MedCPT 进行密集检索可实现 0.723 的前 1 准确率。在 RiskQA 上,AgentMD 从 MedCPT 返回的前 10 个工具中选择最合适的工具。我们的结果表明,基于GPT-4的AgentMD比MedCPT更能选择所需的工具,而MedCPT又比基于GPT-3.5的AgentMD更好。这凸显了 AgentMD 进行工具选择时主干 LLM 的重要性。总之,这些结果证明了 AgentMD 在选择和应用临床计算器方面的有效性,通过 USMLE 类型的问题进行评估。
AgentMD 可以根据急诊科笔记准确计算个人风险
紧急护理面临着紧迫的挑战,因为医生需要在短时间内对患者进行全面的风险评估。AgentMD 有可能通过自动选择和应用医疗计算器来告知风险,从而协助风险评估过程。为了评估 AgentMD 的这一用例,三名医生选择了急诊科 16 个常用计算器的列表来增强 AgentMD,这些计算器应用于耶鲁大学医学院的 698 份提供者说明(图 1)。对于每个计算器,两名医生评估了 AgentMD 排名的前 5 名风险最严重的患者。总共评估了 80 对患者计算器对。图4b显示了每个评估方面的注释比例。总体而言,80.6% 的患者被注释为符合相应计算器的条件,只有 10.6% 的患者被注释为不符合条件。在符合条件和部分符合条件的患者计算器对中,超过 80% 的流程被注释为正确 (52.3%) 或部分正确 (28.5%)。在这样的患者-计算器对中,AgentMD 的几乎所有计算结果都被注释为有用 (68.6%) 或部分有用 (29.1%)。
图 4:急诊科提供者笔记上的个人层面评估结果。
图4
a AgentMD 应用于耶鲁大学医学院的急诊科提供者笔记,其中包含 16 个常用计算器的工具包。对于每个计算器,然后按总体风险对患者进行排名,并选择前 5 名患者进行评估。b 所有患者-计算器对的临床医生注释分布。c 每个计算器的评估结果对患者和注释者的平均值,按平均分数排名。源数据以源数据文件的形式提供。
全尺寸图像
图 4c 显示了患者和注释者的平均计算器评估结果。总体而言,大多数计算器(14 个计算器中的 16 个,87.5%)的平均得分超过 60%。仅有的两个总分低于 60% 的例外包括 HEART 评分和加拿大 C 脊柱规则 (CCR)23,其中由于 AgentMD 对缺失值的错误假设,计算过程的正确性和结果有用性得分较低。总之,AgentMD 在根据紧急提供者记录计算个体风险方面表现出高度的准确性,大多数评估的患者计算器对显示了结果的合格性、计算过程的正确性和临床实用性。
AgentMD 可应用于临床记录,提供人群层面的风险洞察
在本节中,我们分析了 AgentMD 对由 9822 名患者组成的 MIMIC-III 队列的人群水平风险预测。如图所示。5a,AgentMD 首先生成一份潜在风险列表及其对每位患者的定量可能性。然后,我们通过应用于患者的 1039 个风险计算器汇总 AgentMD 结果(图 1039对于每个计算器,AgentMD 根据一组有关注释中的特异性、严重程度、紧迫性和缺失的指标对符合条件的患者进行排名(更多详细信息可以在方法部分找到)。图 5c 显示了每位患者应用的计算器数量,大约遵循平均值为 4.6 的正态分布。另一方面,每个工具的合格患者数量遵循长尾分布(图。5d),大多数计算器的合格患者少于 100 人。这些结果表明,AgentMD可以同时为患者考虑多个临床计算器,这比目前单独使用临床计算器提供了更全面的风险评估。
图5:在MIMIC-III队列上应用AgentMD。
图5
a AgentMD 应用于 MIMIC 中的 9822 录取通知书。b AgentMD 计算结果由风险计算器汇总,并在每个工具中对患者进行排名。c 每个患者所选计算器数量的分布。d 每个使用的计算器的合格患者人数分布。e 两个计算器的计算结果分布。f 临床计算器的 ROC 曲线样本,其中 AgentMD 在预测院内死亡率方面优于 GPT-4。源数据以源数据文件的形式提供。
全尺寸图像
图 5e 说明了 AgentMD 最常用的两种计算器的患者结果分布。第一个计算器预测慢性心力衰竭急性加重的短期死亡率24.虽然平均特异性较低,这表明患者记录中缺少大多数所需参数,但其紧急性和严重程度分布具有较高的平均值。计算器的缺席分布有两个峰值——较高的峰值接近 100,较低的接近 0——这表明大多数符合条件的患者记录中没有评估短期死亡率。第二个计算器预测老年人的 4 年死亡率25.与短期死亡率不同,大多数患者对 4 年死亡率预测的结果并不紧急,严重程度分布也不同,平均值较低。正如预期的那样,它们大多没有出现在患者记录中。这两个示例展示了不同的计算器结果如何提供有关合格人群特定风险的不同见解。
我们还评估了 AgentMD 计算结果是否可以改善院内死亡率预测,这是医疗保健领域一项重要且广泛研究的结果。具体来说,我们将 AgentMD 与普通 GPT-4 进行了比较,作为最近的研究26,27,28,29已证明其预测临床风险的能力。AgentMD 和 GPT-4 都在此设置中执行零样本预测。对于每个计算器对应的患者队列,我们绘制受试者工作特征 (ROC) 曲线并计算用于预测院内死亡率的 ROC 下面积 (AUC)。在使用的 1039 个计算器中,有 604 个计算器具有至少观察到一名院内死亡的子队列。值得注意的是,我们对这些计算器的筛选发现了 AgentMD 策划和使用的 113 个有用的临床计算器,它们的 AUC 高于普通 GPT-4。图 5f 显示了四种此类工具的样本,它们涵盖了各种情况,例如高危静脉曲张和非 ST 段抬高型心肌梗死 (NSTEMI)。我们的结果表明,对于符合这些计算器条件的患者,AgentMD 计算结果可能会改善院内死亡率预测。
讨论
在这项研究中,我们解决了法学硕士临床工具学习中的两个关键问题:缺乏全面的工具箱,以及工具应用的方法和评估的缺陷。由于生物医学文献中报道了许多临床计算器,我们使用 PubMed 作为知识来源来大规模策划临床工具。利用 LLM 的语言和代码生成功能,AgentMD 首先使用 PubMed 摘要在 RiskCalcs 中策划了 2000 多个工具。用户可以使用相关出版物、人口规模和提取的效用指标来评估每个精选工具的质量。我们对 100 个计算器中的代表性子集进行的手动评估证明了 RiskCalcs 的高质量,在三个质量指标上得分超过 85%,并通过了 91.6% 的单元测试。计算逻辑和结果解释不正确或部分正确的最常见原因分别是缺少可执行的 Python 函数和某些结果解释。
RiskCalcs 还涵盖了 Web 上其他地方尚未实施的各种临床工具,显示了其作为现有中心的补充的潜力。临床计算工具由 AgentMD 作为可重用程序实现,这既能为不同的法学硕士提供通用性,又能为计算提供足够的精度。并发工作,例如 OpenMedCalc30采用手动管理并限制实现模式,该架构不可扩展,可能不适用于 GPT 以外的其他 LLM。另一方面,年鉴31实现使用某些计算器作为检索增强生成及其原始文本描述,由于缺乏算术的编程执行,这可能不精确。
RiskQA 基准测试的实验结果表明,AgentMD 可以准确选择和使用临床计算器,大幅优于 GPT-4。具体来说,我们在 RiskQA 上的实验结果表明,虽然基于 GPT-4 的 AgentMD 实现了 0.823 的工具选择准确率,但在 GPT-3.5 作为骨干 LLM 的情况下,性能下降到 0.663,这表明还有进一步改进的空间。此外,对 ED 提供商笔记的评估表明,AgentMD 可以在个人层面准确地进行风险计算,性能略低于控制良好的 RiskQA,这主要是由于真实世界数据存在缺失值问题。最后,AgentMD在MIMIC-III大规模入院记录上的应用可以为医院级风险管理提供独特的见解。如补充表13所示,许多临床计算器需要非标准化的输入参数,只能从患者记录中提取,这需要使用语言代理来自动使用临床计算器。
尽管我们的研究强调了 AgentMD 等临床语言代理的潜力,但它受到一些限制。首先,计算器工具的创建仅限于 PubMed 摘要,由于可访问性问题而忽略了全文文章中的详细描述。今后的工作应旨在拓宽工具开发的数据源。其次,在 AgentMD 中使用 GPT-4 作为核心 LLM 引入了一个显着的局限性,因为它的运营成本高昂且在本地部署的挑战。这种限制强调了研究像 Llama 这样的替代(可能是开源)法学硕士的潜在好处32,这可以提供更具成本效益和更灵活的部署选项,同时保持遵守严格的数据保护标准。此外,我们的工作侧重于从文本模态进行风险预测,结合结构化数据和图像等其他模态仍然是未来探索的重要方向。补充材料包含对结构化数据影响的简要分析33.虽然 AgentMD 已经通过各种数据集对工具管理和工具使用能力进行了评估,但应该注意的是,在将其纳入临床工作流程之前,需要进行进一步、更全面的评估。
总之,AgentMD 代表了一种有前途的有前途的方法,通过自动生成和应用源自 PubMed 文章的一套全面的临床计算器 RiskCalcs,来增强临床决策。
方法 |
| [返回] |