临床医学中大型语言模型评价的系统评价 |
来源:一起赢论文网 日期:2025-04-13 浏览数:41 【 字体: 大 中 小 大 中 小 大 中 小 】 |
临床医学中大型语言模型评价的系统评价 背景
大型语言模型 (LLM) 是基于 transformer 架构的高级 AI 工具,通过增强决策支持、诊断和医学教育,在临床医学中显示出巨大的潜力。但是,将它们集成到临床工作流程中需要严格评估,以确保可靠性、安全性和道德一致性。
目的
本系统综述研究了临床医学中应用于 LLM 的评估参数和方法,重点介绍了它们的能力、局限性和应用趋势。
方法
对 PubMed、Scopus、Web of Science、IEEE Xplore 和 arXiv 数据库中的文献进行了全面回顾,包括同行评审和预印本研究。根据预定义的纳入和排除标准筛选研究,以确定在医学环境中评估 LLM 表现的原始研究。
结果
结果显示,人们对在临床环境中利用 LLM 工具的兴趣日益浓厚,有 761 项研究符合纳入标准。虽然通用领域的 LLM,尤其是 ChatGPT 和 GPT-4,在评估中占主导地位 (93.55%),但医学领域的 LLM 仅占 6.45%。准确性成为最常评估的参数 (21.78%)。尽管取得了这些进展,但证据基础强调了纳入研究中存在的某些局限性和偏倚,强调需要仔细解释和稳健的评价框架。
结论
LLM 研究的指数级增长突显了它们在医疗保健领域的变革潜力。然而,解决道德风险、评估可变性和关键专业代表性不足等挑战将至关重要。未来的工作应优先考虑标准化框架,以确保在临床实践中安全、有效和公平地整合 LLM。
查看本文的同行评审报告
其他人正在查看类似内容
来自生物医学文献的定性指标,用于评估临床决策中的大型语言模型:叙述性综述
文章 开放获取 26 11月 2024
评估大型语言模型的研究前景和临床效用:范围综述
文章 开放获取 12 三月 2024
3 大语言模型在临床决策支持中的性能评价:基于实际案例的比较研究
报道 2025-02-14
背景
背景大型语言模型 (LLM) 是基于 transformer 架构的高级 AI 系统,旨在通过对序列中标记之间的概率关系进行建模来处理和生成人类语言。与传统的 AI 模型不同,LLM 在海量数据集上进行了预训练,使它们能够学习复杂的语言模式,并通过微调或提示来适应不同的任务。这将 LLM 与生成式 AI 和神经网络等更广泛的类别区分开来,后者可能包括非语言或不太上下文敏感的模型 [1]。
LLM 可分为三种主要类型:
仅编码器模型(例如 BERT、DeBERTa):专门理解用于分类和情感分析等任务的文本。
仅解码器模型(例如,GPT 系列、PaLM):在文本生成和语言建模方面表现出色。
编码器-解码器模型(例如 T5、ChatGLM):专为需要理解和生成的任务而设计,例如摘要和翻译。
在医疗保健领域,LLM 在各种应用中显示出潜力。例如,ChatGPT 通过生成鉴别诊断和回答考试式问题,在医学教育中证明了实用性,实现了与 USMLE 测试中的人类专家相当的性能。同样,MedPaLM-2 和 MedPrompt 等模型也针对特定的医疗任务进行了微调,从电子健康记录 (EHR) 分析到生成患者出院总结。尽管取得了这些进展,但减轻偏见、确保数据安全和解决伦理问题等挑战对于其更广泛采用仍然至关重要 [1]。
像 ChatGPT 这样的大型语言模型 (LLM) 在医疗保健领域的出现标志着一个重大转变,可能会改变患者数据管理、临床研究和直接护理的医疗实践。随着数字技术的进步,研究探索了 LLM 在临床环境中的实际应用和功效。包括 Cascella 等人的研究在内的著名研究评估了 ChatGPT 的实施可行性,揭示了其从加强患者沟通到帮助临床决策的广泛用途 [2]。
正如 Tustumi 等人所讨论的那样,LLM 通过快速处理广泛的医学文献和数据,有可能彻底改变决策支持系统、个性化交互并支持手术计划等复杂任务,从而有望取得重大进步 [3]。这些创新不仅旨在提高效率,还旨在提高诊断准确性和患者管理。然而,部署这些复杂的工具会引发关于其可靠性、安全性和道德使用的关键讨论,特别是考虑到医疗保健的敏感性。正如 Nature Medicine 所强调的那样,这些技术在医疗领域既带来了重大机遇,也带来了挑战 [4]。此外,Lahat 和 Klang 认为,LLM 可以帮助满足对专业医疗服务日益增长的需求并加强远程医疗,这对于解决全球健康差异至关重要 [5]。
LLM 的重要性日益增加,需要改进评估框架和跨学科努力,以加强其临床整合并确保安全性和有效性。本系统综述旨在检查医学和临床领域对 LLM 的评价。
方法
2025 年 1 月 15 日,使用 PubMed、Scopus、Web of Science、arXiv 和 IEEE Xplore 等数据库进行了全面的文献检索。检索使用了与 “evaluation”、“large language models”、“artificial intelligence chatbot” 和 “medical and clinical practice” 相关的关键词和 MeSH 术语,详见附录表(表 S1)。
纳入标准
该综述包括在医学背景下评估 LLM 的原始研究文章,要求摘要和全文均可访问。对出版日期或语言没有限制。
排除标准
非原创文章,包括评论、信件、社论和会议论文,以及缺乏摘要的文章、未指定评估参数的文章或专注于非 LLM 模型的文章被排除在外。多模态大型语言模型 (MLLM)、大型视觉语言模型(例如 ChatGPT 4v、LVLM、llava)、视觉语言处理 (VLP) 模型、视觉模型、小语言模型和通用语言模型(仅包括大型语言模型)也被排除在外。
研究选择
初始搜索确定了多条记录,这些记录经过重复数据删除并筛选了相关性。根据 PRISMA 指南,不符合纳入标准的文章被系统地排除 [5]。研究选择过程符合 PRISMA 指南,并使用 PRISMA 流程图来说明选择过程。
数据提取
其余文章进行了详细的数据提取,删除了没有可访问摘要或全文的条目、缺失的 DOI、重复和非原创研究。该过程涉及回答 11 个关键问题,如表(表 1)所示,确保对医疗保健环境中 LLM 绩效的评估进行彻底和公正的审查。
标题和摘要由两名评价员独立筛选,以根据纳入和排除标准评估相关性。由相同的评价员检索和独立评价可能符合条件的研究的全文文章。关于研究资格的任何分歧都通过讨论解决。如果无法达成共识,则咨询第三位评价员进行裁决并做出最终决定。
百分比表示每组中评估特定参数的研究比例。这种方法可以确保清楚地了解一个参数相对于其群体背景的评估范围。
人工评估方法因研究而异,包括专家评估者、同行评估和众包。然而,很少有研究报告使用标准化的评分标准或指南,这可能会影响可靠性和一致性。这种可变性凸显了需要更标准化的评估框架,以确保未来评估的一致性。虽然本综述侧重于确定评价参数,但未来的研究可以系统地对评价方法进行分类和分析。
表 1 数据提取的关键问题
全尺寸表格
结果
研究选择和数据提取
对 PubMed、Scopus、Web of Science、arXiv 和 IEEE Xplore 进行全面检索,共获得 25,156 项研究,其中删除了 2754 个重复项和 328 个附加记录(图 D.这导致 22,074 条记录按标题和摘要进行筛选,导致 20,198 条记录因不符合纳入标准而被排除。在此之后,对通过初步筛选的 1876 篇文章进行了数据提取。其中,586 篇文章由于无法访问摘要或全文、缺乏 DOI、重复和非原创研究类型等原因而被排除。 |
[返回] |