欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033
微信:paperwinner
工作时间:9:00-24:00
硕士论文
当前位置:首页 > 硕士论文
Generative Artificial Intelligence in medicine
来源:一起赢论文网     日期:2025-10-16     浏览数:305     【 字体:

 Generative Artificial Intelligence in medicine

 
生成式人工智能 (GAI) 采用新型机器学习模型来回答问题、解释图像并以新生成的原始文本、图像和声音的形式提供结果,具有卓越的质量和速度。全球数亿用户都在使用这项技术,例如加快写作速度、回答医疗问题和协助编码等技术工作 1,2.在医疗保健领域,研究人员正在探索 GAI 在许多任务中的应用,例如改善患者护理和协助初级生物医学研究。凭借其即时处理和生成内容的能力,GAI 有可能降低成本并提高医疗保健流程的质量,从临床就诊和患者自助到管理流程,例如预约安排、计费和记录保存 1,3.
 
GPT-3.5、PaLM 2 和 LLaMA 等大型语言模型 (LLM) 的成功最初激起了人们对 GAI 技术的临床兴趣,这些模型在合格医生水平上表现出前所未有的回答具有挑战性的医学问题的能力 4,5. 随后,除了文本之外还可以处理图像的多模态基础模型(例如 GPT-5、Gemini 2.5 Pro、Claude 4 和 Grok 4),增加了 GAI 的实用性,包括在生物医学环境中6.Alphafold 及其更新的子模型彻底改变了蛋白质和分子相互作用的结构分析,为药物发现铺平了道路 7,8,9.推理和代理模型,如 o1 和 DeepSeek-R1,表现出通过分解、迭代和使用外部工具解决多阶段问题的增强能力10.这些模型在各种认知任务(包括生物医学挑战)中取得了最先进的性能,使临床医生能够与人工智能队友合作,提高准确性和效率 10,11.
 
传统上,管理计划是通过患者和从业者之间的合作制定的。然而,医生-患者-人工智能三位一体可以增强这一过程,以提供最佳的循证、以患者为中心的护理 12,13.诊断涉及将以患者为中心的信息(临床病史、实验室结果和影像学)与适用的医学知识(存在于最新的临床文章、指南和教科书中)相结合,综合成相关且具体的叙述、结论和计划。基于对话的界面可以最大限度地发挥 GAI 在这种情况下的效用,通过后续问题来澄清查询、推理和结论的含义。同样,GAI 可以纳入生物医学科学家的工作流程,以加速发现、假设生成和报告。可能的功能范围从简单的任务(例如重新格式化文本)到协助技术任务(例如编码,甚至建模以模拟实验,从而最大限度地提高工作台工作的效率)14.
 
在这篇综述中,我们探讨了 GAI 的最新发展,重点是新的新兴能力,以及支持其部署和使用的越来越多的证据基础的生物医学应用。法学硕士、基础模型和代理系统都作为生物医学环境中 GAI 应用的示例进行了讨论(有关文本中使用的关键技术术语的简要定义,请参见方框 1)。我们专门探索 GAI 的成功部署,旨在帮助其他人从负面结果和实施失败中吸取教训。谨慎、深思熟虑的采用对于释放 GAI 赋予的机会来改善医疗保健的可及性、成本和质量是必要的。
 
方框1 关键术语表
代理模型:一种能够自主决策的人工智能模型,无需有限或不需要人工干预。
 
注意力网络:一种人工智能模型,它使用“注意力机制”来识别输入数据中更多和更不重要的部分,例如通过为某些单词分配或多或少的权重。
 
扩散模型:一种 GAI 模型,它将噪声添加到或“扩散”到图像中,然后按顺序逆转此过程,从而生成具有初始训练数据集共同特征的合成数据。
 
基础模型:最初在非常大的数据集上训练的 AI 模型,以在训练数据的模态中赋予广泛的功能。可以进行后续微调以提高更具体任务的性能。示例包括法学硕士。
 
生成对抗网络 (GAN):一种机器学习框架,它使生成器和鉴别器神经网络相互竞争,以生成与原始数据集非常相似的新合成数据。生成器修改输入数据,鉴别器预测生成的数据输出是否属于原始数据集。
 
大型语言模型 (LLM):经过训练和微调的基于文本的 GAI 基础模型,可为用户查询提供有用的响应。
 
神经网络:现代人工智能的架构基础,具有计算表示的节点(人工“神经元”),通常分层排列,它们之间具有可调的关系,以转换数据以达到有用的目的。
 
推理模型:基础模型的子集,经过微调以解决多步骤推理任务,例如通过在模型处理或输出中强制执行思维链叙述。
 
检索增强生成:强制引用指定信息源(例如临床实践指南)以提高 GAI 输出的准确性和相关性的技术。
 
Transformers 模型(transformers):一种基于神经网络的架构,它是最广泛传播的基础模型的技术基础,它允许在词汇标记或较大数据元素的其他组成部分的基础上对有用数据进行顺序构建。
 
变分自编码器(VAE):人工神经网络架构的一个子集,它将信息映射到潜在空间中,然后将信息重建为相似但不同的信息,从而生成新的合成数据。
 
显示更多
生成式人工智能的技术演进
深度学习彻底改变了医学中的计算应用,特别是在非结构化数据(例如自由文本和图像)方面。简而言之,深度学习描述了数据驱动的虚拟“神经元”之间关系的调整,这些神经元在复杂网络中表示,以完成定义的任务,例如将眼底照片分类为正常或病理15.深度神经网络架构可以表示任何功能:即输入到有用输出的任何转换16.最近,注意力网络的使用和转换器的发明导致了自然语言处理的突破。此后,从监督训练(需要大量标记数据)到使用弱和无监督预训练和微调的标签密集度较低的方法迅速演变。为了自动执行认知任务,人工智能开发人员设计了相关的训练任务,并在大量数据中挑战了该任务的模型,以提高其性能。近期GAI发展的主要方案(图。1) 涉及预训练以培养生成连贯的文本、图像或其他数据格式的能力;以及微调(例如通过具有专家、人类或人工智能反馈的强化学习)以提高生成输出的实用性,以响应用户查询3.用户还可以将提示工程与已部署的模型一起使用,以指导和优化输出以满足他们的需求17.
 
图 1:GAI 开发管道概述。
图1
该图显示了从最初的基础模型开发到将其部署到临床护理、运营、管理和医学教育的专业医疗保健应用程序中的关键步骤。关键绩效指标(KPI)、关键绩效指标;PPO,近端政策优化;TRPO,信任区域策略优化。
 
全尺寸图像
合成数据系统和基于规则的人工智能
自 2008 年以来,使用插补或生成合成数据来替换大型数据集中缺失元素的研究越来越普遍,以促进在缺失数据背景下的分析——这是临床研究中的一个常见问题18.越来越多的机器学习技术已经开发出来,以生成最能代表感兴趣人群的合成数据,代表最简单的 GAI 形式19.更高级的模型可以生成整个数据集,而不包括患者可识别数据,使其适合开发和教学目的20.更常用的架构包括变分自动编码器 (VAE) 和生成对抗网络 (GAN)。VAE 将潜在变量从训练数据中分离出来,并使用它们来重建新的合成数据21.这种逐像素的方法通常会导致图像模糊,从而限制了医疗应用22.相比之下,GAN 使用涉及两个神经网络的竞争策略:一个生成合成图像,另一个对真实图像和合成图像进行分类。第一个网络由第二个网络训练,生成无法与真实图像区分开来的合成图像,从而能够生成高度详细、逼真的图像23.然而,统计“噪声”会导致生成图像的保真度不一致,并且存在从训练期间使用的图像中再现患者可识别特征的风险24.
 
扩散模型最近成为最先进的架构,用于生成与真实示例非常相似的图像(例如射线照片或计算机断层扫描图像)。这些模型的工作原理是依次向图像添加噪声并从图像中减去噪声,通过信息丢失和随机替换产生变化25.这个两步过程可以产生比 GAN 或 VAE 生成的图像质量更好、种类更广的图像 25,26.尽管它的计算速度往往比轻量级架构慢,但它仍然可以在本地运行。常用的扩散模型应用程序,包括稳定扩散 3 和 DALL-E 3,在执行生物医学成像任务时表现不佳;需要对定制模型进行特定训练,才能使用这些类型的模型生成逼真的合成医学成像 27,28.通过这种训练,扩散模型可以生成具有逼真解剖细节的合成图像,即使是计算机断层扫描和磁共振成像等三维模式,也为训练诊断算法提供有价值的数据 27,29.
 
许多基于规则的 GAI 应用程序已经用于涉及自然语言处理的临床目的。这些基于规则的机器人将安全性置于灵活性之上,这使得它们在公式化或算法环境中以及具有既定对话引导技术(例如认知行为疗法)的情况下特别有效。事实上,超过 10,000 个心理健康应用程序总共有数百万用户,他们经常支付订阅费 这些应用程序中相对较少经过正式的临床验证,但试用平台的例子包括 https://www.wysa.com/ 和 https://woebothealth.com/(参考文献。30).另一个成功的例子是 Dora,这是一种用于白内障手术随访的自动电话呼叫系统。Dora 使用一组预定的对话元素和管理选项来识别需要在英国多家医院进行临床随访的患者31.尽管新兴的基础模型可能具有增强的灵活性和更广泛的功能,但一些开发人员正在积极推迟对现有基于规则的系统的更换,直到有更好的安全保证32.
 
具有不断增长功能的基础模型
基础模型现在代表了 GAI 的前沿。一般来说,基础模型表现出基于 Transformer 的大型架构,并在一种或多种模态的大型数据集上进行训练,从而发展以这些相同模态产生新的但连贯的信息的能力5.支撑基础模型的弱监督或无监督预训练和微调过程将它们与以前的机器学习架构区分开来。获得广泛关注和使用的基础模型的最早迭代是 LLM,它是 ChatGPT 和 Google Bard 等聊天机器人应用程序的初始技术基础。LLM 提供了一个更普遍地适用于基础模型的开发范式的指导性示例3 (无花果。2).
 
图 2:基于特定模态的 GAI 开发管道。
图2
GAI 模型开发管道的关键步骤包括:(1) 预训练,仔细选择数据源;(2) 对临床数据和特定背景信息进行微调;(3)强化学习,依靠人工输入(必需)来评估准确性、相关性和偏差等方面;(4)部署,这是临床转化的关键步骤。CT、计算机断层扫描;MRI、磁共振成像;CLIP,对比语言-图像预训练;RAG,检索增强生成。
 
全尺寸图像
预训练涉及在大量基于文本的数据集中向 LLM 执行与单词相关的任务。任务要求模型预测人类编写材料中缺失的单词或单词的一部分(“标记”) 33,34.数据集是通过从基于互联网的私人资源中提取文本来生成的,包括临床实践指南、同行评审的期刊文章和医学教科书,以及非医学文本。随后的微调旨在促进生成有用的输出以响应用户查询。微调可以使用人类产生的说明性输入输出对,或者通过人类反馈强化学习 (RLHF) 实现此过程自动化35.在 RLHF 中,离散评估模型使用来自人类的数据进行训练,这些数据对一组有限的输出进行评分以响应输入。然后,这些模型可以复制类人评分来评估和微调 LLM 响应。此外,在人工智能反馈强化学习 (RLAIF) 中,人类参与 RLHF 本身可以自动化36.相反,最先进的专家混合模型(例如,DeepSeek-R1)省去了 RLHF 或 RLAIF 所需的批评模型,转而采用组相对策略优化 (GPRO) 过程——在该过程中,多个输出直接相互比较,以鼓励产生具有优先特征(例如准确性和相关性)的输出37.这促进了基于用户查询的选择性招募模型架构的某些部分,以有效地提供最佳响应10.所有这些微调过程都可以根据模型所需的特征进行定制,例如事实性、相关性和语气。
 
类似的过程可以应用于开发视觉-语言模型、音频-语言模型和其他多模态基础模型(图。2).例如,基础模型已经在各种形式的临床成像上进行了预训练(用基于单词的标记替换为其他形式的信息),并且可以进行微调以执行分类任务,其性能可与最先进的传统深度学习方法相媲美。一个早期的例子是 RETFound,它在“填空”图像建模任务中进行了训练,在该任务中,模型暴露于缺失部分的眼底照片中,并负责重建缺失的像素 38,39.已经开发了其他基础模型,用于计算机断层扫描、光学相干断层扫描、病理载玻片、超声波和 X 射线图像40,41,42,43,44,45.许多专有模型(包括用于驱动流行聊天机器人的模型)都经过多模态数据的训练和微调,从而允许应用程序可以协助完成的任务的互作性和多样化46,47,48.这允许用户在文本之外输入语音和图像,并扩大了应用程序输出的范围。
 
早期的轶事证据和最近对法学硕士的正式研究表明,它们在许多认知任务中表现更好,在这些任务中,提示强制“思维链”推理(以逻辑、循序渐进的方式明确处理问题和解决方案)49. 此后,研究人员将思维链推理纳入微调中以促进这种行为,提高推理能力以及利用外部工具生成解决方案的能力10. DeepSeek-R1、Gemini 2.5 Pro、GPT-5、Claude 4 和 Grok 4 等推理模型是“代理”人工智能的趋势示例,它们需要更少的用户反馈,并且可以自主解决问题和完成任务50. 代理模型可以查询搜索引擎以检索相关信息,在虚拟工作空间中实现代码以试用解决方案,甚至利用自动化机器学习专门针对给定任务构建人工智能模型 51,52. 在医学领域,有希望智能体人工智能能够与临床医生、患者和科学家合作,解决复杂问题并促进创新11,53,54,55,56.
 
用于临床任务的模型蒸馏
推理和响应能力不断增强的模型的持续开发引发了人们的乐观情绪,即“通才”医疗人工智能——本质上是医学基础模型,可以在很少或没有特定培训的情况下自动执行各种医疗任务——将开始部署在临床环境中57. 然而,由于需要密切监督以保护患者免受自主系统造成的潜在伤害,因此 GAI 最初可能会在具有仔细且狭隘定义边界的小型孤立功能中实施。因此,医疗保健环境的更有效、更实用的解决方案可以依赖于专门开发的小型模型,以优化高度特定的医疗任务的性能58.
 
通过称为模型蒸馏的过程,可以相对简单地设计具有与工业旗舰基础模型相当性能的小型模型,即根据旗舰模型生成的一组输出对小型开源语言模型进行微调59,60元. 与最先进的模型相比,特定领域的微调可以促进临床任务的卓越性能61. 尽管正在进行的努力旨在扩大对大型多模态临床数据集的访问,但这种微调通常会因数据隐私治理而无法访问患者数据而受到限制62.
 
较小的 GAI 模型的潜在好处是多方面的。较小的模型比工业法学硕士或其他基础模型的计算成本更低;因此,较低的相关成本可以扩大访问范围,特别是在低收入环境中63. 此外,较小的模型可以本地部署在临床组织的气隙系统中,从而最大限度地降低与在线上传数据相关的安全风险和隐私问题64. 使用小型模型进行明确定义的功能的模块化方法也可以在不影响更广泛系统的情况下促进故障排除,因为组件模型可以单独查询(与依赖具有更广泛功能的单个大型模型形成鲜明对比)。然而,本地部署需要成本,并且需要可能无法访问的基础设施,这可能导致需要通过减少其他临床投资来合理化支出65.
 
通过用户在提示期间应用经过验证的技术,可以部分克服较小基础模型的技术限制。一个限制是较小的模型往往具有较低的上下文长度,这意味着它们对一次可以输入或处理的文本数量有更严格的限制。用户可以利用分块策略,处理更小片段中的信息,以克服这一限制66. 较小的模型在适当和灵活地响应查询以及原始召回准确的专业知识方面也往往会产生不太理想的输出67. 提示工程策略,例如鼓励思维链、抑制不良行为的负边界和检索增强生成,可以缓解这些问题 17,68. 可以对临床医生和患者进行特定教育来教授这些技术,以帮助确保工具最大限度地发挥其潜力69,70元.
 
生成式人工智能的临床应用
GAI 应用程序尚未在自主临床角色中被接受和广泛使用,但被广泛用于管理任务,以及患者和从业者通过聊天机器人(而不是互联网搜索引擎)进行医疗对话71,72,73.大多数GAI验证研究评估的潜在角色(如临床决策或记录)的一小部分,尽管有许多GAI在个别任务中超过临床医生表现的例子,但这并不是取代临床医生担任复杂、整体角色的理由12.此外,小型回顾性研究容易出现偏差和过度拟合,从而限制了普遍性,并且研究中的模型性能可能无法转化为现实世界的环境74.尽管如此,GAI 在医疗保健中的辅助作用正在增强,考虑现有应用程序和部署障碍可以帮助为更有用的系统的研发提供信息。
 
临床支持
在法学硕士聊天机器人在医学生和医生参加的考试中取得及格分数后,医学 GAI 引起了最初的兴趣 75,76.从那时起,开发人员进行了专门的培训和微调,以提高这些考试中的 GAI 性能;最新型号现在接近或超过专家临床医生的表现4,77,78.尽管检查表现不能替代实际临床能力,但一项研究直接比较了 GAI 模型和临床医生在回复社交媒体论坛上发布的患者询问时,发现该模型提供了比临床医生更高质量和更富有同理心的回答(由医疗保健专业人员以盲法方式评估)79.从那时起,越来越多的研究评估了 GAI 在不同情况下提供临床建议的潜力。尽管这些模型比人类临床医生提供了更大的可扩展性,但许多研究的实施不佳(缺乏标准化的评估过程)和报告(无法访问的模型和缺乏对即时工程的描述),并且几乎没有提供有用的信息来指导实施和后续开发80.
 
一项前瞻性研究的早期结果说明了 GAI 在提供临床建议和指导方面的优势和劣势81.例如,临床医生和人工智能在虚拟现实心肺复苏场景的挑战下,当临床医生监督提供管理指导的人工智能时,他们的表现最好;这种情况优于单独工作的临床医生或自主人工智能82.同样,对临床人工智能在特定环境(例如糖尿病视网膜病变筛查)中的经济分析表明,人工智能与人类的协作优于单独工作83.然而,负责根据记录的病史、检查和实验室结果做出具有挑战性的诊断的法学硕士并没有提高医生的表现,这表明 GAI 在缺乏特定算法来指导推理的情况下可能不太有用84.放射科医生的实验还表明,临床医生低估了人工智能预测并将其与他们自己的推理分开,从而限制了人工智能预测的好处,即使这些预测非常准确85. 当专门询问法学硕士的诊断推理时,即使法学硕士得出正确答案,也会发现相对于经验丰富的临床医生的缺陷,这说明了一个需要进一步开发和验证工作的重要差距86. 推理模型的出现——经过专门训练以更好地模仿人类可识别的逻辑思维过程——提高了复杂认知任务(例如临床推理)的性能;通过教临床医生如何最好地提示模型优化响应,可以进一步改进10,69,87.
 
除问答和提供建议之外的 GAI 临床功能研究相对不足 80,88.然而,研究人员正在将基础模型应用于可以提高医疗保健质量的任务。Foresight 是一种经过电子健康记录 (EHR) 训练的预测性临床变压器,可高精度地预测未来的医疗事件、程序和诊断61.Foresight 2 表现出优于工业基础模型 (GPT-4) 的性能,凸显了将特定领域数据与较小模型结合使用的价值,而不是依赖旗舰专有平台89.然而,由于担心未经授权的数据使用,Foresight 的开发已停止,这凸显了利益相关者正在进行的审议和谈判,以保护数据隐私,同时促进创新。
 
其他研究较好的 GAI 应用涉及基于文本的聊天机器人,它们广泛用于心理健康咨询和手术随访 30,31.这些可以在有或没有临床医生给药的情况下使用,使患者能够负责自己的护理并及时获得心理干预90.基础模型提供了开发具有更强大功能和灵活性的聊天机器人平台的机会 91,92.然而,重大风险值得仔细验证和监控。例如,一份关于聊天机器人用户在 GAI 鼓励后自杀的报告凸显了人们对自动心理健康咨询潜在后果的严重担忧93.更安全的部署计划可以使用 GAI 作为咨询师或治疗师的咨询工具,有可能提高他们咨询患者的效率和能力,同时保留对对话的人工监督 94,95.
 
医学教育
目前,接受培训的临床医生通过自主学习和讲座、小组辅导和模拟或真实患者的支持培训来学习。GAI 可以利用其在语气和话语水平方面的不知疲倦和灵活性,协助处理所有这些场景91.从 GAI 聊天机器人获得反馈的医学生表现出优于参加相同培训课程但未收到 GAI 反馈的同龄人。仅仅四次会议后就出现了差异——凸显了基础模型在改善提供量身定制的临床教育方面的潜力96.
 
最近对文献库的快速回顾表明,更多的论文对潜在的用例发表了意见,而不是报告了 GAI 在教育环境中的实验测试97.研究最常评估 GAI 的个性化辅导或作为医学搜索引擎、教育工作者的内容开发以及患者互动模拟以促进低风险沟通实践97.已经开发了用于解剖学教育和基于案例的教学的 GAI“导师”,尽管在培训中部署医学生或医生的合理性有限的有力验证 98,99.重要风险包括幻觉和传播不准确、有害的信息;当需要模型回忆特定事实(例如支持参考文献)时,此问题更为常见100.此外,为了尽量减少损害医学教育的风险,在强制或认可其使用之前,证明学生从 GAI 中受益至关重要。
 
行政协助
临床医生受到日益增长的行政责任的困扰,包括文档、计费、编码、调度和库存管理。行政负担通过降低工作满意度和增加可能影响患者护理的错误的可能性来影响医疗保健专业人员101.GAI 可以简化这些任务,从而改善临床医生利用时间的方式。由于其中许多任务不会直接影响临床护理,因此可以说,在这些环境中部署 GAI 的验证要求应该较低81.然而,在医疗保健中部署 EHR 带来的管理负担急剧增加,这表明循证部署对于确保工作流程干预改善临床医生的工作体验至关重要102.
 
GAI 擅长以超人的规模和速度处理和生成文本,因此可能有助于减轻医疗保健领域的文档负担。潜在的应用范围从按需图表审查和注释生成,到 EHR 功能的自动化,例如病史生成和临床编码103.对环境 GAI 抄写员(在咨询期间处理语音以生成文档草案)的研究表明,临床医生高度赞同这种技术的使用,因为节省了工作和时间、高质量的文档以及更多地陪伴患者的能力 104,105.GAI表现出卓越的总结能力,一项研究表明在质量和效率方面优于临床医生106.一般来说,GAI 似乎生成了高度可读的文档,其中包含临床医生希望强调的最重要的要点,这些要点已在出院摘要和知情同意书中进行了测试 107,108.
 
临床编码是一项劳动密集型的管理任务,对于记录保存、公共卫生、研究和计费至关重要109.由于代码必须完全符合词典,例如国际疾病分类 10,因此幻觉或其他故障会导致不可接受的性能。专有的法学硕士,包括 GPT-3.5、GPT-4、Gemini Pro 和 Llama 2,表现出低于 50% 的匹配率,这可能是由于训练过程中的标记化过程——其中文本被拆分为与单词或临床代码大小相同的小单元,但没有保留编码系统的内在结构 109,110.为了提高性能,对符号基础模型进行特定的训练和微调,这些模型将临床代码处理为独立于自然语言的离散单元,是必不可少的111.改进的编码模型的下游好处可以扩展到其他流程,例如审计、保险索赔、成本计算和研究,所有这些都取决于诊断和干预的忠实记录。
 
在为管理临床任务部署 GAI 时,必须考虑三个重要风险,即使在性能似乎优于临床专家的情况下也是如此。首先,非英语语言的性能容易下降,这主要是因为大多数预训练和微调数据都是英语的3,108 .此外,由于法学硕士在歧义(源文本不具体)以及幻觉或虚构的事实方面存在困难,因此委托给 GAI 会带来生成和传播虚假信息的风险。缓解策略可能包括负责临床监督和责任的人机;让另一个或同一个 GAI 系统“并行”验证输出;或利用“串联”的 GAI 链来提高文本质量112.最后,由于 EHR 中的特殊格式和存储结构,在具有复制数据的“理想”测试设置中验证的性能可能无法反映实际设置,特别是在不同的 EHR 平台上113.理想情况下,模型应该专门在 EHR 平台中进行训练、微调和验证——由于信息治理政策和需要访问足够的计算资源,这具有挑战性——以确保模型能够有效地处理患者数据。
 
初步研究
GAI 正在通过自动化假设生成、研究设计、数据分析和报告撰写等关键组件来加速生物医学研究。各种概念验证实施展示了 GAI 在研究方面的潜力:评估和设计新的机器学习架构,与机器人系统连接以完全自动化地理论化和证明蛋白质的结构-功能关系,甚至设计可以治疗疾病的疗法14,114,115.随着自动化机器学习的出现,GAI 系统可能能够自主构建深度学习模型,以完成无限种类的任务52,116 .因此,GAI 代理可以充当虚拟研究合作者,利用他们跨越所有学术研究领域的一般培训,扩大获得多学科专业知识的机会117.并非这种自动化的所有影响都是积极的:自 GAI 聊天机器人激增以来,观察到分析公开数据集的研究公式化报告急剧增加,其中许多研究质量很差,可能来自造纸厂和引文农场118.
 
GAI 产生的综合数据可以促进比目前可行的更雄心勃勃的研究。例如,合成数据可能会增强甚至取代从患者记录中提取的敏感数据集,从而允许为临床实践提供信息的研究(例如随机对照试验,这些试验通常难以招募足够数量的参与者)或帮助开发新的干预措施,例如需要数据来训练或验证的计算系统20.然而,依赖合成数据存在潜在问题,根据定义,合成数据不是从真实患者那里收集的。合成数据可能不包含个体之间的全部特殊差异,并且专门针对合成数据进行训练的模型的性能往往会随着训练的增加而下降119.由于合成数据通常来自患者的真实文本、成像和其他信息,因此它们可以包含患者特定的特征,从而释放可识别的机密信息120.
 
GAI 还为新的研究工具奠定了技术基础,这些工具允许在分子生物学领域进行前所未有的研究。AlphaFold 及其子模型可准确预测蛋白质结构,现在可以按需对蛋白质-蛋白质相互作用进行建模;这些研究以前需要大量的实验室实验7,8,121.ESM3 是一种多模态 GAI 模型,可对蛋白质序列、结构和功能进行推理。ESM3 展示了设计与现有物种具有相似功能的新蛋白质的能力,并且可以通过提供自由文本提示的用户进行定制。ESM3 已被用于产生新的荧光蛋白,其结构与任何现有物种的结构显着不同,表明真正的创造而不是模仿122.Evo 和 Evo 2 是基因组基础模型,利用对 3000 亿个核苷酸的训练来生成和分析全基因组规模的 DNA 序列。因此,Evo 可以设计和预测 CRISPR-Cas9 等基因编辑系统的疗效,从而增强基因工程导致新医学疗法的潜力 123,124.使用从大量实验中收集的数据(其中许多不会发表结果)可能会导致基础模型的激增,从而增强实验室和临床研究。
 
最后,GAI可以通过加速文献检索、摘要筛选和已发表成果的叙述性综合来协助方法学研究、文献综述和报告撰写。与具有特定领域专业知识的Cochrane图书馆系统综述作者相比,法学硕士在识别与系统综述问题相关的论文方面表现出相当的表现112.各种研究模型提供综合功能,以提供任何研究领域的初步概述,比较结果表明,这些概述的质量与人类生成的摘要相当,例如维基百科文章125.正在进行的工作将整合这些能力,以开发可以生成有用假设的代理模型,并设计和模拟方法来回答重要的科学问题 126,127.围绕 Gemini 2.0 构建的早期多智能体“AI 联合科学家”已经证明了识别新药理学靶点的能力,甚至设计出具有良好体外活性的新药的能力,这表明 GAI 可以加速生物医学发现和新疗法的开发128.
 
评估和质量保证
建立一个涵盖技术、临床、监管和伦理方面的强有力的评估框架对于确保 GAI 干预措施安全、有效和可靠,并具有适当的投资回报以证明整合到现有或新工作流程中的合理性至关重要。循序渐进的方法类似于责任日益增加的临床培训过程,提供了一个指导性框架129.临床应用的评估可能需要超越单纯的“基于任务的认证”,而需要包含评估现实世界临床影响的综合框架130.
 
临床前评估(研发阶段)
标准化测试和人工但具有指导性的临床场景可用于证明应用程序可以提供有用的帮助,并且其功能不会在可预测的“痛点”上受到影响。目前,大多数已发表的涉及 GAI 的研究都属于这些类别,很少有涉及真实患者数据的研究,前瞻性临床研究就更少了80,131 .
 
对于定量评估,常规统计措施,包括准确性、灵敏度、特异性、受试者工作特征曲线下面积)、精度、召回率和 F1 分数,可用于符合要求的任务132.然而,虽然特定于任务的算法仍然可以使用传统指标进行评估,但这些方法经常无法捕获基础模型的性能。可能需要进行定性评估,以便对 GAI 申请进行更全面的评估(定性和定量指标的示例见表 1) 78,79.这些指标也可以分为内在指标、外在指标和特定于多模式临床基础模型的新兴指标。
 
表1 GAI定量和定性评价指标
全尺寸桌子
内在度量使用从语言学领域借鉴的原理来衡量输出的连贯性和意义133.这些方法可以根据重叠的单词(例如,BLEU(双语评估评估)、ROUGE(面向回忆的评估,用于要点评估)或 METEOR(显式排序翻译评估指标))、应替换的字符频率(例如,Levenshtein 距离)或句子结构(例如,CIDEr(基于共识的图像描述评估))134,135,136,137,138,139.然而,这些算法评分系统的客观性和可靠性是以牺牲上下文和任务的特异性为代价的。
 
相反,外在指标结合了任务的背景和利益相关者的观点,以提供更有洞察力的分数,通常以增加主观性和不确定的评分为代价133.例如,专家人类评估员的任务是参考一个或多个期望的特征来评估 GAI 输出,如 SCORE(安全性、共识性、客观性、可重复性、可解释性)框架所示140(表 1)。
 
或者,LLM 本身可用于应用外在指标,通过自动计算语言指标(例如,BERT-SCORE141),或者通过对是否遵守定义的基本事实(例如,系统评价、临床实践指南、信誉良好的主要来源)进行更复杂的分析,并具有逻辑一致性和与手头主题的相关性142,143,144,145,146,147.人们对“法学硕士作为法官”的角色越来越感兴趣,它提供了一种经济高效、一致且可扩展的方法来评估复杂的任务绩效148.最近对 LLM-as-a-judge 进行的验证,用于评估 GAI 生成的 EHR 摘要,与专家人类评估员相比,即使在需要高级临床推理和特定领域专业知识的情况下,也表现出很强的评估者间可靠性149.需要进一步的工作来实现自动外部指标的可解释性,并开发验证基准以证明其使用的合理性。
 
随着多模态基础模型的出现,需要更新的指标来促进临床应用的评估。为了全面概述临床 GAI 评估的基本指标,Abbasian 等人提供了准确性、可信度、同理心和绩效标题下的摘要150.为了克服任何单一系统的局限性,很可能需要采用多指标评估方法151.这可以使研究人员能够更具体地突出新应用程序的优势和劣势,有助于指导后续开发工作并预测临床部署的问题。
 
临床评估和实施
一旦应用程序在测试环境中表现出良好的性能并有明确的实施计划,就需要进行临床验证。最初,建议密切监督,特别是对于影响临床决策的系统129.对于影响诊断、调查或治疗的临床干预措施,可能需要进行随机临床试验,以便客观评估新系统的有效性和安全性,以证明部署的合理性81.以前许多基于人工智能的干预措施的试验规模相对较小(通常是单中心),使用非临床终点,并且提供的人口统计信息有限,因此很难评估普遍性152. 具有临床主要终点(例如死亡率或发病率)和透明报告的更大规模研究将代表支持 GAI 部署的最令人信服的证据。一旦得到稳健的验证,就可以规划自主部署,减少直接监督,对潜在的不良后果进行结构化的重新验证和监测,类似于纵向的 4 期临床试验129. 为了提高研究设计、实施和报告的标准,许多报告指南(其中一些是针对 GAI)通过专家寻求共识的练习制定的,例如 EQUATOR 网络发布的指南153,154,155,156. 此外,斯坦福大学的研究人员开发了多中心基准测试框架 (MedHELM),使研究人员能够在广泛的实际任务上评估他们的模型157.
 
对于旨在提高临床医生生产力或工作生活质量的非临床干预措施,可以说没有必要进行随机试验81. 例如,可以在临床医生保留责任和监督的情况下起草信件的模型可以使用外在指标进行评估79. 然而,前瞻性随机化是分析与新干预措施相关的因果关系的最明确方法,并且可比的 A/B 测试已在相邻领域得到充分建立 158,159. 在大规模部署 GAI 系统之前,这些类型的研究很重要,因为即使是善意的技术“解决方案”也可能无意中导致效率低下、文档质量下降和临床医生倦怠等问题160.
 
对偏见和公平性的担忧进行全面评估对于临床 GAI 应用至关重要,以避免对患者造成不公平的益处和潜在伤害,例如,由于边缘化群体代表性不足导致的算法偏差,或由于社会经济因素或不同社区对 GAI 的不信任而无法公平地获得有益干预措施。越来越多的举措可以促进积极考虑和采取行动来纠正这些不平等现象,以支持临床医生、研究人员和政策制定者,包括 STANDING-TOGETHER、FUTURE-AI、CARE-AI 和 SCORE161,162,163.通过使这些领域的高质量工作标准化,希望整个领域在解决偏见和公平问题方面取得进展。一种有前途的方法是创建共享基准数据集来测试特定临床任务的性能。
 
除了对 GAI 模型性能进行定量和定性评估外,根据部署带来的风险评估应用程序安全性也很重要。这些风险因模型类型(封闭与开源)、数据输入(以及相关的同意或去标识化程序)以及持续监控以排除性能漂移的计划而异。最后,卫生经济分析是部署的重要先决条件,特别是考虑到许多 GAI 系统需要大量资源164.许多 GAI 系统需要证明在信息技术、人力、治理和持续更新方面进行大量前期投资的合理性。了解实施成本并将其与其他潜在的资源用途联系起来,可以确保根据对患者最有利的因素做出合理化的决策。考虑直接和间接领域的预期投资回报非常重要,特别是对于大幅改变工作流程或患者结果的干预措施。
 
未来机遇
尽管 GAI 已经彻底改变了许多行业,包括金融、教育、零售、交通和技术,但医学的普及相对缓慢165.这可能部分是由于在复杂且经常模棱两可的领域中,很难设计出具有足够性能的模型来匹配临床医生的模型,这也取决于患者和从业者的信任,而不会导致不利或不公平的结果。研究和开发工作应集中在四个广泛领域,以将技术转化为有用的临床应用。
 
首先,尽管模型开发受到了很多关注,但后续在现实环境中的部署研究相对不足80,152,166.在实用试验和持续监测中进行稳健的临床验证,以减轻任何性能下降和部署的意外后果,将至关重要81.其次,不透明和不明确的报道是一个普遍的担忧。为了最大限度地提高透明度,理想情况下应该提供 GAI 模型开发中使用的方法和数据集,详细说明使用了哪些模型、如何定制它们以及使用了哪些基础设施来部署它们。这将使研究人员能够复制结果并在其他团队的工作基础上再接再厉 155,167.第三,提高人工智能素养将使临床医生和患者能够充分利用 GAI 工具,但这需要医学院和整个临床培训的有针对性的努力69.最后,需要全面且连贯的治理结构,以允许开发人员投资于 GAI 开发和部署,而不必担心未来的许可性。《欧盟人工智能法案》提供了一个早期的例子,要求高风险人工智能系统的提供商向积极的市场监督机构报告严重事件168.
 
GAI 技术随着新的进步而不断发展,例如大型概念模型,从而实现卓越的推理和上下文理解169,以及具有更大自主权的代理 GAI170.需要进一步的工作来开发集成到现有临床工作流程中的 GAI 应用程序,解决伦理和隐私问题,并商定一个治理系统,为研究人员和开发人员保留激励结构,同时确保患者保持安全,临床医生受益于基于证据的工作模式的改变。
[返回]

下一篇:从自然发生的数据中自动发现控制技能获取的符号规律