欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033
微信:paperwinner
工作时间:9:00-24:00
博士论文
当前位置:首页 > 博士论文
医学文献挖掘中人机协作的基础模型
来源:一起赢论文网     日期:2025-11-10     浏览数:270     【 字体:

 医学文献挖掘中人机协作的基础模型

 
应用人工智能(AI)进行系统文献综述在加强循证医学方面具有巨大潜力,但由于培训和评估不足而受到限制。在这里,我们展示了 LEADS,这是一种 AI 基础模型,该模型在 633,759 个样本上进行了训练,这些样本来自 21,335 篇系统综述、453,625 篇临床试验出版物和 27,015 个临床试验注册库。在实验中,LEADS 在六项文献挖掘任务(例如研究搜索、筛选和数据提取)上证明了比四种尖端大型语言模型 (LLM) 的持续改进。我们对来自 14 个机构的 16 名临床医生和研究人员进行了一项用户研究,以评估集成到专家工作流程中的 LEADS 的效用。在研究选择中,使用 LEADS 的专家实现了 0.81 的召回率,而没有使用 LEADS 的专家达到了 0.78,节省了 20.8% 的时间。对于数据提取,准确率达到 0.85 和 0.80,节省了 26.9% 的时间。这些发现鼓励未来利用高质量领域数据来构建优于通用模型并提高文献挖掘专家生产力的专业法学硕士的工作。
 
其他人正在查看的类似内容
 
用于疾病诊断辅助的通才医学语言模型
文章 2025 年 1 月 8 日
 
将人工智能转化为肿瘤临床实践
文章 2023 年 9 月 8 日
 
电子健康档案共享基础模型适应性的多中心研究
文章 开放获取 27 六月 2024
介绍
系统综述和荟萃分析等文献挖掘在医学中变得越来越重要,是发现、整合和解释新兴研究的重要途径 1,2.系统综述的激增体现了文献挖掘的重要性日益增长,PubMed 上每年发表超过 50,000 篇综述文章 3,4.然而,这个过程既昂贵又耗时。一项针对 195 条综述的研究表明,系统综述的平均完成时间为 67.3 周5.此外,一项针对 NIH 资助的顶级机构和制药公司的研究报告称,每个组织每年进行系统文献综述的成本约为 1700 万美元6.医学文献的庞大数量进一步加剧了这一挑战,PubMed 现在索引了超过 3500 万篇出版物,每年收到超过 100 万篇新条目4.其中相当多的元数据索引很差,导致研究搜索精度不佳7.因此,研究人员在进行全面的文献挖掘方面面临越来越多的障碍,对 485 篇系统综述中注意事项的回顾就证明了这一点,包括文献检索不足、潜在的研究选择偏差和数据提取错误8.除了荟萃分析用例之外,文献挖掘的应用还包括创建新证据9、临床指南的修订10,以及药物发现和开发的加速11.
 
人工智能 (AI) 的最新进展显示出改变医学文献挖掘的前景 12,13.例如,人工智能已被用于关键字生成,以增强文献搜索 14,15,通过检索促进研究筛选 16,17,并支持关键实体提取,包括人口、干预、比较和结果 (PICO) 要素的识别 18,19. 人工智能还被用来总结科学出版物的证据20,21,22. 该领域的最新发展主要是由人工智能基础模型驱动的,特别是像 ChatGPT 这样的大型语言模型 (LLM)23,作为能够适应不同任务的通才人工智能24.这些基础模型通常通过两种主要方法适应医疗任务25:提示,例如上下文学习 (ICL)26、思想链27和检索增强生成 (RAG)28;以及针对特定任务的微调,例如命名实体识别29和证据总结30.
 
尽管取得了这些进步,但一些关键挑战仍然存在。首先,现有的医疗人工智能模型主要是特定于任务的,范围很窄,通常在有限的数据集上开发和测试31.这些模型通常需要固定格式的输入,并且需要针对新任务或不同的数据格式进行重新训练,无法作为能够处理灵活输入和跨不同主题进行泛化的通才人工智能发挥作用24.其次,在我们之前的研究中,我们开发了 TrialMind,它可以提示通用领域 LLM 执行多个文献挖掘任务32.基于 TrialMind,我们开发了一个实现人机交互的平台33.尽管如此,这些适应可能达不到特定领域微调模型所证明的有效性,正如开发专业医学法学硕士的最新进展所证实的那样34,35,36.第三,综合评估人工智能方法在文献挖掘任务中的性能存在局限性。现有研究受到样本量有限的限制,研究通常以数十次系统评价为规模进行,并且通常只关注单个任务,例如搜索查询生成 14,15和引文筛选37,38,39.这种狭窄的范围可能不足以代表医学文献挖掘的全部复杂性。最后,目前的验证工作主要集中在人工智能自动化流程的潜力上,其中可能会发生幻觉等关键挑战,但没有得到充分解决40.鉴于文献挖掘对准确性和事实完整性的高标准,通过人机协作开发和评估人工智能是一种更务实、更可靠的方法 41,42.
 
在这项研究中,我们引入了一个基础大型语言模型,以促进人类与人工智能在 sEAisrch、筛选和从医学文献研究 (LEADS) 中提取数据中的协作。我们的方法将文献挖掘分解为子任务,包括搜索查询生成、研究资格评估、研究特征提取、参与者统计数据提取、手臂设计提取和试验结果提取(图 11a)。LEADS 是在通用 LLM 上构建的,然后使用 LEADSInstruct 进行微调,LEADSInstruct 是一个广泛的指令数据集,从 21,335 篇系统综述中精选而成,涉及 453,625 篇出版物,其中包括 8485 篇系统综述和 27,015 个临床试验注册库。这种全面的训练策略使 LEADS 能够实现多任务处理能力、处理灵活的输入请求并在不同的文献主题中进行泛化,而无需额外的微调。在我们对具有数千条系统评价的广泛综述主题的实验中,LEADS 在所有目标任务中都比 GPT-4o 等尖端通用 LLM 具有全面优势(图 11d)。涉及 2025 年之后在测试中发表的评论的伪前瞻性评估进一步验证了这一点,其中 LEADS 显示出与 GPT-4o 和 Deep Research 相当的性能。为了验证该模型的实际效用,我们进行了一项用户研究,涉及 14 个不同机构的 14 名临床医生和 2 名医学研究人员。该研究比较了两个实验组:纯专家方法和专家+人工智能协作方法。我们的研究结果表明,LEADS(即专家+人工智能部门)在加速引文筛选和数据提取任务方面提供了令人鼓舞的好处,同时保持或超过手动工作的性能。
 
图 1:LEADS 和 LEADSInstruct 概述。
图1
a LEADSInstruct 由 20K+ 系统评价、453K+ 出版物和跨数据源链接的 27K+ 临床试验组成。采用混合方法将链接数据转换为涵盖文献挖掘中6个任务的指令数据。b 显示涵盖不同条件的评论数量的条形图。c 条形图显示涵盖不同干预措施的综述数量。d 将潜在客户与尖端专有人工智能和开源人工智能模型进行对比的比较性能分析。评估指标包括搜索查询生成的召回率、研究资格评估的Recall@50以及其余任务的准确性。e 指令数据集的输入和输出中标记数量的密度图。f 实验装置的示意图。g 用户研究设置的示意图。
 
全尺寸图像
结果
LEADS 和 LEADSInstruct 概述
LEADS 解决了系统评价方法中的三个基本任务43:文献检索、引文筛选和数据提取。为了优化文献挖掘过程,我们将这些任务分解为六个专门的子任务:(1)搜索查询生成以最大限度地提高研究识别覆盖率;(2)研究资格评估,系统评估候选引文;(3-6)四个不同的提取子任务:研究特征、手臂设计、参与者统计和结果。每个子任务都被表述为适合大型语言模型 (LLM) 处理的配对输入输出指令格式(详见“方法”部分)。
 
我们的数据集包括来自 PubMed 的 21,335 条系统综述及其相关的 453,625 篇出版物引用,其中包括与 ClinicalTrials.gov 年 27,015 条临床试验记录相关的 8485 篇综述(图 1999 年)(图 1999 年)。1a)。我们还构建了一个名为LEADSInstruct的指令数据集,利用系统综述、出版物和临床试验之间的联系(详见“方法”部分)。LEADSInstruct 包含六项任务的 633,759 个指令数据点。最常见条件和干预措施的分布如图所示。1b,c。我们微调了预训练的 Mistral-7B 模型44在 LEADSInstruct 上使用指令调整。为了进行比较,我们还评估了专有的 LLM,包括 GPT-4o45、GPT-3.546和 Haiku-347、Mistral 等开源通用 LLM44和骆驼48,以及 BioMistral 等专业医学法学硕士49和 MedAlpaca50.我们抽样了 20% 的数据来构建测试集,其中包括数千项系统评价和数十万项临床研究。为了消除数据泄露风险,即已发表的评论和论文在LLM的预训练数据中,我们还创建了一个伪前瞻性评估集,由2025年之后发表的31篇评论组成。据我们所知,LEADSInstruct 是迄今为止最大的基准数据集,用于评估 AI 在文献挖掘任务中的性能。
 
综合目标研究的文献检索查询
我们评估了LEADS在出版物和临床试验检索任务中的表现。系统将研究问题作为输入并生成优化的搜索词,然后用于查询 PubMed 或 ClinicalTrials.gov 的相关出版物或试验记录(图 12a)。我们的测试集包含不同治疗领域的 10,000 多项系统评价(图 10,0002b)。对于每篇综述,我们计算了召回率指标,衡量了检索策略成功检索到的相关研究的比例。为了建立全面的基准,我们使用基线法学硕士实施了四种不同的方法:(1)零样本查询,其中模型直接从研究问题中生成搜索词,没有示例;(2)少样本提示,提供示例搜索查询作为指导;(3)情境学习(ICL),结合详细的专家式指导来制定查询;(4)将ICL与少样本策略相结合的混合方法,以最大限度地提高性能(扩展图。18)。
 
图2:LEADS执行文献检索任务。
图2
a 说明 LEADS 如何接收研究问题定义、执行搜索查询生成以及从文献中检索引文。b 数据集中综述和涉及引文的条件主题的分布。c LEADS 和领先模型的搜索查询生成性能,就已识别研究实现的召回率而言。括号中的信息表示基线与 LEADS 或 LEADS 与同一任务中最佳基线相比的性能变化。d 根据生成的搜索查询产生的召回率,LEADS 与 GPT-4o 的主题比较。LEADS+ 集成表示多个搜索查询的集合。e LEADS 和 GPT-4o 在每次综述的不同目标研究数量方面的表现。误差线表示平均值的 95% 置信区间,当样本量小于 10 时省略。
 
全尺寸图像
总体召回率总结在图中。2c. LEADS 在这两项任务中获得了 24.68 和 32.11 的召回分数,分别超过表现最好的基线 3.76 和 7.43。在研究搜索性能的伪前瞻性评估中可以得出类似的结论,其中 LEADS 比 GPT-4o 和深度研究获得了 0.30 的召回率提高(扩展图 1999 年 1 月 1 日)。值得注意的是,在 Mistral-7B 上微调的 LEADS 比原始 Mistral 模型有显着改进,后者的召回率分数仅为 7.18 和 8.08。这表明通过在 LEADSInstruct 上微调通用 LLM (Mistral-7B),分别实现了 17.5 和 24.03 的大幅改进。同样,零样本通才法学硕士的表现也明显较差,其中 GPT-4o 在出版物和试验搜索任务中的召回率得分分别仅为 5.79 和 6.74。这凸显了通用法学硕士在未经调整的情况下处理特定领域任务的局限性。有趣的是,在大多数情况下,在提示中添加示例几乎没有任何好处。例如,使用 GPT-4o 的 ICL+Few-shot 策略在出版物搜索中实现了 11.95 的召回率,低于单独的 ICL 策略。这表明综述主题的多样性带来了挑战,因为少数例子不足以概括广泛的治疗领域。在我们的评估中,召回率计算为 K 处的召回率,其中 K 代表原始综述中的目标研究数量。尽管增加 K 会导致更高的召回率,但这个严格的指标对于评估我们方法的性能仍然有效。值得注意的是,原始评论本身并不详尽;因此,LEADS 检索到的许多相关和新确定的研究可能不会包含在原始引文列表中。
 
图 2d 显示了召回率的主题细分。在所有评论主题中,LEADS 的表现始终优于 GPT-4o,在大多数情况下召回率超过 5。同样,对于试验搜索任务,LEADS 在大多数领域实现的召回率几乎是 GPT-4o 的两倍。这些结果凸显了所提出的指令数据生成管道的有效性,使 LEADS 能够从优化的合成查询术语中学习并优于 GPT-4o。值得注意的是,报告的 LEADS 和基线召回率基于单次通过,以进行公平比较。然而,在实际应用中,可以采用集成方法,其中由运行十次的 LEADS 生成多组搜索词,并使用聚合结果来最大化覆盖率。我们将此策略称为 LEADS + Ensemble。这种方法显着提高了性能,与单次通过 LEADS 相比,召回率提高了 3 到 4 倍,出版物检索的平均召回率分数超过 70,试验检索任务的平均召回率分数超过 65。
 
我们进一步研究了搜索任务的难度如何影响性能(图 1)。2e)。根据检索过程中要确定的真实研究的数量对综述进行分组。地面实况研究越多,当仅考虑固定数量的前 K 搜索结果时,识别所有这些研究的搜索就越具有挑战性。两种方法的召回率均呈明显下降趋势,难度也随之增加。例如,对于具有 0-5 个目标研究的评论,LEADS 的召回率为 30.0,而 GPT-4o 为 24.4。对于有 15-20 项目标研究的评论,LEADS 的召回率保持在 21.9,优于 GPT-4o 的 18.4。尽管如此,LEADS 在所有 bin 中的表现始终优于 GPT-4o。在试验检索任务中,这种趋势不太明显。LEADS 在大多数 bin 中实现的召回率超过 25,而 GPT-4o 的表现一直较低,召回率约为 10。
 
研究资格的自动评估和排名
在研究检索阶段确定引文后,下一步是根据预定义的纳入和排除标准确定每个引文的资格(图 19999 年)。3d)。LEADS 使用目标综述中定义的 PICO 元素对每个引文进行标准级预测,将其分类为是、部分是、否或不确定。我们将标准级评估汇总到总体资格分数中,以对引文进行排名(“方法”部分)。我们使用包含 200 篇随机抽样系统综述的数据集评估了 LEADS,每篇系统综述都与 2000 篇待筛选的候选引文相关联。这导致总测试规模为 400,000 个评论和引用对。我们将 LEADS 与 GPT-4o、GPT-3.5、Haiku 和 Mistral-7B 进行了比较,并使用了 OpenAI 嵌入的基于向量的相似性排名方法(称为 Dense 方法)51. 图 3a 说明了Recall@50性能,其中 LEADS 实现了与 GPT-4o 相当的性能,尽管模型要小得多,但在十分之七的主题中优于它。此外,LEADS 的召回率分数始终高于 80。在伪前瞻性评估中,LEADS 也表现出与 GPT-4o 相当的性能,获得了 85 的Recall@50,而 GPT-4o 为 86(扩展图2)。
 
图3:LEADS执行引文筛选任务。
图3
Recall@50的雷达图,将 LEADS 与尖端 LLM 进行比较,并跨各种审查条件主题进行密集检索。b 与其他 LLM 和密集检索相比,LEADS 的召回性能。括号中的信息表示基线与 LEADS 相比的性能变化。c 每次综述中不同数量的目标研究的领导和基线的绩效。d 说明 LEADS 如何接收为目标 PICO 要素定义的研究纳入和排除标准、进行资格预测以及对目标研究进行排名。
 
全尺寸图像
图 3b 显示了不同候选名单长度的表现,以 Recall@K 测量,K 范围从 10 到 100。随着 K 的增加,识别所有目标研究的难度降低。结果表明,法学硕士通常优于密集方法,因为它们利用自然语言理解来解释标准文本并理解引文内容。开源 Mistral 模型代表指令调整前的 LEADS,其性能明显差于专有的 LLM。然而,LEADS 在使用特定领域的指令数据进行微调后,性能优于大多数专有 LLM,并提供与 GPT-4o 相当的性能。
 
图3c比较了具有不同数量目标研究的综述组中LEADS、Mistral和Dense方法的性能。一般来说,随着目标研究数量的增加,任务变得更具挑战性,需要更高比例的目标研究出现在前 K 结果中。这种难度的增加反映在观察到的两种基线方法的下降趋势上。当目标研究数量少于 15 个时,Mistral 的性能与 Dense 方法相当。相比之下,LEADS 保持强劲的表现,在目标研究数量超过 25 项之前没有显着下降。例如,在“0-5”目标研究组中,密集的回忆分数为 0.81,Mistral 为 0.84,LEADS 为 0.90。在“20-25”组中,密集得分为 0.70,米斯特拉尔得分为 0.76,领先得分为 0.87。
 
简化从科学论文中提取数据
LEADS 遵循定义的数据字段并从临床研究论文中提取数据(图4d)。这些数据提取任务的一系列示例输入和输出可以在扩展图中找到。8、9、10 和 11。自动评估结果如图所示。4一个。对于数字字段,使用精确匹配精度作为指标。对于文本字段,正确性是根据提取的值和基本事实之间的相似性阈值来确定的。结果表明,LEADS 在所有基线上都有一致的改进。例如,在研究特征提取中,LEADS 达到 0.68,而 GPT-4o 为 0.55;在手臂设计中,LEADS 的准确率达到 0.53,而 GPT-4o 达到 0.45;在参与者统计中,LEADS 得分为 0.94,而 GPT-4o 为 0.55;在试验结果中,LEADS 获得了 0.78,而 GPT-4o 为 0.45。开源法学硕士的表现通常比专有法学硕士差,而医学法学硕士的表现也低于通用法学硕士,这可能是由于它们对问答数据集进行了微调。研究发现,数字提取任务比文本提取任务更具挑战性。一些目标数值在原始内容中没有明确说明,但需要计算,例如确定定义队列中参与者的平均年龄。具体来说,在参与者统计提取中,LEADS 的准确率为 0.33,而 GPT-4o 的准确率为 0.20。这种困难可能部分归因于对数字单位的误解和自动评估过程中的差异,需要进一步的人工评
[返回]
上一篇:表型剖析器:推进基于图像的表型学习
下一篇:通过移动多模态嵌入系统进行泛在内存增强