欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033
微信:paperwinner
工作时间:9:00-24:00
EI期刊论文
当前位置:首页 > EI期刊论文
医学文献挖掘中人机协作的基础模型
来源:一起赢论文网     日期:2025-10-16     浏览数:370     【 字体:

 医学文献挖掘中人机协作的基础模型

 
系统综述和荟萃分析等文献挖掘在医学中变得越来越重要,是发现、整合和解释新兴研究的重要途径 1,2. 系统综述的激增体现了文献挖掘的重要性日益增长,PubMed 上每年发表超过 50,000 篇综述文章 3,4.然而,这个过程既昂贵又耗时。一项针对 195 条综述的研究表明,系统综述的平均完成时间为 67.3 周5.此外,一项针对 NIH 资助的顶级机构和制药公司的研究报告称,每个组织每年进行系统文献综述的成本约为 1700 万美元6.医学文献的庞大数量进一步加剧了这一挑战,PubMed 现在索引了超过 3500 万篇出版物,每年收到超过 100 万篇新条目4.其中相当多的元数据索引很差,导致研究搜索精度不佳7.因此,研究人员在进行全面的文献挖掘方面面临越来越多的障碍,对 485 篇系统综述中注意事项的回顾就证明了这一点,包括文献检索不足、潜在的研究选择偏差和数据提取错误8.除了荟萃分析用例之外,文献挖掘的应用还包括创建新证据9、临床指南的修订10,以及药物发现和开发的加速11.
 
人工智能 (AI) 的最新进展显示出改变医学文献挖掘的前景 12,13.例如,人工智能已被用于关键字生成,以增强文献搜索 14,15,通过检索促进研究筛选 16,17,并支持关键实体提取,包括人口、干预、比较和结果 (PICO) 要素的识别 18,19.人工智能还被用来总结科学出版物的证据20,21,22.该领域的最新发展主要是由人工智能基础模型驱动的,特别是像 ChatGPT 这样的大型语言模型 (LLM)23,作为能够适应不同任务的通才人工智能24.这些基础模型通常通过两种主要方法适应医疗任务25:提示,例如上下文学习 (ICL)26、思想链27和检索增强生成 (RAG)28;以及针对特定任务的微调,例如命名实体识别29和证据总结30.
 
尽管取得了这些进步,但一些关键挑战仍然存在。首先,现有的医疗人工智能模型主要是特定于任务的,范围很窄,通常在有限的数据集上开发和测试31.这些模型通常需要固定格式的输入,并且需要针对新任务或不同的数据格式进行重新训练,无法作为能够处理灵活输入和跨不同主题进行泛化的通才人工智能发挥作用24.其次,在我们之前的研究中,我们开发了 TrialMind,它可以提示通用领域 LLM 执行多个文献挖掘任务32.基于 TrialMind,我们开发了一个实现人机交互的平台33.尽管如此,这些适应可能达不到特定领域微调模型所证明的有效性,正如开发专业医学法学硕士的最新进展所证实的那样34,35,36.第三,综合评估人工智能方法在文献挖掘任务中的性能存在局限性。现有研究受到样本量有限的限制,研究通常以数十次系统评价为规模进行,并且通常只关注单个任务,例如搜索查询生成 14,15和引文筛选37,38,39.这种狭窄的范围可能不足以代表医学文献挖掘的全部复杂性。最后,目前的验证工作主要集中在人工智能自动化流程的潜力上,其中可能会发生幻觉等关键挑战,但没有得到充分解决40.鉴于文献挖掘对准确性和事实完整性的高标准,通过人机协作开发和评估人工智能是一种更务实、更可靠的方法 41,42.
 
在这项研究中,我们引入了一个基础大型语言模型,以促进人类与人工智能在 sEAisrch、筛选和从医学文献研究 (LEADS) 中提取数据中的协作。我们的方法将文献挖掘分解为子任务,包括搜索查询生成、研究资格评估、研究特征提取、参与者统计数据提取、手臂设计提取和试验结果提取(图 11a)。LEADS 是在通用 LLM 上构建的,然后使用 LEADSInstruct 进行微调,LEADSInstruct 是一个广泛的指令数据集,从 21,335 篇系统综述中精选而成,涉及 453,625 篇出版物,其中包括 8485 篇系统综述和 27,015 个临床试验注册库。这种全面的训练策略使 LEADS 能够实现多任务处理能力、处理灵活的输入请求并在不同的文献主题中进行泛化,而无需额外的微调。在我们对具有数千条系统评价的广泛综述主题的实验中,LEADS 在所有目标任务中都比 GPT-4o 等尖端通用 LLM 具有全面优势(图 11d)。涉及 2025 年之后在测试中发表的评论的伪前瞻性评估进一步验证了这一点,其中 LEADS 显示出与 GPT-4o 和 Deep Research 相当的性能。为了验证该模型的实际效用,我们进行了一项用户研究,涉及 14 个不同机构的 14 名临床医生和 2 名医学研究人员。该研究比较了两个实验组:纯专家方法和专家+人工智能协作方法。我们的研究结果表明,LEADS(即专家+人工智能部门)在加速引文筛选和数据提取任务方面提供了令人鼓舞的好处,同时保持或超过手动工作的性能。
 
图 1:LEADS 和 LEADSInstruct 概述。
图1
a LEADSInstruct 由 20K+ 系统评价、453K+ 出版物和跨数据源链接的 27K+ 临床试验组成。采用混合方法将链接数据转换为涵盖文献挖掘中6个任务的指令数据。b 显示涵盖不同条件的评论数量的条形图。c 条形图显示涵盖不同干预措施的综述数量。d 将潜在客户与尖端专有人工智能和开源人工智能模型进行对比的比较性能分析。评估指标包括搜索查询生成的召回率、研究资格评估的Recall@50以及其余任务的准确性。e 指令数据集的输入和输出中标记数量的密度图。f 实验装置的示意图。g 用户研究设置的示意图。
 
全尺寸图像
结果
LEADS 和 LEADSInstruct 概述
LEADS 解决了系统评价方法中的三个基本任务43:文献检索、引文筛选和数据提取。为了优化文献挖掘过程,我们将这些任务分解为六个专门的子任务:(1)搜索查询生成以最大限度地提高研究识别覆盖率;(2)研究资格评估,系统评估候选引文;(3-6)四个不同的提取子任务:研究特征、手臂设计、参与者统计和结果。每个子任务都被表述为适合大型语言模型 (LLM) 处理的配对输入输出指令格式(详见“方法”部分)。
 
我们的数据集包括来自 PubMed 的 21,335 条系统综述及其相关的 453,625 篇出版物引用,其中包括与 ClinicalTrials.gov 年 27,015 条临床试验记录相关的 8485 篇综述(图 1999 年)(图 1999 年)。1a)。我们还构建了一个名为LEADSInstruct的指令数据集,利用系统综述、出版物和临床试验之间的联系(详见“方法”部分)。LEADSInstruct 包含六项任务的 633,759 个指令数据点。最常见条件和干预措施的分布如图所示。1b,c。我们微调了预训练的 Mistral-7B 模型44在 LEADSInstruct 上使用指令调整。为了进行比较,我们还评估了专有的 LLM,包括 GPT-4o45、GPT-3.546和 Haiku-347、Mistral 等开源通用 LLM44和骆驼48,以及 BioMistral 等专业医学法学硕士49和 MedAlpaca50.我们抽样了 20% 的数据来构建测试集,其中包括数千项系统评价和数十万项临床研究。为了消除数据泄露风险,即已发表的评论和论文在LLM的预训练数据中,我们还创建了一个伪前瞻性评估集,由2025年之后发表的31篇评论组成。据我们所知,LEADSInstruct 是迄今为止最大的基准数据集,用于评估 AI 在文献挖掘任务中的性能。
 
综合目标研究的文献检索查询
我们评估了LEADS在出版物和临床试验检索任务中的表现。系统将研究问题作为输入并生成优化的搜索词,然后用于查询 PubMed 或 ClinicalTrials.gov 的相关出版物或试验记录(图 12a)。我们的测试集包含不同治疗领域的 10,000 多项系统评价(图 10,0002b)。对于每篇综述,我们计算了召回率指标,衡量了检索策略成功检索到的相关研究的比例。为了建立全面的基准,我们使用基线法学硕士实施了四种不同的方法:(1)零样本查询,其中模型直接从研究问题中生成搜索词,没有示例;(2)少样本提示,提供示例搜索查询作为指导;(3)情境学习(ICL),结合详细的专家式指导来制定查询;(4)将ICL与少样本策略相结合的混合方法,以最大限度地提高性能(扩展图。18)。
 
图2:LEADS执行文献检索任务。
图2
a 说明 LEADS 如何接收研究问题定义、执行搜索查询生成以及从文献中检索引文。b 数据集中综述和涉及引文的条件主题的分布。c LEADS 和领先模型的搜索查询生成性能,就已识别研究实现的召回率而言。括号中的信息表示基线与 LEADS 或 LEADS 与同一任务中最佳基线相比的性能变化。d 根据生成的搜索查询产生的召回率,LEADS 与 GPT-4o 的主题比较。LEADS+ 集成表示多个搜索查询的集合。e LEADS 和 GPT-4o 在每次综述的不同目标研究数量方面的表现。误差线表示平均值的 95% 置信区间,当样本量小于 10 时省略。
 
全尺寸图像
总体召回率总结在图中。2c. LEADS 在这两项任务中获得了 24.68 和 32.11 的召回分数,分别超过表现最好的基线 3.76 和 7.43。在研究搜索性能的伪前瞻性评估中可以得出类似的结论,其中 LEADS 比 GPT-4o 和深度研究获得了 0.30 的召回率提高(扩展图 1999 年 1 月 1 日)。值得注意的是,在 Mistral-7B 上微调的 LEADS 比原始 Mistral 模型有显着改进,后者的召回率分数仅为 7.18 和 8.08。这表明通过在 LEADSInstruct 上微调通用 LLM (Mistral-7B),分别实现了 17.5 和 24.03 的大幅改进。同样,零样本通才法学硕士的表现也明显较差,其中 GPT-4o 在出版物和试验搜索任务中的召回率得分分别仅为 5.79 和 6.74。这凸显了通用法学硕士在未经调整的情况下处理特定领域任务的局限性。有趣的是,在大多数情况下,在提示中添加示例几乎没有任何好处。例如,使用 GPT-4o 的 ICL+Few-shot 策略在出版物搜索中实现了 11.95 的召回率,低于单独的 ICL 策略。这表明综述主题的多样性带来了挑战,因为少数例子不足以概括广泛的治疗领域。在我们的评估中,召回率计算为 K 处的召回率,其中 K 代表原始综述中的目标研究数量。尽管增加 K 会导致更高的召回率,但这个严格的指标对于评估我们方法的性能仍然有效。值得注意的是,原始评论本身并不详尽;因此,LEADS 检索到的许多相关和新确定的研究可能不会包含在原始引文列表中。
 
图 2d 显示了召回率的主题细分。在所有评论主题中,LEADS 的表现始终优于 GPT-4o,在大多数情况下召回率超过 5。同样,对于试验搜索任务,LEADS 在大多数领域实现的召回率几乎是 GPT-4o 的两倍。这些结果凸显了所提出的指令数据生成管道的有效性,使 LEADS 能够从优化的合成查询术语中学习并优于 GPT-4o。值得注意的是,报告的 LEADS 和基线召回率基于单次通过,以进行公平比较。然而,在实际应用中,可以采用集成方法,其中由运行十次的 LEADS 生成多组搜索词,并使用聚合结果来最大化覆盖率。我们将此策略称为 LEADS + Ensemble。这种方法显着提高了性能,与单次通过 LEADS 相比,召回率提高了 3 到 4 倍,出版物检索的平均召回率分数超过 70,试验检索任务的平均召回率分数超过 65。
 
我们进一步研究了搜索任务的难度如何影响性能(图 1)。2e)。根据检索过程中要确定的真实研究的数量对综述进行分组。地面实况研究越多,当仅考虑固定数量的前 K 搜索结果时,识别所有这些研究的搜索就越具有挑战性。两种方法的召回率均呈明显下降趋势,难度也随之增加。例如,对于具有 0-5 个目标研究的评论,LEADS 的召回率为 30.0,而 GPT-4o 为 24.4。对于有 15-20 项目标研究的评论,LEADS 的召回率保持在 21.9,优于 GPT-4o 的 18.4。尽管如此,LEADS 在所有 bin 中的表现始终优于 GPT-4o。在试验检索任务中,这种趋势不太明显。LEADS 在大多数 bin 中实现的召回率超过 25,而 GPT-4o 的表现一直较低,召回率约为 10。
 
研究资格的自动评估和排名
在研究检索阶段确定引文后,下一步是根据预定义的纳入和排除标准确定每个引文的资格(图 19999 年)。3d)。LEADS 使用目标综述中定义的 PICO 元素对每个引文进行标准级预测,将其分类为是、部分是、否或不确定。我们将标准级评估汇总到总体资格分数中,以对引文进行排名(“方法”部分)。我们使用包含 200 篇随机抽样系统综述的数据集评估了 LEADS,每篇系统综述都与 2000 篇待筛选的候选引文相关联。这导致总测试规模为 400,000 个评论和引用对。我们将 LEADS 与 GPT-4o、GPT-3.5、Haiku 和 Mistral-7B 进行了比较,并使用了 OpenAI 嵌入的基于向量的相似性排名方法(称为 Dense 方法)51. 图 3a 说明了Recall@50性能,其中 LEADS 实现了与 GPT-4o 相当的性能,尽管模型要小得多,但在十分之七的主题中优于它。此外,LEADS 的召回率分数始终高于 80。在伪前瞻性评估中,LEADS 也表现出与 GPT-4o 相当的性能,获得了 85 的Recall@50,而 GPT-4o 为 86(扩展图2)。
 
图3:LEADS执行引文筛选任务。
图3
Recall@50的雷达图,将 LEADS 与尖端 LLM 进行比较,并跨各种审查条件主题进行密集检索。b 与其他 LLM 和密集检索相比,LEADS 的召回性能。括号中的信息表示基线与 LEADS 相比的性能变化。c 每次综述中不同数量的目标研究的领导和基线的绩效。d 说明 LEADS 如何接收为目标 PICO 要素定义的研究纳入和排除标准、进行资格预测以及对目标研究进行排名。
 
全尺寸图像
图 3b 显示了不同候选名单长度的性能,以 Recall@K 衡量,K 范围从 10 到 100。随着 K 的增加,识别所有目标研究的难度降低。结果表明,LLM 通常优于 Dense 方法,因为它们利用自然语言理解来解释标准文本并理解引文内容。开源 Mistral 模型代表指令调整前的 LEADS,其性能明显差于专有 LLM。然而,在使用特定领域的指令数据进行微调后,LEADS 的性能优于大多数专有 LLM,并提供与 GPT-4o 相当的性能。
 
图3c比较了具有不同数量目标研究的综述组中LEADS、Mistral和Dense方法的性能。一般来说,随着目标研究数量的增加,任务变得更具挑战性,需要更高比例的目标研究出现在前 K 结果中。这种难度的增加反映在观察到的两种基线方法的下降趋势上。当目标研究数量少于 15 个时,Mistral 的性能与 Dense 方法相当。相比之下,LEADS 保持强劲的表现,在目标研究数量超过 25 项之前没有显着下降。例如,在“0-5”目标研究组中,密集的回忆分数为 0.81,Mistral 为 0.84,LEADS 为 0.90。在“20-25”组中,密集得分为 0.70,米斯特拉尔得分为 0.76,领先得分为 0.87。
 
简化从科学论文中提取数据
LEADS 遵循定义的数据字段并从临床研究论文中提取数据(图 14d)。这些数据提取任务的一系列示例输入和输出可以在扩展图中找到。8、9、10 和 11。自动评估结果如图所示。4一个。对于数值字段,使用精确匹配准确度作为衡量指标。对于文本字段,正确性是根据提取的值与基本事实之间的相似性阈值确定的。结果表明,LEADS 在所有基线上都有持续的改进。例如,在研究特征提取中,LEADS 达到 0.68,而 GPT-4o 为 0.55;在 Arm 设计中,LEADS 的准确率达到 0.53,而 GPT-4o 达到 0.45;在参与者统计中,LEADS 得分为 0.94,而 GPT-4o 为 0.55;在试验结果中,LEADS 获得了 0.78,而 GPT-4o 为 0.45。开源法学硕士的表现通常比专有法学硕士差,而与通用法学硕士相比,医学法学硕士的表现也不佳,这可能是由于它们对问答数据集进行了微调。发现数字提取任务比文本提取任务更具挑战性。一些目标数值在原始内容中没有明确说明,但需要计算,例如确定定义的队列中参与者的平均年龄。具体来说,在参与者统计提取中,LEADS 的准确率为 0.33,而 GPT-4o 的准确率为 0.20。这种困难可能部分归因于对数字单位的误解和自动评估过程中的差异,需要进一步的人工评估。
 
图 4:LEADS 执行数据提取任务。
图4
a 通过自动评估,LEADS 和其他 LLM 在四个提取任务中的平均准确度。括号中的值表示 95% 置信区间。b 通过手动评估,LEADS 和其他 LLM 在四个提取任务中的准确性。c 通过手动评估,LEADS 和其他 LLM 在四个提取任务中输入文档的不同长度方面的准确性。红线表示输入长度平均准确度的回归线,阴影区域是 95% 置信区间。ρ 表示 Pearson 相关系数,P 表示双侧 p 值,检验输入长度和准确性之间没有相关性的原假设。d 说明 LEADS 如何通过上下文学习执行四项提取任务。根据目标领域和队列的定义,LEADS 处理研究文档并生成结构化输出。
 
全尺寸图像
我们选择了一个子集并招募了两名注释者来手动验证提取结果(图4b)。我们发现 LEADS 比基线有改进的幅度,增益范围为 1.0 至 55.9。例如,在研究特征提取任务中,LEADS 的准确率为 66.2,而 GPT-4o 为 59.7,Mistral 模型为 47.8。此外,在人类注释器校准后,数字提取任务的准确性显着提高。对于试验结果提取,LEADS 的准确率达到了 56.7,优于 GPT-4o (55.7)、GPT-3.5 (51.2)、Haiku (54.7) 和 Mistral (53.2)。在所有任务中,LEADS 的表现始终优于其通用模型原始 Mistral 模型,在大多数情况下超过 20 个百分点,在各种指标上差异为 18.4、34.5、72.3、36.2、24.8 和 3.5。
 
我们进一步研究了提取性能与输入文档长度之间的相关性(图 14c)。研究特征提取任务往往具有最短的输入,主要依赖于研究摘要。相比之下,大多数其他任务涉及平均约 10,000 个令牌的输入,相当于大约 15 页。结果表明,尖端的法学硕士通常在其上下文窗口内对输入长度表现出最低的敏感性,这反映在接近于零且略为负的 Pearson 相关性中。值得注意的是,LEADS 与输入长度呈显着正相关 (ρ = 0.22, P = 1.5 × 10−4),表明它对文档长度的不变性。
 
研究筛选和数据提取的专家合作
我们进行了一项试点用户研究,以评估 LEADS 在医学文献挖掘中的实用价值。我们的重点是最耗时的任务:研究筛选和数据提取,以验证两个关键主张:(1) 与人工智能合作的专家(例如 LEADS)可以比单独通过手动工作更快地完成这些任务,以及 (2) 这种协作不会影响结果的质量。为了测试这些说法,我们实施了双臂设计:一个涉及专家独立工作(仅限专家),另一个将专家努力与人工智能辅助相结合(专家+AI)。
 
图5a说明了筛选任务的设置。每个参与者被分配了 10 个综述主题,并负责从 30 个候选者中选择 10 个引文以纳入每篇综述。参与者被随机分配到 A 组(仅限专家)或 B 组(专家+AI)的一半复习主题,以确保平衡评估。在 B 组中,参与者可以参考 LEADS 的评估:对所有候选引文进行排名,并提供额外的标准级评估和解释。这种设计使我们能够估计所需的时间和筛查结果的质量。扩展图。5 包括双臂使用的表格,分发给参与者以完成。我们邀请了来自神经内科、眼科和皮肤科等不同科室的 15 名临床医生参与了这项研究(图 1)。5b)。所有参与者都拥有医学博士学位;九人是主治医生,其余五人是研究员或住院医师。我们确保为临床医生分配与其专业相符的综述主题。图5c显示了受试者跨综述主题筛选和选择的研究数量,共进行了150项综述,筛选了4500项研究。
 
图5:用于研究筛选和数据提取的试点用户研究。
图5
a 设置仅限专家组(A 组)和专家+AI 组(B 组)用于研究筛选任务。我们比较生成的召回率,以评估每个评论主题平均花费的时间质量,以评估速度。b 参与用户研究的专家的专业专题和水平分布情况。c 参与者在审查主题中筛选和选择的医学研究数量。d 在研究筛选任务中,两组研究的总体结果质量和每项研究所花费的时间。两组的双侧 Mann-Whitney U 检验的显着性水平由 p 值表示,单位为 'ns':无意义,*:p < 0.05,**:p < 0.01,***:p < 0.001。如果没有具体说明,这同样适用于其他数字。e 设置用于数据提取任务的仅专家臂(A 臂)和 Expert+AI 臂(B 臂)。我们比较由此产生的准确性来评估质量,并平均每个提取任务花费的时间来评估速度。f 各组的筛选质量各不相同,并对每个单独的综述主题所花费的时间进行了分层。Expert+AI 始终比仅 Expert 产生更好的性能,尤其是在任务困难、需要更多时间来执行筛选时。g 两组在数据提取任务中所花费的总体准确性和时间。h 比较各组之间数据提取任务的准确性和所花费的时间。每个点表示属于同一主题的提取任务的平均准确率或花费的时间。
 
全尺寸图像
图5d显示了平均筛查质量和花费的时间。我们通过将每个综述主题的专家最终研究列表与相应系统综述中包含的研究进行比较来计算回忆率。此外,还记录了每项候选研究所花费的时间。结果表明,LEADS的支持显著增强了研究筛选过程。Expert+AI 组的召回率为 0.81,而仅 Expert 组为 0.78,同时将平均花费的时间从 580 秒减少到 449 秒,相对节省时间 20.8% (P < 0.001)。参与者指出,人工智能筛选结果特别有助于快速排除得分为 -1、被认为不相关的研究,并安全地包括得分为 1 的研究,这通过所有专家做出的决策和混淆矩阵的分布来验证(扩展图 1)。4). 虽然中级研究仍需要更仔细的审查,但 LEADS 提供的 PICO 资格分数的基本原理提供了宝贵的帮助。我们的研究结果还表明,这些效率提升将随着更大的候选集而扩展。在扩展图中。4,我们表明几乎所有被LEADS排除的研究也被人类评价员排除,这增强了其可靠性。此外,LEADS 的Recall@100率超过 90%,这意味着在实践中,专家可以自信地主要关注前 100 名结果,而不会错过相关研究。
 
图 5f 根据花费的时间(例如 0-180 秒、180-360 秒等)对已完成的综述主题进行分类,持续时间越长通常表明综述更具挑战性。总体而言,在挑战性较小的类别中,Expert+AI 组的表现与仅 Expert 组相当,其中审查时间不到 720 秒。例如,在挑战性最小的组(0-180 秒)中,Expert+AI 组的召回率为 0.9,而仅 Expert 组的召回率为 0.8。然而,随着审查任务变得更具挑战性,出现了显着的绩效差距。在 720-900 秒组中,Expert+AI 组的召回率为 1.0,而仅 Expert 组的召回率为 0.74。同样,在 > 900 s 组中,Expert+AI 组的召回率为 0.89,而仅 Expert 组的召回率为 0.76。
 
图5e说明了数据提取任务的试点用户研究的设置。每个参与者被分配了 90 篇临床试验出版物,并负责完成四种类型的数据提取:研究特征、手臂设计、参与者特征和试验结果,导致每个参与者总共完成 360 个提取任务。两名医学研究人员被随机分配到 A 组(仅限专家)负责一半的提取任务,另一半被分配到 B 组(专家+AI)。在 B 组中,参与者收到 LEADS 的提取输出作为目标字段的参考。此外,参与者记录并报告了每项提取任务所花费的时间。提取结果由另外两个注释者审查,并与地面实况进行比较以计算准确性。用于完成数据提取任务的表格在扩展图中提供了。6.
 
图5g显示了两个研究组的平均数据提取准确性和花费的时间。Expert+AI 臂的准确率为 0.85,而仅 Expert 臂为 0.80,同时将每个任务的平均花费时间从 113.9 秒减少到 83.3 秒,从而节省了 26.9% 的相对时间。参与者指出,虽然 LEADS 的提取结果并非完美无缺,需要验证,但它们有助于快速找到论文中的相关信息以供审查和更正。相比之下,仅专家组的参与者将大部分时间花在了彻底阅读整篇论文上,导致任务持续时间显着延长。
 
图 5h 提供了提取任务和审查主题的细分。我们通过汇总针对相同疾病领域的研究结果来比较两组之间的准确性和时间。对角线上的点表示两个手臂的性能相当。分析表明,两组总体提取精度相当。在这些任务中,研究特征提取的准确率最高,而参与者特征提取的准确率最低。在时间方面,仅专家臂始终比专家+人工智能臂需要更多的时间。在研究特征提取中观察到的时间差最小,而试验结果提取的差异要大得多。参与者指出,研究特征经常出现在论文的摘要中,使其更容易提取。相比之下,参与者特征和试验结果通常位于主要内容中,这使得它们的提取更具挑战性和耗时。
 
讨论
进行系统文献综述是循证医学的基石。然而,由于文献数量的不断增长,这个过程变得越来越耗时和具有挑战性。为了应对这些挑战,大型语言模型 (LLM) 已被用于各种文献综述任务12、13、14、16、20、30、32、52.然而,现有模型是在范围有限的数据集上开发或评估的,通常仅涵盖数十项系统评价和数百项研究 39,53. 为了克服这些限制,我们创建了一个综合数据集,包括 21,335 篇系统评价、453,625 篇出版物和 27,015 个临床试验注册库。该数据集为评估广泛治疗领域的人工智能算法奠定了坚实的基础。此外,我们创建的数据生成管道也为未来基于文献的科学发现提供了宝贵的资源。
 
根据收集到的文献数据,我们开发了 LEADSInstruct,包含 633,759 个指令数据点。利用 LEADSInstruct,我们对 LLM 进行了微调,创建了 LEADS,这是一种专为研究搜索、筛选和数据提取而设计的基础模型,在广泛的治疗领域具有广泛的适用性。LEADS 的指令遵循能力使其能够轻松适应各种输入要求,例如研究筛选的纳入和排除标准。其卓越的性能是通过使用可用于医学文献挖掘的最大基准数据集进行的广泛评估来证明的。与通用法学硕士(其中许多要大得多)相比,LEADS 在六个验证数据集中始终优于它们。它强调,当通过定制的训练过程对高质量、精选的数据进行训练时,较小的模型可以在特定领域的任务中超越更大的通用模型。LEADS 体现了这一点,尽管尺寸较小,但仍取得了强大的性能,展示了人工智能驱动的文献搜索和综合专用模型的有效性。
 
LEADS 通过简化文献挖掘流程并保持比纯手动工作更高的质量,为医学专家和系统审稿人提供宝贵的帮助。在一项涉及 15 名临床医生的试点用户研究中,专家们可以利用 LEADS 的总体资格分数、PICO 资格预测和基本原理,更有效地识别相关研究。此次合作平均节省了 20.8% 的时间,召回率提高了 5.2%,对于更具挑战性的审查主题,召回率显着提高了 26.1%。此外,与两名医学研究人员进行的试点研究表明,LEADS 显着提高了数据提取效率和准确性。通过参考 LEADS 的提取结果,参与者的准确率提高了 6.2%,花费的时间减少了 26.9%。通过其设计,LEADS 可以无缝集成到现有的 TrialMind 网络平台中 32,33作为后端组件,使医疗专业人员能够毫无任何技术障碍地使用它。
 
这项研究有几个局限性。首先,虽然 LEADS 在医学文献挖掘任务中表现出最先进的性能,但其有效性取决于来自医学文献的训练数据和指令数据生成管道的质量。解决潜在偏见、过时信息和数据错误等问题仍然是需要改进的关键领域。其次,可以改进试点用户研究设置以改善传播,例如,增加参与者数量并在更接近模拟现实世界任务的场景中评估 LEADS,例如筛选数千个候选引文,而不是本研究中使用的 30 个。第三,需要进一步研究来优化法学硕士的输出,将人工智能辅助集成到系统综述工作流程中并增强其实际效用。例如,需要额外的指令数据开发来涵盖完成系统文献综述所需的所有任务,例如评估研究质量和证据不确定性。第四,LEADS 是一个 70 亿参数的 LLM,需要 20 GB 加 GPU 内存才能在本地部署,对于在本地没有强大 GPU 的用户可能无法访问。最后,尽管 LEADS 的性能很有希望,但必须谨慎对待在医学文献挖掘中应用。严格的专家监督对于确保准确性和防止有偏见或错误的输出至关重要。当使用人工智能进行系统评价时,这种验证尤为重要,因为错误可能会导致误导性或不正确的临床证据的传播。
 
LEADS 在文献搜索、筛选和数据提取方面表现出卓越的性能,优于通用法学硕士。它可以泛化到广泛的治疗领域,无需额外培训。LEADS 通过简化文献挖掘流程和促进循证医学,展示了其作为医学研究人员、临床医生和系统审稿人助手的价值。我们预计,文献挖掘基础模型的持续开发和验证最终将促进更有效的人机协作,以推进医疗保健和药物开发。
 
方法
数据采集
系统评价、发表和临床试验数据来自公开可用的数据集。我们首先从 MS2 多文献摘要数据集中获取医学系统评价列表54,将每篇综述与其分析中包含的研究联系起来。该数据集为生成与文献检索和筛选相关的指令数据提供了理想的基础。对于 PubMed 引文,我们利用 PubMed API 来检索元数据和摘要信息55.我们还尝试利用某些 PubMed 引文中可用的显式 NCT ID(临床试验标识符)将 PubMed 引文与 ClinicalTrials.gov 上的临床试验记录联系起来。这种联系使得系统综述和试验记录之间建立了联系,为出版物检索数据奠定了基础。为确保数据质量,我们删除了重复项、缺乏基本信息的引用以及没有相关引用的评论。经过处理,该数据集包括与 453,625 篇出版物引用相关的 21,335 条系统综述和与 27,015 篇试验引用相关的 8485 条系统综述,基于出版物的综述平均每篇引用 21.26 次。为了标准化搜索查询生成和研究资格评估任务的输入,我们采用GPT-4o从综述摘要中提取PICO元素。
 
数据提取任务建立在 PubMed 引文和临床试验记录之间的链接之上。我们首先搜索PubMed数据库,并过滤具有相关NCT ID(表示相应临床试验)的条目,并通过PubMed Central(PMC)提供全文。这些标准确保了可以自动检索每项研究的完整内容。对于临床试验,我们进一步筛选了报告结果的记录,以确保结局数据的可用性。这个过程产生了一个包含 8674 篇配对出版物和临床试验记录的数据集。对于每次试验,我们都使用 ClinicalTrials.gov API 检索结构化数据56,在出版物内容与研究设计、人群统计和结果数据的结构化信息之间建立联系。
 
LEADSInstruct:任务制定
将关键文献挖掘任务制定为适合LLM处理的指令数据。第一项任务,文献检索,根据 PRISMA 指南43,是指从数据库中识别初始发表记录或临床试验注册。从业者通常向搜索引擎提供关键字作为搜索查询,应用年份范围、出版物类型等基本过滤器,以生成广泛的潜在研究候选人。我们将此任务定义为搜索查询生成过程,其中LLM将用户定义的研究问题作为输入,并综合或扩展治疗和条件的相关关键术语(图。2a)。然后,用户可以在从搜索引擎检索记录时查看并迭代优化这些术语。
 
第二项任务是引文筛选,根据预定义的审查协议(例如 PICO 元素)评估最初检索的记录的资格,以生成供审查的研究候选名单。我们将此任务定义为研究资格评估过程。与以前依赖法学硕士对是否包含或排除每个引文进行总体评估的方法不同37,我们的方法在标准层面为每个特定的纳入和排除标准提供评估。这种精细方法提供了更大的灵活性,允许用户通过纵标准级预测和引用的基本原理来调整引文的过滤和排名。例如,用户可以引入新标准,根据标准子集选择研究,或将标准级预测转换为相关性分数。然后可以汇总这些分数以对研究资格进行排名,从而提供一种动态且可定制的方法来确定引用的优先级(图 1)。3d)。
 
第三项任务是数据提取,这是一个关键步骤,用户审查所选研究以提取关键信息,例如研究设计和结果,从而能够创建结构化摘要以供进一步分析。我们在此过程中定义了四个子任务:研究特征提取、手臂设计提取、参与者统计数据提取和试验结果提取,如图所示。4d。研究特征提取从研究内容中识别并提取预定义字段,例如条件和干预措施。手臂设计提取侧重于根据指定字段提取有关研究组的详细信息,包括其名称和类型。参与者统计提取需要定义队列,通常按治疗组或观察到的条件,并提取相关统计数据,例如每个队列的参与者计数。在试验结果提取中,输入包括目标队列和结果的定义以及感兴趣的字段,以检索参数类型、结果单位、时间范围、队列样本量和结果值等信息。
 
为了针对这些任务优化人工智能模型,我们需要开发一个由配对输入请求及其预期输出组成的指令数据集。此类数据集支持通用大型语言模型(例如 Llama)的指令调优48和米斯特拉尔44,以增强其特定于任务的性能57.虽然之前的工作已经为相关任务创建了数据集 32,39,这些数据集要么与我们的具体任务不一致,要么太小而无法训练 LLM。在医疗应用中,适配法学硕士通常需要规模从数万到数百万不等的高质量指令数据49,50,58,59.指令数据遵循标准化结构,包括三个部分:(1)指令,描述任务,例如生成搜索词;(2)输入,提供特定于任务的输入,例如目标审查中定义的PICO元素;(3) 输出,它指定了 LLM 应该产生的预期结果。
 
然而,手动创建此类数据集非常耗费人力,特别是因为它需要具有高级医学专业知识的注释者。为了应对这一挑战,利用高级通才法学硕士(例如 GPT-4)已成为常见做法23,根据输入指令合成输出,一种称为自指令的方法60.这种方法在医学法学硕士的最新发展中被广泛采用 61,62.然而,虽然 GPT-4 可以产生高质量的输出,但它也不能避免错误,这可能会限制在合成指令数据上训练的模型的可靠性63.为了缓解这个问题,我们开发了一种混合方法,将直接来自出版物和临床试验注册库的挖掘指令数据与使用通才人工智能的扩充输出相结合。我们总共编译了 633,759 条跨各种医学文献挖掘任务的指令数据。
 
LEADSInstruct:搜索查询生成
对于搜索查询生成任务,输入是在综述中使用PICO框架定义的研究问题,以生成一组能够从文献中检索所有地面实况研究的查询(图。2a)。在我们之前的研究中,我们观察到,GPT-4o 直接合成的查询通常检索到搜索结果中不到 10% 的地面实况研究32.为了提高 GPT-4o 生成的搜索查询的质量,我们开发了一个高级管道,可以综合每个纳入研究的查询词,并结合迭代细化和过滤过程来优化初始词。这种方法显着增加了合成查询的覆盖范围,检索了超过 80% 的地面实况研究,使 LEADS 有可能超越 GPT-4o,同时从 GPT-4o 的输出中学习。这个过程总共产生 29,693 个样本。
 
具体来说,考虑一个综述主题有 N 项基本事实研究。我们的目标是为总体 {P1, ..., PN} 和干预 {I1,...,我N},以构建可以从文献中识别所有地面实况研究的搜索查询。因此,对于第 n 次研究,我们提示 GPT-4o 从研究内容中提取 \({P}_{n}=\{{p}_{1}^{n},\ldots,{p}_{M}^{n}\}\) 和 \({I}_{n}=\{{i}_{1}^{n},\ldots,{i}_{M}^{n}\}\) (使用的提示在扩展图中。21). 项 M 的数量设置为最多 10,因此提取的确切数字是可变的。然后,我们将 P 中的所有项合并n使用 AND 逻辑合并所有 P 采用 OR 逻辑,从而产生聚合的与人口相关的搜索查询:
 
$${{{{\bf{S}}}}}_{P}={S}_{P}^{1}\,{\mathtt{OR}}\,{S}_{P}^{2}\,\ldots \,{\mathtt{OR}}\,{S}_{P}^{N},$$ (1)
其中每个 \({S}_{P}^{n}={p}_{1}^{n}\,{\mathtt{AND}}\,{p}_{2}^{n}\,\ldots \,{\mathtt{AND}}\,{p}_{M}^{n}\)。同样,我们获得了与干预相关的聚合搜索查询:
 
$${{{{\bf{S}}}}}_{I}={S}_{I}^{1}\,{\mathtt{OR}}\,{S}_{I}^{2}\,\ldots \,{\mathtt{OR}}\,{S}_{I}^{N},$$ (2)
其中每个 \({S}_{I}^{n}={i}_{1}^{n}\,{\mathtt{AND}}\,{i}_{2}^{n}\,\ldots \,{\mathtt{AND}}\,{i}_{M}^{n}\)。因此,我们通过合并 S 来构建最终的搜索查询P和 S我,生成合成目标搜索查询 S = SP和 S我.
 
在实践中,我们通过 PubMed API 执行生成的搜索查询 S 并计算搜索召回率来验证它。召回率低于 0.2 的查询将被过滤掉,因为生成不佳。然后将其余查询指定为合成地面实况查询,平均召回率为 0.82。最后,我们用搜索查询生成提示来包装这个查询(扩展图。12) 创建一个指令数据集,产生 10,262 个条目。
 
为了对 LEADS 和其他 LLM 的搜索查询生成性能进行基准测试,我们提示它们生成搜索查询 \(\hat{{{{\bf{S}}}}}\),以评论的 PICO 定义为输入(图 12a)。此外,我们还引入了 LEADS+ensemble,这是 LEADS 的扩展,它从模型中采样了 10 个查询 \(\{{\hat{{{{\bf{S}}}}}}_{1}\ldots {\hat{{{{\bf{S}}}}}}_{10}\}\)。然后,我们执行所有查询,并将聚合和重复数据删除的搜索结果作为最终输出返回。
 
LEADSInstruct:学习资格评估
研究资格评估根据特定指南评估研究是否符合预定义的资格标准,该指南围绕 PICO 要素构建:人群、干预、比较和结果。我们提取了系统评价中定义的研究选择标准,并将每个标准分为 P、I、C 或 O 要素。假设综述中包含的所有基本事实研究都符合这些标准,我们利用 GPT-4o 为标准级资格评估生成基本原理(图 1)。3d)。此外,我们还纳入了在检索过程中检索到的未纳入评论的引文,并使用 GPT-4o 生成资格预测和相应的理由,从而创建了平衡的指令数据集。这个过程产生了一个全面的数据集,其中包含 461,585 个评论到引用资格预测对。
 
具体来说,候选出版物或试验是根据前面描述的搜索结果构建的。引文最初被添加到候选库中,如果可用的条目少于 2000 个,则剩余的插槽将用使用其他 PICO 元素生成的额外搜索结果填充。应用时间限制以确保要筛选的研究在目标综述论文之前发表。对于每项系统综述,一种方法必须评估多达 2000 项研究,对它们进行评分和排名,以确保地面实况研究出现在顶部。该数据集以 6:2:2 的比例分为训练集、开发集和测试集,产生了 12,801 篇培训综述、4217 篇开发综述和 4217 篇出版物测试综述。由于要求法学硕士每次系统评价审查 2000 项研究的计算成本很高,因此创建了 200 个测试条目的子集用于 LLM 评估。
 
我们基于发表资格预测的训练拆分构建了用于研究资格评估的指令调整数据。出于系统评价的目的,必须对每项研究进行相应的评分和排名。然而,基本事实数据仅表明候选研究是否有资格纳入系统综述。为了解决这个问题,我们提示 GPT-4o 分析资格,如扩展图所示。22. 我们向 GPT-4 提供了每项研究的 PICO 要素作为标准、研究内容和资格的总体指示。然后,GPT-4 生成了资格分析,为每个标准提供了基本原理。每个标准被评为“是”、“部分”、“不确定”或“否”,分别对应于 1、0.5、0 和 -1 的分数。最终资格分数计算为所有标准分数的平均值:
 
$${{{\rm{最终}}}}\,{{{\rm{资格}}}}\,{{{\rm{分数}}}}=\frac{\sum ({{{\rm{标准}}}}\,{{{\rm{分数}}}})}{N}$$ (3)
这些生成的分析被存储为指令数据的输出。然后,我们将分析、论文内容和标准与扩展图中的提示包装在一起。13 作为指令数据。这个过程应用于 12,801 篇综述及其每篇综述中的 2000 项候选研究。最后,我们过滤掉了标记为合格但总分为负的研究,总共产生了 461,585 个条目。
 
LEADSInstruct:数据提取
出版物和临床试验注册表之间的链接有助于提取数据的自动创建。在 ClinicalTrials.gov,试验记录由主要研究者输入,包括高质量的结构化信息,例如条件、干预措施、入组人数、研究类型,在某些情况下,还包括报告的结果。我们假设与这些试验记录相关的临床试验相关出版物在其内容中也包含对此信息的描述。利用这种联系,我们确定了 8674 个具有全文可用性的链接出版物以及相应的临床试验记录以及报告结果的临床试验记录。通过提取结构化试验信息并解析出版物的 PDF 内容,我们生成了 58,593 个用于研究特征提取的指令数据点,42,794 个用于试验结果提取,34,138 个用于参与者统计数据提取,26,387 个用于手臂设计提取(图1一个)。
 
手臂设计提取数据集由匹配的出版物及其相关试验构建。每个条目都包括出版物的全文和表格内容作为输入,从中系统地提取手臂设计细节。结果字段用作输出,包含干预组列表,其中每个组指定唯一的标签、类型(例如“实验”)、描述和所涉及的干预名称。从试验报告中提取地面实况结果字段。这种结构能够从出版物内容中有效地提取手臂设计信息,每个条目都捕获了详细的干预特征(图。4d)。
 
参与者统计提取数据集源自匹配的出版物及其相应的临床试验。对于每个条目,我们都包括出版物的全文,包括任何表格内容,并从临床试验报告中提取关键属性,例如测量定义、参数类型、测量单位和参与者组定义。每个参与者组条目都包含唯一的组 ID、单位、值和定义。此外,数据集还包含一个结果列表,每个结果都指定一个组 ID、一个值和任何相关注释。在这里,结果作为输出,而其他字段构成输入。该值表示由输入参数定义的特定参与者统计数据(图。4d)。
 
试验结果提取数据集是根据配对出版物及其相应的临床试验构建的。对于每个条目,我们都会提取出版物的全文,包括主要内容和表格中的任何文本。从试验报告中,我们提取结果定义、组定义、参数类型、测量单位、指定时间范围、分母单位和分母值。每个条目还包括一个结果列表,每个条目在试验报告中提供特定的值和描述性标题。输入由结果和组定义组成,而其他字段是输出。该值表示由输入参数定义的试验的特定结果(图。4d)。
 
我们从四个数据提取任务的训练中构建数据提取指令调整数据。对于每个条目,我们使用特定于每个任务的提示格式化数据:研究特征提取(扩展图。14)、手臂设计提取(扩展图。15)、参与者统计数据提取(扩展图。16),以及试验结果提取(扩展图。17)。
 
潜在客户:模型训练
所有实验都在 Python 3.12 中运行。详细的软件版本有 vLLM v0.6.4、post1、openai v1.55.1、transformers v4.46.3 和 PyTorch v2.5.1。LEADS 建立在 Mistral-7B-Instruct-v0.3 模型之上44,之所以选择,是因为它固有的长上下文窗口。我们在 LEADSInstruct 数据集上微调了这个基础模型,从而产生了 LEADS 模型。训练使用数据类型 bfloat16 来提高计算效率。我们使用 AdamW 优化器训练了我们的模型64对于一个批次大小为 5 的纪元。采用余弦学习率调度器,峰值学习率为1×10−6以及涵盖 10% 训练步骤的热身阶段。最大序列长度设置为 30,000 个标记,以适应数据提取任务中冗长的全文文献。我们使用 PyTorch 实现了代码65和 Hugging Face Transformers 库66.为了提高训练速度并优化内存使用,我们集成了 DeepSpeed ZeRO-367和 FlashAttention-268策略。完成指令调优过程后,我们得到了最终的 LEADS 模型。指令调整是在大约 2.5 天内在 5 个 Nvidia A100 80G GPU 上执行的。
 
自动评估的详细信息
我们的模型选择旨在涵盖一系列具有不同功能的通用 LLM,同时专注于根据相关基线评估 LEAD。GPT-4o 在 LEADS 开发时被选为最强的可用模型,作为强大的上限基线。GPT-3.5 和 Haiku-3 作为轻量级、功能较弱的模型被包括在内,以评估较低计算规模的性能。Mistral 作为一种与 LEADS 具有相似架构的通用模型,被选为评估特定领域微调优势的关键基线。
 
为了适应,我们将上下文学习 (ICL) 和少量提示应用于研究搜索,但不应用于研究筛选或数据提取,因为这些任务的处理方式存在根本差异。研究搜索通常一次关注一个研究问题,这使得精细的提示策略更加实用。相比之下,研究筛选需要并行评估大量研究,每项研究都有独特的特征,这使得设计适用于所有病例的通用 ICL 设置具有挑战性。类似的限制也适用于数据提取,其中提取信息的多样性使有效的提示策略更加复杂。
 
针对出版物和试验搜索任务进行了研究搜索实验。我们将 LEADS 与生成语言模型进行了比较,使用它们生成查询,然后通过 PubMed API 或 CTGov API 执行查询以检索搜索结果。选定的竞争 LLM 包括 GPT-3.5-turbo、GPT-4o 和 Claude-3.5-Haiku。设计了四种类型的提示来使这些模型适应查询生成:零样本、少量、上下文学习 (ICL) 以及 ICL 和少量学习的组合,如扩展图所示。18. 此外,我们还评估了用于训练 LEADS 的基础模型 Mistral-7B-Instruct-v0.3 作为基线。搜索性能是使用 recall@3000 测量的,定义为在前 3000 个搜索结果中检索到的地面实况研究的比例。该指标是针对出版物和试验搜索任务计算的。对于 Mistral 和 LEADS,用于生成搜索查询的提示如扩展图所示。12. 为了进一步提高搜索性能,我们实施了集成方法(LEADS + 集成)。这种方法结合了 LEADS 为总体和干预术语生成的所有可能的关键字集,最大限度地提高覆盖范围并检索尽可能全面的结果。
 
在研究筛选实验中,每篇系统综述涉及2000篇候选引文,需要根据PICO要素进行评分和排名。使用 recall@K 评估所选方法的性能,其中 K 设置为 10、20 或其他指定值。我们测试了两种类型的方法:密集检索模型和LLM。密集检索模型为PICO元素和候选研究的内容生成文本嵌入,计算这些嵌入之间的余弦相似性分数,并相应地对研究进行排名。虽然这些模型的计算效率很高,但它们通常表现出较低的性能。对于密集检索,我们使用了 OpenAI 的 text-embedding-small 模型。对于基于 LLM 的研究筛选,我们测试了 GPT-3.5-turbo、GPT-4o 和 Claude-3.5-Haiku,采用了两种类型的提示:一种简单的提示,分配 1 到 10 的分数(扩展图 10)。19)和高级提示(扩展图。20) 使用两阶段方法,首先生成标准,然后根据这些标准进行评分。我们通过最佳提示报告每个基线的性能。对于 LEADS 及其基础模型 Mistral,我们使用了相同的提示格式(扩展图13) 生成资格预测。每项研究的最终分数是使用创建教学数据期间应用的相同方法计算的。
 
数据提取任务包括研究特征、手臂设计、受试者统计和试验结果提取。我们同时使用专有的法学硕士(GPT-3.5-turbo、GPT-4o 和 Claude-3.5-俳句)和开源法学硕士(Meta-Llama-3-8B-Instruct48, Mistral-7B-Instruct-v0.344, Med羊驼50和 BioMistral49).前两个开源模型是通用领域的流行 LLM,而后两个是针对医疗领域的微调 LLM。对于所有这些模型和 LEADS,我们使用相同的提示(扩展图。14–17)生成提取结果。我们通过自动测试和手动评估来评估提取性能。对于自动化测试,我们评估包含数字和文本数据的字段。数字字段需要精确匹配,而文本字段使用软匹配。对于文本字段,我们使用文本嵌入来计算预测值和真实值之间的相似性,应用余弦相似度阈值 0.75。超过此阈值的预测被认为是正确的。参与者统计提取和试验结果提取都包含数值字段,因此我们分别报告文本和数字字段的结果。对于手动评估,我们从每个数据提取任务中随机选择75个研究,每个模型预测总共300个案例。所选研究在用于评估的所有模型中都是相同的。每个预测结果都与每个字段的地面实况进行手动比较,我们分别报告文本和数字字段的结果。
 
试点用户研究详情
为了准备研究筛选任务的数据,我们为每篇系统综述收集了30项候选研究,其中最多10项纳入参考系统综述论文,我们将其作为参考答案。每项系统评价都分为一个治疗领域。临床医生被要求选择一个与他们的专长相符的领域,并在他们选择的领域内分配了 10 个综述主题。临床医生的任务是为每个综述主题选择最多10项符合PICO框架的研究。在10个综述主题中,有5个是在仅专家组下完成的,临床医生独立做出决策。在剩下的 5 个主题中,临床医生参与了 Expert+AI 组,并获得了 LEADS 的帮助。
 
为了准备专家+AI组的数据,我们运行了LEADS来评估每个目标综述的PICO标准,为所有30项候选研究生成研究资格评估。这些预测包括总体资格分数、PICO 资格评估和基本原理。结果被汇编成一个电子表格,对 30 项候选研究进行排名,作为 Expert+AI 组临床医生的参考。扩展图。图5提供了两组使用的表格示例,分发给参与者以完成。该研究涉及来自不同专业的 15 名临床医生,包括神经病学 (3)、眼科 (2)、皮肤病学 (2)、内科 (2)、呼吸内科 (2)、放射科 (1)、胃肠病学 (1) 和肾脏病学 (1)。其中,9 名是主治医师,3 名是奖学金,2 名是住院医师,确保了研究的参与者库多元化和代表性。
 
对于数据提取用户研究,我们收集了90项临床试验研究,涵盖来自不同专业的一系列主题,包括眼科、皮肤科、神经病学、内科、放射学、肾脏病学、阿尔茨海默病、心脏病学和胃肠病学,每个专业有10项研究。每项研究包括四个不同的任务:研究特征提取、参与者统计数据提取、手臂设计提取和试验结果提取,总共产生 360 个任务。我们邀请了两名医学研究人员参与这项研究。每个参与者在仅限专家组中分配了 180 个,在专家+AI 组中分配了另外 180 个。对于 Expert+AI 臂,LEADS 用于执行四项数据提取任务,生成 AI 输出,作为参与者的参考。发送给参与者填写的双臂表格如扩展图所示。6. 为了评估结果,另外两名注释员审查了提交的产出,评估每个字段是正确还是不正确。然后使用这些评估来计算研究的总体提取准确性。
[返回]

下一篇:柑橘农业数字孪生模型展示了个性化农业的潜力