使用大型语言模型的研究的TRIPOD-LLM报告指南 |
来源:一起赢论文网 日期:2025-04-13 浏览数:86 【 字体: 大 中 小 大 中 小 大 中 小 】 |
使用大型语言模型的研究的TRIPOD-LLM报告指南 型语言模型 (LLM) 正在医疗保健领域迅速采用,因此需要标准化的报告指南。我们提出了个体预后或诊断多变量模型 (TRIPOD)-LLM 的透明报告,这是 TRIPOD + 人工智能声明的扩展,解决了 LLM 在生物医学应用中的独特挑战。TRIPOD-LLM 提供了一份包含 19 个主要项目和 50 个子项目的综合清单,涵盖了从标题到讨论的关键方面。该指南引入了一种模块化格式,以适应各种 LLM 研究设计和任务,有 14 个主要项目和 32 个子项目适用于所有类别。TRIPOD-LLM 通过快速 Delphi 流程和专家共识开发,强调透明度、人工监督和特定任务的绩效报告。我们还推出了一个交互式网站 (https://tripod-llm.vercel.app/),方便填写指南和生成 PDF 以供提交。作为一份有生命的文件,TRIPOD-LLM 将与该领域一起发展,旨在通过全面的报告提高 LLM 研究在医疗保健领域的质量、可重复性和临床适用性。
其他人正在查看类似内容
进一步研究的途径
章节 © 2018
触手可及的 CHARMS 和 PROBAST:预测模型系统评价中的数据提取和偏倚风险评估模板
文章 开放获取 17 二月 2023
多变量预测模型研究报告不佳:迈向 TRIPOD 声明的针对性实施策略
文章 开放获取 19 七月 2018
主要
医疗保健对大型语言模型 (LLM) 的采用没有放缓的迹象,当前和未来的部署正在考虑在管理和医疗保健服务用例的多个领域进行,包括为患者沟通生成草稿、医疗文件摘要、问答、信息检索、医疗诊断、治疗建议、患者教育和医学教育 1,2,3,4,5. LLM 的快速发展使现有的监管和治理结构达到了极限,暴露了拼凑在一起的解决方案,这些解决方案并不能完全涵盖这些通用模型的细微差别 6,7,8。更广泛地说,LLM 的开发速度对期刊和同行评审的出版时间表以及寻求及时提供指导的监管机构构成了挑战。为了跟上步伐,研究人员会快速发布预印本,并采取临时报告方法。
报告指南为标准化研究、透明报告和同行评审过程提供了一种可扩展的方法。TRIPOD(用于个体预后或诊断的多变量模型的透明报告)倡议是一个关键示例,于 2015 年首次推出,旨在为诊断和预后预测模型研究建立最低报告标准 (https://www.tripod-statement.org)9。TRIPOD 是 EQUATOR(提高健康研究的质量和透明度)网络的核心指南之一,该网络是一项国际努力,旨在促进健康研究文献的透明、准确报告10。TRIPOD 得到期刊的广泛认可和推荐,并且经常包含在给作者的期刊说明中。由于机器学习领域的大幅发展,TRIPOD 随后进行了更新,以纳入人工智能 (AI) 的最佳实践,从而产生了 TRIPOD + AI11。这是对其他指南的补充,这些指南在整个模型生命周期中为 AI 开发提供补充指导 12,13,14。
LLM 代表了 AI 领域的独特前沿,随着我们从分类器 AI 模型转向生成式 AI,它引入了原始 TRIPOD 指南或其较新的扩展未完全解决的独特挑战和注意事项。在这里,我们报告了 TRIPOD-LLM 声明,它是 TRIPOD + AI11 的扩展,旨在解决这些未满足的需求,并旨在成为一个活生生的清单,以灵活地适应快速发展的领域。这一扩展扩大了 TRIPOD 的范围,超越了其最初对预测模型的关注,并反映了 LLM 在医学研究和实践的不同领域(从诊断到文档摘要)的普遍影响。
Rationale for TRIPOD-LLM
LLM 作为生成式 AI 模型,是自回归的,这意味着——用最简单的术语来说——它们被训练为在给定前面的单词的情况下预测序列中的下一个单词。然而,这种基础培训已被证明使他们能够从单个模型执行各种与医疗保健相关的自然语言处理 (NLP) 任务。这种适应性通常是通过监督微调或小样本学习方法实现的,这些方法允许 LLM 以最少的示例处理新任务15,16。聊天机器人解决方案(例如 ChatGPT)使用 LLM 作为其基础,在此基础上添加了另外两个组件:问答(称为指令调整或监督微调)和偏好排名(称为对齐)。当前的报告指南并未涵盖 LLM 和聊天机器人中涉及的独特方法过程,例如用于监督微调的超参数的选择、提示的复杂性、模型预测的可变性、评估自然语言输出的方法和基于偏好的学习策略——这需要特定的指导并对模型可靠性产生重大影响。此外,LLM 的通才性和生成性需要比先前指南中涵盖的更详细的指导。由于 LLM 可以应用于广泛的使用案例,而这些使用案例没有经过专门训练,也不一定在训练数据中表示(例如,疾病患病率通常在给定使用案例的特定任务模型的训练数据中捕获),因此它们需要独特的特定于任务的指导,以实现稳健的报告以及下游的可靠性和安全性。
选择适当的自动化和人工指标来评估生成输出仍然是一个悬而未决的问题,目前,应用了广泛的方法来捕获性能的各个方面。对于输出是真正的非结构化文本且无法解析为结构化标签的任务(如字母生成或摘要任务),评估特别复杂。在这些情况下,大多数自动化指标会优先考虑输入和输出文本之间的重叠和相似性,从而产生可能无法捕捉所生成文本的事实准确性或相关性的分数,并且可能无法检测到幻觉或遗漏17,18,19。这些分数反映了与参考文本的结构和词典相似程度,虽然参考文本很重要,但只捕捉了构成性能和安全综合评估的一小部分内容。人类对文本的评估是一个主观过程,由于语言的歧义和许多临床任务固有的不确定性而变得复杂。这些挑战在医学中更加突出,因为医学通常没有单一的正确答案,随机和认识的不确定性都很常见。因此,需要具体的详细信息来指导如何评估性能的报告。在本文中,我们使用术语 LLM 来指代 LLM 和聊天机器人。表 1 突出显示了适用于医疗保健领域的关键任务类别,并提供了现有相关工作的显着定义和示例。
表 1 模块化 TRIPOD-LLM 指南的研究设计和 LLM 任务类别
全尺寸表格
LLM 引入的新复杂性包括对幻觉、遗漏、可靠性、可解释性、可重复性、隐私和向下游传播的偏见的担忧,这可能会对临床决策和患者护理产生不利影响20,21,22,23,24,25,26.此外,电子健康记录 (EHR) 供应商、技术公司和医疗保健提供商之间日益增长的合作伙伴关系导致部署范围远远超过当前的监管时间表 8,27。为了保护 LLM 的使用并提高透明度,LLM 开发和报告的标准化至关重要——以确保一致性、可靠性和可验证性,类似于在其他科学领域建立的临床级评估28,29,30。
TRIPOD-LLM 声明
TRIPOD-LLM 包括一份清单,这些项目被认为对于良好报告正在开发、调整、提示工程或评估 LLM 的研究至关重要(表 2)。方框 1 总结了 TRIPOD-2015 和 TRIPOD + AI 中值得注意的新增功能和更改,方框 2 中提供了关键定义。TRIPOD-LLM 检查表包括 19 个主要项目,涉及标题(1 项)、摘要(1 项)、引言(2 项)、方法(8 项)、开放科学实践(1 项)、患者和公众参与(1 项)、结果(3 项)和讨论(2 项)。这些主要项目进一步分为 50 个子项目。其中,14 个主要项目和 32 个子项目适用于所有研究设计和 LLM 任务。其余 5 个主要项目和 18 个子项目特定于特定的研究设计或 LLM 任务类别。如方法中所述,鉴于 LLM 研究的不同性质(表 1),TRIPOD-LLM 声明引入了一种模块化格式,其中某些项目仅与特定的研究设计和 LLM 任务类别相关。这些设计和任务类别很广泛,但并不相互排斥,具体取决于特定研究的背景,并且可能需要随着 LLM 应用的发展而发展。包括一份单独的基于法学硕士的研究的期刊或会议摘要清单,并修订了 TRIPOD + AI 摘要声明18(TRIPOD-LLM 摘要;表 3),反映新内容并保持与 TRIPOD-LLM 的一致性。
表 2 TRIPOD-LLM 检查表
全尺寸表格
表 3 摘要的 TRIPOD-LLM
全尺寸表格
TRIPOD-LLM 中包含的建议是为了完整、透明地报告基于 LLM 的研究是如何进行的;TRIPOD-LLM 没有具体规定如何开发或评估 LLM。该清单不是质量评估工具。同样,CANGARU(ChatGPT,用于负责任报告和使用的自然大型语言模型)31 和 CHART(聊天机器人评估报告工具)32 是与生成式 AI 更广泛地相关的补充指南,特别是与聊天机器人相关。
除了 TRIPOD 网站 (https://www.tripod-statement.org) 之外,还开发了一个随附的交互式网站 (https://tripod-llm.vercel.app/),以根据研究设计和任务提出所需的问题,以便于完成。此站点可用于呈现适合提交的最终 PDF。TRIPOD-LLM 检查清单的可填写模板也可从 https://www.tripod-statement.org 下载。有关 TRIPOD-LLM 的新闻、公告和信息以及后续声明的发布,请访问 TRIPOD-LLM 网站和 TRIPOD 网站 (https://www.tripod-statement.org)。 |
[返回] |