欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033
微信:paperwinner
工作时间:9:00-24:00
MBA论文
当前位置:首页 > MBA论文
An automated framework for assessing how well LLMs cite relevant medical references
来源:一起赢论文网     日期:2025-10-16     浏览数:320     【 字体:

 An automated framework for assessing how well LLMs cite relevant medical references

 
大型语言模型 (LLM) 越来越多地被考虑用于医疗保健领域。尽管目前没有 FDA 批准市售的法学硕士用于医疗决策支持环境1,GPT-4o、Claude 和 Med-PaLM 等表现最好的法学硕士在美国医疗执照考试 (USMLE) 等医学考试中表现出优于临床医生的表现 2,3,4.如今,法学硕士已经进入患者护理领域,从用作心理健康治疗的聊天机器人 5,6为医生遗漏的罕见疾病找到诊断的用户7.越来越多的临床医生报告说,在他们的临床实践或教育中使用了法学硕士 8,9.
 
然而,法学硕士容易出现幻觉,模型生成没有任何来源支持的陈述10,11,12.特别是在医疗领域,这可能会削弱用户的信任,并可能通过提供错误的建议来伤害患者 13,14或基于患者背景进行歧视15.缺乏信任通常被认为是阻碍临床医生在临床实践中采用法学硕士的第一大威慑因素 16,17,特别是法学硕士无法在其回答中为医学陈述生成支持来源18.
 
引用医学声明来源的必要性不仅仅是获得临床医生和患者的信任——还有一个紧迫的监管案例19. 美国食品和药物管理局 (FDA) 一再呼吁监管用作决策支持工具的法学硕士 20,21.评估法学硕士可靠地传达现有、值得信赖的医学知识的程度对于为未来有关医学法学硕士的监管框架提供信息非常重要。
 
法学硕士应该能够可靠地提供相关来源,以允许用户和监管机构审计其陈述的可靠性。LLM 功能的最新进展(例如,改进的指令微调)使模型能够根据请求定期提供源。特别是检索增强生成 (RAG),允许模型对与查询相关的 Web 引用执行实时搜索。然而,即使引用来自有效和合法的网站,仍然不清楚这些提供的来源在多大程度上包含实际支持模型生成的响应中提出的主张的内容。
 
为了应对这些重要挑战,本文做出了以下贡献。首先,鉴于高质量医学专家注释的成本高昂以及法学硕士持续发展的快速步伐,我们提出了一个名为 SourceCheckup 的自动评估框架,用于创建医学问题并对法学硕士在回答这些问题时提供相关来源的能力进行评分。我们验证了该框架的准确性,发现 89% 的人同意三位美国许可的医学专家的共识,并且同意率高于任何一对医学专家。其次,我们评估了性能最佳的商用法学硕士(GPT-4o(RAG 和 API)、Claude v2.1、Mistral Medium 和 Gemini(RAG 和 API)),发现无法访问 Web 的模型只能在 40% 到 70% 的时间内生成有效的 URL。支持检索增强生成 (RAG) 的 GPT-4o 和 Gemini Ultra 1.0 具有搜索引擎访问权限,不会遭受 URL 幻觉的影响,但在近一半的时间里仍然无法生成支持响应中所有陈述的引用。最后,我们开源了从梅奥诊所和 Reddit 提取的网页创建的 800 个医学问题的数据集,以及临床医生注释的 400 个问答对子集。我们的研究结果凸显了法学硕士在临床医学中的可行性存在的重要差距,并对法学硕士的医学采用具有至关重要的影响。
 
相关作品
在衡量和改进语言模型中的源代码归因方面,越来越多的工作22,23,24.WebGPT等作品中引入的基准数据集25, 专家QA26、WebCPM27和海格28以问答格式聚合来自维基百科等网页的开放领域主题。然而,这些数据集的评估是通过人工验证进行的,这可能既昂贵又耗时29并且难以复制。
 
最近有几项工作证明了使用语言模型本身在自动对 LLM 的来源归因进行评分方面的有用性。例如,ALCE24、属性 QA30和 GopherCite31使用监督语言模型对 LLM 进行自动评估。更相关的是,鉴于强大的指令微调法学硕士的出现,FactScore32和AttrScore33证明 ChatGPT 可以用作来源归因的有用评估器,但 ChatGPT 本身在评估来源归因时表现不佳 34,35.
 
我们提出的方法有三点贡献。首先,我们构建了一个专门的医学特定陈述-来源对语料库(来自 800 多个参考文献的近 58 个示例)。其次,我们通过与三名美国执业医生组成的小组表现出强烈的一致性,提供了证据证明 GPT-4o 是医学领域来源归属的高效评估者。第三,我们使用我们的自动化框架来评估当今患者和临床医生常用的七种最先进的商用法学硕士。
 
结果
问题生成和响应解析
负责验证生成问题的两位医生都发现,生成的问题的随机样本中有 100/100 与参考文档一致并且可以回答。对于语句解析,第一和第二博士发现完整响应中分别正确包含 330/330 和 329/330 的解析语句。相反,他们分别发现了 6 个和 5 个(总共 72 个)未解析单个语句的完整响应。
 
源头验证
我们对 400 个陈述-来源配对的专家注释表明,来源验证模型在确定来源是否支持某个陈述方面表现得与专家一样好。我们观察到来源验证模型与医生共识之间的一致性为 88.7%,医生间的平均一致性为 86.1%(图 199999 年)。1a,补充表1,补充图1)。我们发现医生共识注释和来源验证模型注释之间没有统计学上的显着差异(p = 0.21,未配对样本双侧 t 检验)。
 
图 1:SourceCheckup 针对医生的验证和使用 SourceCheckup 对 LLM 的评估。
figure 1
a 来源验证模型与医生之间关于来源验证任务的一致性。我们请了三位医生(D1、D2 和 D3)来确定是否支持或不支持成对的陈述和源文本。我们发现,来源验证模型与医生共识的一致性高于医生之间的平均一致性。95% 置信区间是使用 bootstrap 方法计算的,并显示在误差线中,总样本量为 N = 400。b 评估 LLM 中关于医疗查询的来源验证质量。每个模型都根据三个指标进行评估。源 URL 有效性衡量返回有效网页的生成 URL 的比例。语句级支持度衡量同一响应中至少一个来源支持的陈述的百分比。响应级支持度测量支持其所有陈述的响应的百分比。完整的数值结果显示在补充表 4 中。95% 置信区间是使用 bootstrap 方法计算的,并显示在误差线中。用于计算每个统计量的样本量见补充表 8。
 
全尺寸图像
GPT-4o 作为骨干 LLM 的偏差评估
作为评估代理,Claude Sonnet 3.5 在 87.0% 的时间内与人类专家的共识一致(83.4–90.4 95% CI),这与 GPT-4o 与专家的 88.7% 一致性(p = 0.52,配对双侧 t 检验)没有统计学差异。此外,我们观察到 Claude Sonnet 3.5 和 GPT-4o 在源验证决策上达成了 90.1% (89.7–90.5 95% CI) 的一致性。此外,我们进行了卡方检验,发现在下游语句支持指标上,使用 Claude 或 GPT-4o 作为问题生成器或响应解析器(p = 0.801,配对双侧 t 检验)之间没有统计学上的显着差异(补充表 2 和 3)。这些发现表明,我们的评估管道并不偏向于 GPT-4o,可以有效地适应其他高性能的 LLM。我们还评估了 Llama 3.1 70B 的引文验证任务,并报告了 79.3% (75.4–83.1 95% CI) 与人类专家共识的一致性。因此,我们发现开源模型尚未与产生专家级引文验证的顶级专有模型相提并论。
 
LLM 中源真实性的评估
我们在七个模型中对这三个指标的完整结果如图所示。1b 和补充表4.我们发现,GPT-4o(RAG)在提供引文方面是性能最高的模型,这主要是由于其在模型中通过搜索访问互联网的独特能力所驱动。然而,我们仍然发现其响应水平支持度仅为 55%。我们在补充图中提供了 GPT-4o (RAG) 的失败示例。2,其中一个陈述由于没有被提及而没有找到,而另一个陈述实际上与提供的来源相矛盾。同样,只有 34.5% 的 Gemini Ultra 1.0 与 RAG 的响应得到检索到的引用的完全支持。此外,其他 API 端点模型的总体速率都低得多,这主要是因为它们无法访问网络。例如,GPT-4o(API),目前表现最好的 LLM36,大约 70% 的时间仅生成有效的 URL。另一方面,我们发现 Gemini Pro 的 API 只有大约 10% 的时间产生完全支持的响应。此外,我们发现开源模型 Llama-2-70b 和 Meditron-7b 都无法始终如一地完成生成引文 URL 的初始任务(Llama 为 <5%,Meditron 为 <1%)。因此,我们没有将它们纳入主要结果。
 
作为额外的人类专家验证,我们随机抽样了 GPT-4o (RAG) 生成的 110 对陈述-来源对,这些对已被源验证模型归类为不受任何提供来源支持,并让医生评估每对。医生在 95.8% (91.8–98.7%) 的时间内同意来源验证者的观点。在GPT-4o(RAG)提供的110个陈述-来源对中,医生们确认GPT-4o(RAG)提供的任何来源都不支持105个陈述。这一结果表明,检索增强本身并不是使法学硕士更加事实负责的灵丹妙药。特别是,虽然四个 API 端点模型在提示时在 >99% 的响应中生成了源(有效或无效),但我们发现 GPT-4o (RAG) 未能在超过 20% 的响应中生成源,即使在明确提示的情况下也是如此(补充图 199)。2),部分导致其响应水平支持率低。总体而言,引用的 URL 来源的平均长度为 6905 个标记,其中 99.9% 的引用 URL 来源落在 GPT-4o 的 128k 标记的上下文大小限制范围内。
 
按问题来源细分
我们询问问题类型是否会影响法学硕士提供的资源质量。我们发现,问题源显着影响了每个模型生成支持源的能力(详见补充图。3). 例如,虽然 GPT-4o (RAG) 对梅奥诊所问题的响应水平支持接近 80%,但在 Reddit r/AskDocs 上急剧下降至 30% 左右(使用未配对样本 t 检验的 p < 0.001)。MayoClinic 的问题可以从单一来源更直接地回答,而 Reddit r/AskDocs 的问题则更加开放,通常需要从各种领域获取资源。
 
HealthSearchQA 上的额外验证
除了从 Reddit 的 r/AskDocs subreddit 收集的现实世界问题外,我们还包括 HealthSearchQA4,谷歌为 Med-PaLM 论文发布的消费者健康问题数据集。在该数据集中的 300 个问题的随机子集中,我们评估了 GPT-4o w/ RAG 和报告引文 URL 的有效性为 100%,陈述级支持率为 75.7% (74.0–77.2 95% CI),响应级支持率为 38.4% (26.7, 49.3 95% CI)。这与我们人工生成的 Reddit 数据集中 31.0% (26.7, 35.8 95% CI) 的响应水平支持率一致。这为法学硕士难以对用户的开放式问题进行忠实引用的说法提供了额外的支持。
 
端到端全人工评估
我们对 LLM 引文进行详细的端到端人类专家评估。在这项任务中,人类临床医生的任务是评估是/否决定,以确定回复中提出的所有事实是否得到引文的支持。该实验对 HealthSearchQA 的 100 个问题的子集评估了 GPT-4o w/ RAG。人类专家发现,只有 40.4% (30.7, 50.1) 的回答得到了所提供的引文的完全支持。相比之下,在相同的问题上,SourceCheckup 发现 42.4%(32.7、52.2 95% CI)的回答得到支持。人类专家和 SourceCheckup 在同一数据集上产生相似的响应支持率,验证了我们自动化方法的稳健性。值得注意的是,这两种评估方法都支持了我们的主要发现,即带有 RAG 的前沿法学硕士并不能准确反映许多医学问题的来源。
 
URL 分析
我们发现,LLM 生成的 URL 主要来自健康信息网站,如 mayoclinic.com 或政府健康网站(例如 nih.gov、cdc.gov)(表 1)。我们还发现,来自付费墙或已失效网页的 URL 比率较低(表 2)。有趣的是,大多数来源来自美国网站(平均 92%),其中 Gemini Ultra 1.0 (RAG) 的非美国来源比例最高(10.68%)。最后,我们发现大多数来源都是 from.org or.gov 域名,表明专业/非营利组织和政府资源的来源(补充图4)。
 
表1 法学硕士引用前五名网站
全尺寸桌子
表 2 LLM 的 URL 统计数据。在评估的所有七种模型中,我们发现来自付费专区网站的网址率较低
全尺寸桌子
编辑模型响应以提高语句相关性
我们使用 SourceCleanup 代理从 GPT-4o (RAG)、GPT-4o (API) 和 Claude v2.1 (API) 中删除或修改以前不受支持的语句。在 150 个不受支持的语句上,SourceCleanup 完全删除了 34.7% (52/150) 的不受支持的语句。我们让人类专家重新评估了剩余的 98 个 SourceCleanup 修改后的陈述,发现 85.7% (84/98) 的陈述在修改后得到了来源的支持。总的来说,SourceCleanup 代理删除或正确编辑了 90.7% (136/150) 的受支持语句。我们在补充表 5 中提供了所做的修改示例,并在我们的 GitHub 存储库中提供了整套修改。
 
讨论
采购高质量的医学注释可能成本高昂且难以找到。虽然之前的工作使用法学硕士来确认来源归属,但我们的工作通过医学专家小组验证了自动化医疗来源验证。我们的全自动框架允许快速开发问答数据集,同时减少对额外手动注释的需求。这种能力是关键,尤其是在临床医学领域,那里的护理标准和最新知识在不断发展。此外,我们对 SourceCleanup 的实验还显示了基于 LLM 的响应编辑方法的前景,以提高源的忠实度。
 
为了支持未来的研究,我们以可重用的格式构建了包含 58,000 个语句-源对的数据集。研究人员可以利用这些问题和相关来源来评估法学硕士在不同模型版本中的来源归因方面的表现。此外,陈述-来源对还可以作为比较模型随时间推移在引文准确性和来源相关性方面的改进的宝贵基准,从而能够对 LLM 生成的医学参考文献的可靠性进行纵向研究。
 
我们的结果强调了当前法学硕士和医疗环境中所需行为的巨大差距。监管机构、临床医生和患者都要求模型响应值得信赖且可验证。其中的核心是他们可以提供信誉良好的来源来支持他们的医疗主张。鉴于 LLM 主要接受下一个令牌预测的训练,Mistral、Gemini-Pro 和 Claude 等“离线”模型会提供幻觉 URL 或相关但不正确的 URL 作为来源也就不足为奇了。我们相信,如果允许访问网络搜索,这些模型在生成有效 URL 方面会表现得更好。为了解决这个问题,应直接训练或微调模型以提供准确的源验证。RAG 模型显示出前景,因为它们可以通过搜索引擎直接从文章中提取信息。然而,我们发现 RAG 提供的参考文献中有很大一部分并不完全支持 GPT-4o (RAG) 或 Gemini Ultra 1.0 (RAG) 响应中的主张。这可能是由于 LLM 使用其预训练知识或幻觉推断检索到的信息。
 
我们工作的一个重要区别是,我们强调验证 LLM 生成的陈述是否基于可验证的来源,而不是直接评估每个主张的正确性。我们采取这种方法是因为主张是真是假的性质可能取决于主观解释——事实上,即使是医学专家也可能对医疗主张完全真实的程度存在分歧。例如,我们的数据集包含一个问题,“哪个年龄组最常受到网球肘的影响?”,该问题有多个重叠的答案(例如,30-60 岁、30-50 岁、40-60 岁)。地面实况的过程为如何裁决不同的答案带来了模糊性。
 
我们发现,鉴于模特对 Reddit 问题的回答平均而言比妙佑医疗国际的回答更长,因为用户更开放,并且倾向于询问多个相关主题。此外,该模型在回答 Reddit 问题时更具推测性,通常提供更多的免责声明和潜在的答案。这些因素导致与梅奥诊所相比,Reddit 问题的陈述级回答水平支持率较低。一般来说,我们注意到,对于答案直接的直接问题,模型在提供相关引用方面要强得多。当模型被要求推测或提供多个答案时,它们往往会产生与所提供的引文进一步偏离的响应。
 
根据《通信规范法》第 230 条,Twitter 或 WebMD 等网站不受美国 FDA 监管,因为它们只是充当医疗信息的中介,而不是医疗信息的作者37.然而,目前尚不清楚这种现有的法律保护是否可能适用于法学硕士,因为它们可以推断和产生新信息的幻觉。此外,现有的人工智能软件医疗器械监管框架也可能不适用于法学硕士,因为它们没有受约束的确定性输出38.因此,评估法学硕士可靠地传达现有、值得信赖的医学知识的程度对于为未来有关医学法学硕士的监管框架提供信息非常重要。
 
在我们按问题来源对来源验证进行细分时,我们发现模型在来自 Reddit r/AskDocs 的问题上表现明显不如 MayoClinic。这很重要,因为来自 Reddit 的问题是用户生成的,而妙佑医疗国际则经过医疗专业人员的审查。造成这种差异的一个潜在原因是,与倾向于使用精确医学术语的医学参考网站相比,用户生成的问题往往反映了更多样化的主题分布和更可变的阅读水平。另一个假设是,用户生成的问题可能包含法学硕士有肯定倾向的错误前提,即反事实偏见39.同样,我们还发现,引用的 URL 在 90% 以上的时间内来自美国来源,这可能反映了美国以患者为中心的医学证据和护理标准。因此,对于法学硕士来说,充分执行源验证以服务于广泛的用户(包括非专业和医疗专业人员,以及代表其预期人群的源)非常重要。
 
在模型中测量源验证也不应孤立考虑。例如,通过逐字引用一组已知来源(例如,谷歌搜索)来完美地执行。相反,该基准应与其他基于质量的评估指标一起使用,以突出法学硕士在推断信息时的固有权衡。为此,我们将所有精选数据和专家注释作为社区资源发布。
 
我们的方法也有一些局限性,可以激励后续研究。首先,我们的自动化管道可能会在问题生成、语句解析、引文提取和来源验证阶段产生错误。虽然我们对每个组件进行了抽查,但这些错误不是零的,可能会导致最终报告的结果出现小幅波动。其次,来源验证的任务可能模棱两可,正如我们研究中的三位医生之间缺乏完全一致所表明的那样。因此,虽然我们相信我们的最终结果代表了医疗查询相关性的准确尺度,但单个数据点可能更嘈杂且容易被解释。第三,我们在语句和来源之间使用 1-1 映射有一个权衡,即我们确实计算了可以通过聚合多个来源来支持语句的情况。然而,作为评估这种影响发生程度的实验,我们分析了所有被 GPT-4o (RAG) 判断为不受支持的陈述,并重新运行分析,并合并了每个陈述的来源。我们发现,在合并来源后,95.1% 以前不受支持的陈述仍然不受支持。我们的 URL 分析结果报告称,美国网站的比例很高,这可能部分是由于我们的问题主要来自美国来源(例如妙佑医疗国际)。最后,我们的 URL 内容提取模块在网站上容易出现 404 错误的小率,否则个人可以在阻止来自相同用户代理的重复请求的网站上访问这些错误。此外,在付费专区后访问科学文本的能力取决于每个研究人员的访问权限,这意味着跨机构运行时 URL 有效性可能存在差异。
 
我们相信,展望未来,来源验证是确保医生拥有准确和最新信息来为他们的临床决策提供信息并为在临床中使用的法学硕士提供法律依据的关键。事实上,准确的来源验证超越了医学领域,在法律(例如判例法)和新闻业(例如事实核查)等其他领域也有适当的应用。
 
方法
本研究严格按照所有适用的伦理标准、指南和管理研究实践的法规进行。
 
LLM 评估
我们的分析重点是评估以下性能最佳的法学硕士:GPT-4o (RAG)、GPT-4o (API)、Claude v2.1 (API)、Mistral Medium (API)、Gemini Ultra 1.0 (RAG) 和 Gemini Pro (API)。选择这些模型是因为它们代表了当前领先的法学硕士3,36,40,41截至 2024 年 2 月。此外,我们还考虑了以下开源模型:Mixtral-8x7b (API)、Llama-2-70b (API) 和 Meditron-7b,其中 Meditron-7b 是医疗领域的开源模型。我们使用 gpt-4o-2024-05-13 作为 GPT-4o API 端点,而 Gemini Ultra 1.0 (RAG) 于 24 年 3 月 28 日进行了评估。在 24 年 1 月 20 日查询了所有其他模型 API 的响应。括号 (RAG) 是指模型的 Web 浏览功能,由 Web 搜索提供支持。当没有标记为 (RAG) 时,GPT-4o 是指本研究中使用的标准 API 端点,没有 Web 浏览功能。
 
SourceCheckup 评估框架
我们提议的管道由四个模块组成:(1) 问题生成,(2) LLM 问答 (3) 语句和 URL 源解析,以及 (4) 源验证。该管道的示意图见图。图2,并给出了示例。3. 补充表 6 详细介绍了以下每个部分使用的提示。
 
图 2:SourceCheckup 评估流水线示意图。
figure 2
首先,GPT-4o 根据给定的医学参考文本生成一个问题。每个评估的 LLM 都会根据此问题生成一个响应,其中包括响应文本以及任何 URL 源。在下载 URL 源的同时,将针对单个医疗陈述解析 LLM 响应。最后,要求源验证模型确定给定的医疗陈述是否得到源文本的支持,并提供做出决定的原因。
 
全尺寸图像
图 3:基于 GPT-4o (RAG) 真实响应的 SourceCheckup 评估框架示例。
figure 3
根据医学参考文本的内容生成问题。向 LLM 提出问题,并将响应解析为陈述和来源。每个语句-源对都由源验证模型自动评分为受支持(即源包含支持该语句的证据)或不受支持。
 
全尺寸图像
问题生成
首先,我们从 Reddit 的 r/AskDocs 收集了 400 个真实世界的医疗查询,这是一个供患者询问医疗专业人员的 Reddit 子版块,拥有 600 多名 K 名成员。这些问题通常以简短的案例形式呈现,并由用户提供相关症状。此外,鉴于 PubMedQA 等医学问题数据集42和医疗质量保证43由容易记忆的固定问题集组成,我们提出了一个问题生成框架来创建反映现实世界临床问答的医学问题。向 GPT-4o 提供了参考文本,并提示根据文本内容生成问题。在这项研究中,我们选择了妙佑医疗国际的参考文本,该诊所提供了有关常见医疗查询的面向患者的事实页面。妙佑医疗国际的内容允许我们生成基于文本理解的问题,这些问题在风格和语气上可能与自然用户查询不同。我们的参考文件均未取自包含受保护健康信息的私人数据集。我们使用 GPT-4o 从妙佑医疗国际的 400 份参考文档中的每一份中生成一个问题。然后,我们将这 400 个生成的问题与来自 r/AskDocs 的 400 个真实世界查询相结合,生成了全套 800 个问题。最后,我们向七位法学硕士中的每一位提出了每个问题。我们在补充表 7 中列举了几个问题示例。
 
LLM 问答
我们查询了每个 LLM,以提供对问题的简短回答,以及支持该回答的来源的结构化列表。用于查询 LLM 的提示可以在补充表 6 中找到。为了从具有 Web 浏览功能的 GPT-4o (RAG) 模型收集响应,我们发现标准提示无法触发 Web 搜索 RAG 功能,因此我们提供了提示的修改版本,明确要求模型使用必应搜索。在少数情况下,模型没有返回响应或返回不完整的响应。在这种情况下,我们在认为响应无效之前为 LLM 提供了额外的尝试。
 
语句解析
为了将响应分解为单独可验证的陈述,我们使用 GPT-4o 来解析 LLM 响应。我们将“语句”定义为模型响应中可独立验证的部分。例如,回答“HFE C282Y 纯合子中男性有铁过载相关疾病的比例为 28.4%,女性为 1.2%”被分解为“男性有铁过载相关疾病的 HFE C282Y 纯合子比例为 28.4%”和“女性有铁过载相关疾病的 HFE C282Y 纯合子比例为 1.2%”.某些回复没有返回任何解析后的医疗陈述,这主要是由于所问问题的性质。例如,模型响应“您能否提供文件或指定其中提到的急性细菌性鼻窦炎的治疗方案和持续时间的详细信息?解析语句数量的完整详细信息以及源计数可在补充表 8 中找到。此外,有关我们验证中使用的人工指令的更多详细信息,请参见补充表 9。总的来说,我们发现 GPT-4o (API) 和 Claude v2.1 可以始终遵循指令的 JSON 格式,而其他模型的成功率各不相同。如果模型无法提供结构化的源列表,我们会使用正则表达式匹配从原始文本中提取并删除所有 URL,并将它们视为提供的源。
 
URL 源解析
对于响应中提供的每个 URL 源,我们下载了 URL 的源内容。我们只保留返回 200 状态代码的网站,这意味着可以返回内容。一小部分(< 1%)的案例还包括无法通过我们的管道访问的网站。我们在本地下载了 PDF 文档,然后使用 PDF 到文本转换器提取其文本。提取源内容后,我们应用模式匹配表达式来剥离代码标签,只留下纯文本。最后,我们排除了超过 GPT-4o 128 K 最大令牌长度的源内容。这约占所有下载 URL 的 0.1%。
 
源头验证
如果一个陈述可以归因于法学硕士提供的至少一个来源,我们认为该陈述是值得支持的。虽然并非所有来源通常都旨在支持每个陈述,但我们发现确定每个 LLM 的预期陈述-来源配对的任务很难确定。例如,一些法学硕士在每个陈述后提供脚注,而另一些法学硕士则在段落末尾提供链接列表。因此,我们选择在评估中简单地考虑所有对的陈述和来源。此外,我们单独评估每个来源对每个陈述的归属,而不是将所有给定的来源组合在一起。这样做有两个原因:(1) 来源和陈述的 1-1 映射使我们能够报告“精确”指标(有多少百分比的来源不支持响应中的任何陈述)。这衡量了每个模型有意将其陈述归因于来源的能力,而不是从通用搜索结果页面生成一长串引文列表,并且 (2) 我们发现要求医生验证信息是否已正确集成到多个文档中的任务更加复杂和模糊(例如。跨研究进行荟萃分析的正确方法是什么,如果文章相互矛盾怎么办,如何权衡一篇文章与另一篇文章的可信度,等等)。
 
给定一份陈述和来源列表,检查每个可能的对是否包含支持该陈述所需的相关信息。例如,给定 \(M\) 个语句和 \(N\) 个源,每个 \(M\) 语句都与每个 \(N\) 个源进行检查,总共检查 \({MxN}\) 对。对于每一对,我们向 GPT-4o 提示语句和源内容,并要求它对该对进行评分。如果一个陈述得到至少一个来源的支持,则该陈述被视为“支持”;否则,它被认为是“不支持”。为了消除使用 GPT-4o 进行源验证和评估的歧义,我们将此任务称为“源验证模型”,并将评估模型称为全名(即 GPT-4o (RAG) 或 GPT-4o (API))。
 
Rashkin 等人提出23并正式化一个称为“可归因于可识别来源”的框架,该框架定义了给定语言模型响应的 AIS 分数 \(y\),如果人类审阅者同意“\(y\) 为真,给定 \(A\)”,则由证据 A支持 1,如果不是,则为 0。Gao 等人扩展24这是衡量平均句子级 AIS 分数:
 
$${Att}{r}_{{AIS}}(y,\,A)={av}{g}_{s \, \in \, y}{AIS}(s,\,A)$$
这是响应中完全由 \(A\) 支持的陈述的百分比。我们将陈述级和响应级 AIS 分数的这两个定义扩展到下面的陈述级和响应级支持。
 
我们报告三个指标来评估每个模型的源验证能力:
 
源 URL 有效性
给定模型生成的所有源 URL,有多少百分比是有效的?我们将有效 URL 定义为在请求时生成 200 状态代码并返回有效文本(非空响应)的 URL。
 
$${来源\;网址\;有效性}=\frac{{{{\rm{\#}}}}{URLs\; with\; status\; code} \, 200}{{Total\;数\;之\;网址}}$$
语句级支持
该模型产生的医学相关陈述中有多少百分比可以得到至少一个来源的支持?对于从响应中解析的每个语句,我们根据模型响应生成的所有来源进行了检查。如果发现其中至少一个来源包含支持文本,则该声明被视为支持。
 
$${语句\;水平\;支持}=\frac{{语句\;支持\;作者}\ge \!1 \, {来源}}{{总计\;数\;之\;语句}}$$
我们注意到,该指标不会因为产生许多不相关的来源而惩罚 LLM 响应。为此,我们还报告了未用于支持任何声明的 URL 的百分比,如补充表 10 所示。
 
响应级别支持
有多少百分比的回复支持他们的所有陈述?对于每个响应,我们检查了该响应是否包含所有支持的语句。
 
$${响应\; 水平\; 支持}=\frac{{响应}\, w/{All\; 语句\; 支持}}{{Total\; 数\; 之\; 共鸣}}$$
GPT-4o 自动化任务的专家验证
GPT-4o 的三个自动化任务(问题生成、响应解析和源验证)中的每一项都根据美国执业医生的注释进行了验证。
 
问题生成和响应解析器
为了验证 GPT-4o 在从参考医疗文档生成问题的任务上的性能,我们请两名医生抽查了 100 对文档和问题的相关性和逻辑完整性。为了验证 GPT-4o 在解析自由文本响应中的医学陈述方面的表现,我们还请两名医生分析了来自 72 个问题/响应对的 330 个陈述的样本,以检查 (1) 是否在原始响应中找到了所有陈述,以及 (2) 解析陈述列表中是否缺少任何陈述。
 
源头验证
该陈述和来源的子集 (N = 400) 是从 GPT-4o (RAG)、GPT-4o (API) 和 Claude v2.1 (API) 的模型响应中选择的。三名医生独立对 LLM 生成的来源验证决定是否正确地识别了所提供来源支持或不支持的陈述进行评分。他们还选择性地提供了理由来证明他们的决定是合理的。然后,我们计算了医生的多数共识,并报告了每个医生之间的一致百分比、医生共识和 LLM 生成的决定。
 
GPT-4o 作为评估器、解析器和问题生成器的潜在偏见
我们的目标是评估我们使用 GPT-4o 作为管道的骨干是否会在模型支持率中引入下游偏差。为此,我们使用 Claude Sonnet 3.5 复制了整个管道,Claude Sonnet 3.5 是一款领先的 LLM,其性能与 GPT-4o 相当。使用来自 MayoClinic 的同一组原始文档,我们重新生成问题,解析模型响应,并使用 Claude Sonnet 3.5 执行源代码验证。此外,我们还在引文验证任务上对 Llama 3.1 70B 进行了基准测试,以评估开源模型的能力。最后,我们比较了通过在管道的每个部分将 GPT-4o 替换为 Claude Sonnet 3.5 而产生的语句-源对之间的语句支持率。
 
提高语句与来源的相关性
没有根据的陈述通常只部分偏离其来源。鉴于此,我们探讨了法学硕士如何有效地修改这些不受支持的陈述,以使其得到原始来源的充分支持。为了解决这个问题,我们开发了一个名为“SourceCleanup”的 LLM 代理。该代理使用 GPT-4o 作为主干模型,并接受单个语句及其相应的源作为输入,并返回该语句的修改后、完全支持的版本。用于 SourceCleanup 的提示在补充表 6 中详细介绍。
 
URL 分析
我们根据每个模型引用的 URL 总数计算了几个关键统计数据。首先,我们确定哪些域名包含隐藏在付费专区或订阅模式后面的内容。其次,在因 404 错误或类似的“找不到页面”响应而被视为无效的 URL 中,我们评估了有多少 URL 以前有效但现在已过时。为了近似这一点,我们使用了 Internet Archive Wayback Machine API,它存储存档的 URL。其次,我们报告了每个模型引用的前五个域名。
 
最后,我们从两个方面分析了 URL 的起源。首先,我们通过执行 whois 查找并查找有效的国家/地区来确定哪些域名是美国域名和非美国域名。如果未返回任何国家/地区,我们默认将 TLD 包含在 .com,.org,.gov,.edu,.info,.net 中的域计为基于美国的域,如果不是,则将非美国域计为非美国域。
 
统计和可重复性
本研究利用基于代理的自动化评估框架 SourceCheckup 来系统评估大型语言模型 (LLM) 引用的医学参考文献的相关性和支持性。没有使用统计方法来预先确定样本量,也没有数据被排除在分析之外。实验不是随机的。研究人员在实验和结果评估期间没有对分配不知情。统计分析包括计算自动来源验证模型与人类专家共识之间的一致性百分比,以及酌情使用配对和未配对的双侧 t 检验和卡方检验进行比较。通过美国许可的医学专家的独立验证确认了可重复性,可重复性的代码和数据在我们的 GitHub 存储库
[返回]
上一篇:国际冲击下系统性风险的影响因素与传染渠道研究
下一篇:基于大语言模型的大规模人群生物年龄预测