| 科学文献与检索增强语言模型的综合 |
| 来源:一起赢论文网 日期:2026-03-03 浏览数:62 【 字体: 大 中 小 大 中 小 大 中 小 】 |
|
科学文献与检索增强语言模型的综合浅井明里,何杰奎琳,邵如霖,石维佳,阿曼普里特·辛格,张志耀,凯尔·洛,卢卡·索尔达尼,谢尔盖·费尔德曼,迈克·达西,大卫·瓦登,马特·拉茨克,詹娜·斯帕克斯,黄志娜,瓦尔莎·基肖尔,敏阳天,潘吉,刘胜延,昊桐,博豪吴,熊彦玉,卢克·泽特尔莫耶,格雷厄姆·诺伊比格,丹尼尔·S·韦尔德,…汉娜内·哈吉希尔齐 剧集编剧自然 volume650,pages857–863(2026)引用本文122k 访问2 引用371 Altmetric指标details摘要科学进步依赖于研究者综合日益增长的文献体系的能力。大型语言模型(LLMs)能否协助科学家完成这项任务?这里我们介绍OpenScholar,一种专门的检索增强语言模型(LM)1它通过从4500万篇开放获取论文中识别相关段落并综合引用支持的回答,回答科学问题。为了评估OpenScholar,我们开发了ScholarQABench,这是首个大规模多领域文献检索基准测试,包含2967条专家撰写查询和208条长文答案,涵盖计算机科学、物理学、神经科学和生物医学。尽管是一个较小的开放模型,OpenScholar-8B在新推出的多篇论文综合任务中,正确性比GPT-4o高出6.1%,比PaperQA2高出5.5%。尽管GPT-4o有78%到90%的时间会出现引用幻觉,OpenScholar却实现了与人类专家相当的引用准确率。OpenScholar的数据存储、检索器和自反馈推理循环改进了现成的LM:例如,OpenScholar-GPT-4o将GPT-4o的正确性提高了12%。在人类评估中,专家分别以51%和70%的比例偏好OpenScholar-8B和OpenScholar-GPT-4o的回答而非专家撰写的回答,而GPT-4o为32%。我们开源所有工件,包括代码、模型、数据存储、数据集和公开演示。类似内容被他人观看SciQA 科学问答的学术知识基准文章 开放获取 2023年5月4日人类增强大语言模型驱动的谷胱甘肽过氧化物酶4作为循环红细胞血液转录生物标志物候选选择文章 开放获取 2024年10月5日自我反思增强了大型语言模型对学术反应的有力性文章 开放获取 2025年12月1日主要角色综合科学文献知识对于发现新方向、完善方法论和支持循证决策至关重要,然而出版物的快速增长使研究人员保持信息更新变得越来越困难。有效的综合需要精确检索、准确归属以及获取最新文献。大型语言模型(LLM)可以辅助,但会有幻觉 2,3,过时的预训练数据4以及有限的署名。在我们的实验中,GPT-4o在被要求引用计算机科学和生物医学等领域最新文献时,有78%至90%的案例会伪造引用。回收增强登月舱 5,6,7通过在推理时融入外部知识来缓解部分问题,并鼓励了文献检索与综合系统8,9,10.然而,大多数应用依赖黑箱应用程序接口(API)或通用的LM,缺乏针对科学领域定制的开放、领域特定的检索数据存储(处理过的语料库和检索索引)。文献综合的评估也有限,通常聚焦于狭窄的单一学科研究 8,9或简化任务,如多项选择题答题10.为了应对准确、全面和透明的科学文献综合的挑战,我们引入了OpenScholar(见图)。据我们所知,这是首个专为科学研究任务设计的完全开放、反演增强登月舱。OpenScholar集成了领域专用数据存储(OpenScholar DataStore,OSDS)、自适应检索模块以及一种新的自反馈引导生成机制,实现了对长格式输出的迭代优化。OSDS是一个完全开放、最新的语料库,包含4500万篇科学论文和2.36亿条文章嵌入,为训练和推理提供了可重复的基础。OpenScholar 使用训练有素的检索器和重新排序器从OSDS检索,生成引用回应,并通过自反馈循环反复优化,以提升事实性、覆盖范围和引用准确性。同一流水线用于生成高质量的合成数据,使得训练紧凑的8B模型(OpenScholar-8B)和检索器成为可能,而无需依赖专有的LM。图1:OpenScholar、ScholarQABench及评估结果概述。图1顶部,OpenScholar概览。OpenScholar由专用数据存储(OSDS)、检索器和LM组成,并通过自反馈推断和检索方法迭代改进响应。中间,ScholarQABench概述。ScholarQABench包含2200条专家撰写的问题,涵盖多个科学领域,我们为ScholarQABench引入了自动和人工评估方案。底部、自动和人工评估结果:ScholarQABench计算机科学子集(Scholar-CS,100题)的实验结果显示,使用我们训练有素的8B或GPT-4o的OpenScholar在性能上远超其他系统,在人工评估中被优先选出超过50%的专家。我们的人类评估由16位拥有博士学位的专家进行,涵盖了Scholar-Multi的108个问题。全尺寸图像为了评估OpenScholar,我们引入了ScholarQABench(见图)。据我们所知,这是开放式科学综合的首个多学科基准。与以往专注于短格式输出、多项选择题格式或领域推理任务的基准不同10,11,12, ScholarQABench 要求基于大量论文的最新文献进行长文回复。该报告包含3000个研究问题和250个专家撰写的答案,涵盖计算机科学、物理学、生物医学和神经科学领域,由经验丰富的博士生和博士后撰写,反映真实的文献综述实践。克服评估长篇、全面回答的困难13,14,15,16ScholarQABench 引入了一套严格的评估协议,结合自动指标(例如引用准确性)与基于人工评分标准的覆盖度、连贯性、写作质量和事实正确性评估,从而实现对 LM 详细长形式答案的可靠评估。我们的专家分析显示,所提多维评估流程高度符合专家判断,能够可靠地捕捉长篇科学答案中的覆盖范围、连贯性、写作质量和事实正确性。我们评估了带有和无检索功能的专有和开放模型(例如GPT-4o、Llama 3.1 8B和70B),以及如PaperQA2(参考文献)10),关于ScholarQABench。尽管GPT-4o整体表现强劲,但在引用准确性和覆盖度方面存在困难,经常产生不准确或不存在的引用。OpenScholar表现优于仅限LM和检索增强的流水线,超越了专有和开源系统。值得注意的是,使用完全开源检查点的 OpenScholar-8B 表现优于基于专有 LM 的 PaperQA2 和 Perplexity Pro 等生产系统,分别实现了 6% 和 10% 的提升。此外,OpenScholar使用更小、高效的检索器大幅降低了成本。OpenScholar 流水线还可以增强现成的 LM。例如,使用 GPT-4o 作为底层模型时,OpenScholar-GPT-4o 的正确性比单独 GPT-4o 提高了 12%。此外,尽管专家级人类表现优于GPT-4o及其他竞争基线,OpenScholar系统在答案正确性和引用准确性方面均可与甚至超越专家人类。我们的广泛评估展示了OpenScholar核心组件的重要性,包括重新排序、自我反馈和验证,以及结合多样化检索管道和训练领域专业检索系统的价值。除了在ScholarQABench上进行自动评估外,我们还与来自计算机科学、物理学和生物医学等领域的16位科学家进行了详细的专家评估。这些专家对OpenScholar的输出进行了两两且细粒度的评估,对108条专家撰写的ScholarQABench文献综合查询回答进行了评估。OpenScholar与GPT-4o及我们训练好的8B模型配合使用时,持续优于专家撰写的回答,胜率分别为70%和51%。相比之下,普通GPT-4o(即无检索功能)在信息覆盖方面表现不佳,且被评为不如人类专家,对人类回答的胜率仅为31%。总体来看,这些发现表明OpenScholar能够产出高质量的成果,不仅与专家撰写的答案相当,在某些情况下,尤其是在覆盖性和组织方面,甚至超越常规。我们还发布了首个由OpenScholar-8B支持的科学文献综合公开演示。自发布以来,该演示已被超过3万用户使用,收集了近9万条来自不同科学领域的查询。OpenScholar 在 ScholarQABench 上的表现我们首先概述了OpenScholar在我们新创建的专家注释基准测试ScholarQABench上的关键结果。表1显示了主要基线多个方面的得分。表1 ScholarQABench 结果全尺寸表格基线模型我们比较了三种环境。(1) 参数化 LM(不可检索):Llama 3.1 8B/70B(参考文献)17)和GPT-4o(GPT-4o-2024-05-13,参考文献)18)) 生成答案和纸质标题列表。我们会核实这些标题的存在,并在出现时检索其摘要作为引用。(2) 检索增强生成(RAG)基线:使用我们的OSDS(RAG)OSDS),我们检索顶部N段,并将它们与输入串接,遵循标准RAG流水线2,18 .(3)我们的方法(OpenScholar):一个自定义推理流水线,基于训练好的8B模型(OpenScholar-8B),并配合Llama 3.1 70B和GPT-4o后端(OpenScholar-70B、OpenScholar-GPT-4o)。对于多纸任务,我们也会测试 Perplexity Pro。我们使用付费订阅版本;由于没有API,我们通过selenium收集最终预测,无法提取引用,PaperQA2(参考文献)10).由于 PaperQA2 的数据存储不公开,我们使用 OSDS 作为检索来源。主要结果在单篇论文任务中,OpenScholar持续优于其他模型。OpenScholar-8B 和 OpenScholar-70B 在最终准确率和引用准确率方面均优于 Llama 3.1、8B 和 70B(表1)。OpenScholar-70B 在 PubMedQA 和 QASA 上甚至能匹敌甚至超过 GPT-4o。我们还发现,OpenScholar模型在引用准确率方面与标准RAG基线(RAG)相比,持续显示出显著提升OSDS).在多篇论文任务中,我们报告Scholar-CS评分标准——即模型回答满足的专家注释答案评分标准数量(参见评分细节方法)——作为正确性的主要衡量标准。我们还在Scholar-Multi上与LLM评判(“LLM”)一起评估整体写作质量,并跟踪所有数据集的引用准确性。OpenScholar-8B、OpenScholar-70B 和 OpenScholar-GPT-4o 分别采用 OpenScholar 流水线,配合我们精细调优的基于 Llama 3.1 8B 的 LM 以及现成的 Llama 3.1 70B 和 GPT-4o 作为生成器,展现出强劲的性能。具体来说,OpenScholar-GPT-4o 在 Scholar-CS 评分标准中比单独 GPT-4o 提升了 12.7 分,比标准 RAG 提升了 5.3 分。结合训练过的OpenScholar-8B,OpenScholar远远优于使用现成Llama 3.1 8B的流程,展示了领域特定训练的优势。此外,OpenScholar-8B在评分标准表现上远优于使用GPT-4o、Perplexity Pro或PaperQA2等专有系统进行文章重新排序、摘要和答案生成。虽然我们发现PaperQA2在引用准确性上与OpenScholar相当甚至优于OpenScholar,但其回答往往仅依赖一篇或几篇论文,逐篇摘要总结。这导致覆盖范围有限,并导致其在Scholar-CS评分标准和LLM评审分数中的表现较低。这些发现凸显了在有效文献综合中平衡精确性和回忆性的重要性。值得注意的是,通过利用高效的检索流水线,包括轻量级双编码器、交叉编码器和内部模型,OpenScholar-8B 和 OpenScholar-GPT-4o 的成本远低于 PaperQA2 数量级,同时保持高性能。参数LM的局限性在单篇和多篇论文任务中,我们观察到非检索增强基线表现不佳——检索几乎总是有助于实现更好的表现——而无检索的模型常难以生成正确引用,且在多篇任务中覆盖有限。表2展示了四个模型输出中被引用论文的统计数据。我们通过使用 Semantic Scholar API 验证被引用论文标题是否存在,报告完全伪造的引用次数(“幻觉编号”)。在各个模型中,实际存在的被引用论文比例非常低:尽管参考文献列表看起来合理,但78%至98%的标题是伪造的,其中生物医学的比例最差。这与之前的发现相呼应,即大型语言模型会对长尾、代表性不足的知识产生幻觉2.19 我们认为,这种效应在开放网络中被覆盖的科学领域中得到了放大。对2025年8月发布的GPT-5重复分析,标题层面的幻觉降至39%,但虚假引用仍然常见。模型回应示例及论文标题列表可见于补充表19和20。我们还注意到,即使引用引用了真实论文,大多数引用也未被相应的摘要证实,导致引用准确率几乎为零。表2 计算机科学和生物医学领域幻觉论文的统计数据全尺寸表格我们还观察到,这些模型产生的反应覆盖范围有限。在Scholar-Multi模型中,非检索模型(Llama 3.1 8B、70B和GPT-4o)平均得分明显低于检索增强模型。这种差异主要由覆盖评分大幅降低所致;例如,Llama 3.1 8B的覆盖得分为3.45,而Llama 3.1 8B + OSDS(标准RAG基线)则将覆盖得分提升至4.01。这些结果表明,在科学领域,尤其是小型LM中,仅依赖模型的参数化知识尤其困难。ScholarQABench 上的人类表现我们还分析了专家在这一具有挑战性的文献综合任务中的表现。具体来说,我们评估了ScholarQABench中两个带有长形式人类注释的子集:Scholar-CS和Scholar-Multi的人工回答。对于两者,我们都采用了与模型生成回答相同的评估流程来评估评分标准和引用准确性。对于Scholar-Multi,无法提供评分标准评估,但我们对人类和模型的反应进行了专家评估,并在下一节对结果进行比较。表3比较了人类与OpenScholar-GPT-4o、OpenScholar-8B、PaperQA2和GPT-4o(无检索)的表现。我们的分析显示,人类书写的答案仍然是质量和相关性的坚实基准。基于评分标准的评估中,人类反应比未检索的GPT-4o高出9.6分,OpenScholar-8B高出2.9分。PaperQA2 显示出较高的引用准确率,但其评分标准、组织、覆盖性和相关性得分较低。相比之下,OpenScholar-GPT-4o 的评分标准评分甚至高于人类专家,OpenScholar-8B 则能达到专家级别的引用准确率。我们发现OpenScholar的回答往往比人类或其他基线系统更为全面,引用的论文数量更多,这反映在答案长度和引用次数上。在补充信息第6部分,我们详细分析了模型和人类写作答案,并进一步探讨提升科学文献综合的关键因素。表3 专家撰写答案统计全尺寸表格消融与分析推理分量的消融我们通过去除以下方式来消融推断成分:(1)重新排序(仅使用N个OSDS的最高结果);(2)反馈(生成一次,然后归属);以及(3)引用验证(省略最终核查)。对于OpenScholar-8B,我们还通过替换现成的Llama 3.1 8B,使用相同的推理流水线(与OpenScholar-GPT-4o相同)来削弱训练。扩展数据表2显示,所有删除的正确性和引用准确性均有显著下降,其中移除重新排序导致的损失最大。反馈删除对GPT-4o的伤害比我们训练过的8B更严重(可能是因为后者在训练中学会了反馈模式),而跳过事后归属会降低引用准确性和最终正确性。经过培训的 OpenScholar-8B 与原版 OpenScholar-8B 之间的差距凸显了领域特定培训的价值。回收消融我们还比较了仅OSDS(密集检索)、仅S2(语义学者关键词API)、仅网页(You.com)及其组合。为了隔离检索,我们使用8B级的LM,不进行自我反馈或引用验证,并用OpenScholar重新排序器重新排名到前15名。在Scholar-CS(扩展数据表2)中,纯网页表现最差(45.9正确,12.6引用F1),仅S2表现尤佳(47.9/39.1),合并流程最佳(49.6/47.6)。定制化、以文献为中心的检索(密集 + API + 重新排序)能带来最强的事实性和归属性。我们分析检索通道数量(顶部N)如何影响表现。我们将标准RAG和OpenScholar与训练好的8B模型和Llama 3.1 8B进行比较,评估Scholar-CS上的生成和引用准确率。扩展数据图。3和4总结了结果。尽管 Llama 3.1 被训练为接受最多 128,000 个令牌,但其性能在一定上下文大小后会下降:将最高 N 从 5 增加到 10 会提升正确性,但较大的 N 会损害正确性和引用准确性。这表明,尽管具备长上下文能力,较小的LM在没有专业培训的情况下可能难以有效使用许多段落。相比之下,我们训练好的8B模型在N=20下依然强劲,而更大的模型(例如Llama 3.1 70B)对更长上下文更为稳健。OpenCholar有效性的专家评估为了补充自动指标并分析OpenScholar的优势与局限性,我们进行了专家评估,比较了人类写出的答案与大型语言模型系统生成的答案。该研究涉及100多个文献综述问题,参与者超过15人,包括博士生、研究科学家和具有相关领域专业知识的大学教授。我们总共策划了400多篇专家细致评估,涵盖专家和模型答案。评估设计我们使用Scholar-Multi的108对问答(QA),由专家(专家写手)编写。我们对这些问题评估了三种设置:GPT-4o(无外部检索)、以GPT-4o为生成器的OpenScholar(OpenScholar-GPT-4o)和使用训练好的8B模型(OpenScholar-8B)的OpenScholar,每种都生成带有引用的答案。随后,我们招募了一组博士级领域专家,将模型生成的答案与专家撰写的答案进行比较。特别是,每次评估都包括提出一个问题、一个模型生成的答案和一个人工书写的答案。专家评级员随后对每个答案进行细致评估,并对两者进行成对偏好判断。对于细致评估,我们使用方法中描述的五个评分标准(覆盖范围、相关性和组织),注释者使用相同的评分标准对模型和人工答案进行评分。详细提示见补充信息第6节。为了实用性,标注者会以1到5的评分等级分配,我们将这些分数分为三类:无用(1,2)、中性(3)和有用(4,5)。然后我们计算出符合有用类别的答案比例。在两对偏好中,注释者要么选择其中一个答案,要么如果判断两个答案质量相同,则标记为“平局”。专家也可以选择性地解释为什么某个答案比另一个更好。专家作家的详细信息我们的问答写作专家是来自美国各地研究机构的12名博士生和博士后研究员,他们均具备至少三年的研究经验,并在各自领域的期刊或会议上发表过多篇论文。我们的作者涵盖的专家领域包括计算机科学(自然语言处理、计算机视觉、人机交互)、物理学(天体物理学、光子学/光学)和生物医学(神经科学、生物影像)领域,我们会根据自己的专业领域分配专家注释员解答问题。平均每人支付35至40美元。专家评级员详情来自三个领域的16位专家评审员参与了我们的评估,其中12人还参与了答案生成。所有专家评审员都符合与回答者相同的资格。为减少潜在偏差,我们确保评审员不自行评估对自己问题的回答,将评估任务分配给不同的专家组。每个实例由一到三名专家评审员审查,视情况而定。标注者间一致在与平局的两两比较时为0.68,采用宽松方法(合并平局)为0.70。平均而言,每位专家评审员每次评估时间为五分钟,薪酬在25至35美元之间。专家评估结果整体结果表4展示了各评估方面的平均得分,以及与人类反应的相对胜率。扩展数据图。5展示了人类、GPT-4o和OpenScholar(使用Llama 3.1 8B和GPT-4o)的得分分布。值得注意的是,OpenScholar-GPT-4o 和我们的 OpenScholar-8B 版本在超过 50% 的情况下都优于人类答案,其优势主要归因于能够提供更广度和更深度的信息(覆盖范围)。相比之下,缺乏检索能力的GPT-4o覆盖范围极为有限,且在不到35%的情况下获胜,其整体实用性远低于人类及其他两个模型的响应。这些结果表明,即使是最先进的模型,综合和回答科学文献综述问题仍然是一项具有挑战性的任务,这与我们在ScholarQABench上的发现一致。总体而言,OpenScholar-GPT-4o 和 OpenScholar-8B 分别在 80% 和 72% 的查询中被评为有用。表4 专家评审对专家作者和文献综合回答的评价全尺寸表格尽管OpenScholar使用开放8B语言学习模块的性能已超过人类专家,但8B模型的输出被认为不如当前最先进的基于大型语言模型的私有OpenScholar,缺乏组织性和流畅性。我们发现,GPT-4o更有效地整合反馈,且往往能产生更长更流畅的输出,导致组织得分远高于OpenScholar-8B和人类的回答。长度控制对模型响应的影响虽然我们发现模型输出通常比专家写作的更受青睐,但一个潜在的混杂因素是它们输出长度的巨大差异——OpenScholar-GPT-4o和OpenScholar-8B分别比专家写的回答长2.4倍和2.0倍,这影响了判断20.为了理解输出长度的影响,我们进行了一项受控实验。对于随机抽样的50个问题,我们通过提示GPT-4o生成少于300字的回答摘要,生成简化的回答。这导致OpenScholar的回答平均约333个单词,接近人类回答的平均长度。然后我们重复对人类的评估,考虑细粒度和整体反应。简短版GPT-4o平均得分为4.5分的组织性,4.6分的覆盖度,4.6分的相关性。75%的问题中,OpenScholar-GPT-4o的简短回答被优先考虑或与专家回答持平。实验结果表明,模型的优越性能不仅仅因为OpenScholar答案的长度增加。此外,人工注释者的解释常提到,缩短版的OpenScholar和人工答案都可以通过加入更多细节来改进,这意味着300字的限制可能会限制答案的实用性。对人类对成对判断解释的分析我们随机抽样了59个以自由形式解释成对偏好的实例,并进行人工分析以识别影响整体偏好的因素。具体来说,我们考察了解释是否涉及以下四个类别中的一个或多个:组织、相关性、覆盖范围和引用。虽然前三类符合细致的人类评估标准,但引用类别还考虑被引用论文的质量(例如,系统是否包含该领域的开创性论文)。我们的分析(补充信息表27)显示,12%、23%、29%和9%的解释分别引用了组织、相关性、覆盖率和引用准确性作为成对决策的关键因素。这表明覆盖率在人类评估回答质量中起着关键作用,注释者大多偏好模型生成的答案,以获得更广泛的覆盖性和信息深度。然而,注释者也指出模型提供的引用还有改进空间,指出建议的论文有时过时或不如更具代表性的相关性。讨论为了进一步研究基于LM的系统,帮助科学家应对复杂且不断增长的科学文献综述任务,我们引入了OpenScholar和ScholarQABench。OpenScholar是首个完全开放的检索增强系统,利用开权重大语言模型和训练有素的检索模型,迭代优化科学成果,解决了幻觉和引用准确性等挑战。ScholarQABench 是一个新的大型基准,提供了一种标准化的方法来评估多个科学领域的文献综述自动化。在使用 ScholarQABench 的评估中,OpenScholar 展示了显著的改进,优于现有系统如 GPT-4o 及同时使用的专有系统 PaperQA2。我们在三个科学领域的专家评估显示,OpenScholar生成的答案比专家标注员每个注释者需要一小时的回答更有用。具体来说,OpenScholar使用我们训练好的8B和GPT-4o,分别在面对人工生成答案时达到了51%和70%的胜率。我们将OpenScholar代码、数据、模型检查点、数据存储和ScholarQABench开源,并提供公开演示,以支持并加速未来的研究工作。我们的公开演示已吸引了来自不同科学学科的3万多名用户参与。未来的工作可以通过整合该平台的用户反馈,进一步提升检索质量、引用准确性并优化整体可用性。局限性本节重点介绍了我们工作的若干局限性。需要注意的是,我们并不声称基于LM的系统能够完全自动化科学文献综合。为了进一步推动该领域的研究,我们将向社区发布ScholarQABench和OpenScholar。ScholarQABench的局限性首先,专家注释成本高且耗时,因此我们人类编写的评估集较小(例如计算机科学长题答为110个;专家回答为108个),这可能引入方差和注释者-专业偏差。我们开源数据和注释流程以促进扩展。其次,我们的自动评估可能无法完美捕捉质量。在Scholar-CS中,我们将长度、摘录和评分标准项与启发式权重结合起来。注释者经常要求附加元素(背景、详细说明、挑战),这些并非严格要求,而大型语言模型往往会提供这些,可能导致评分膨胀或利用评分标准样式。尽管与专家判断有良好相关性,评分重点和聚合仍值得精细化。我们的引用准确性和记忆力是句子级别的,当相邻句子带有支持时,可能会过于严格。注释反映了具体时间点(Scholar-CS 为 2024 年 7 月,Scholar-Multi 为 2024 年 9 月);为公平对比,应排除这些日期之后发表的论文。我们建议使用 OSDS 或限制来源至2024年10月的出版物,适用于 ScholarQABench v1,并计划定期更新。第三,ScholarQABench是一个静态的公开基准,增加了未来污染风险。尽管多篇论文综合数据是专家新编写的,但公开可得性可能会在培训或检索中暴露 21,22.我们将继续更新基准并监控其使用情况。最后,ScholarQABench 主要关注计算机科学、生物医学和物理学,未涉及社会科学或其他工程和科学学科。我们认识到,我们的发现可能无法完全推广到其他领域,尤其是那些对纸质数据访问更为有限的领域。OpenScholar 的局限性尽管OpenScholar在ScholarQABench和人工评估中表现出色,如相关章节所述,我们的专家注释者仍指出若干局限性。首先,正如我们的专家注释员强调的,OpenScholar并不能始终为某些查询检索最具代表性或相关的论文。通过引入更多信息(如引用网络或发表新近度等元数据)来增强检索方法,可以显著提升其性能。OpenScholar的输出可能包含事实错误或无支持的信息,尤其是在基于我们8B模型的版本中,该模型在指令跟踪和科学知识方面能力有限。未来的研究可以探索进一步改进OpenScholar-8B的培训。与此同时,尽管竞争激烈,OpenScholar-GPT-4o依赖于通过OpenAI API调用专有GPT-4o,API可能随时间演进,使得精确结果的复现具有挑战性。此外,请注意,OpenScholar在推理时不使用受许可保护的论文。关于如何确保检索增强LM中数据的公平使用仍在持续讨论,关于如何正确纳入版权保护内容的探索,留待未来的工作。我们鼓励未来研究解决这些局限性,并持续改进基于LM的科学文献综述系统。专家评估流程的局限性在我们的人类评估中,注释者对覆盖范围、相关性、组织性和实用性等方面进行了细致评估,而引用准确性和召回率等其他因素则分别评估。因此,在评估实用性或成对偏好时,注释者可能更关注整体写作质量,而忽视了事实正确性或引用准确性。我们将对引用准确性、有效性和事实性的更详细的人文分析留给后续研究。我们的评估由16名博士生和博士后专业人员共同完成,我们努力让他们的专业知识与被评估的主题保持一致。然而,由于研究通常需要深厚的领域知识,注释者可能未能捕捉到其专业领域外问题中更细致的差异。此外,这些评估基于涵盖三大科学学科的108个问题,意味着研究结果可能无法完全推广到其他领域或领域。方法OpenScholarOpenScholar(详见扩展数据图中。1)是一种新的检索增强LM,旨在确保对科学文献中各种信息寻求查询的可靠、高质量回答。任务制定与挑战给定一个科学查询x,任务是识别相关论文,综合其发现,并生成有效回应该查询的答案y。此回复应附有一组引用,C = c1, c2,..., cK,其中每个引用c。i对应于现有的科学论文。每个ciC 语对应科学文献中的具体段落,应作为行内引用提供,并关联到y中相关文本段,遵循科学写作的标准做法。这些引用使研究人员能够追溯到原始文献,确保透明度和可验证性。然而,这项任务面临若干挑战:(1)从庞大的领域特定语料库中检索高召回率、高精度的科学内容;(2)基于检索证据,综合准确且无幻觉的反应;以及(3)生成带有引用感知的输出,使生成文本与适当的参考文献在细粒度层面对齐。另一个挑战是资源的稀缺:据我们所知,大规模、最新的科学语料库资源有限,尤其是适合密集检索的语料库,且缺乏用于科学领域检索和生成的监督训练数据。OpenScholar 概述为应对这些挑战,OpenScholar 引入了若干关键创新,扩展了标准 RAG(参考文献)。 1,5)科学文献综合模型。具体来说,OpenScholar结合了领域专用检索、引用感知生成和一种新的自反馈推理机制,所有这些都建立在一个完全开放且大规模的科学数据存储之上。正式上,OpenScholar 由三个关键组件组成:数据存储 D、检索器 \({R}\) 和生成器 LM \({G}\)。在标准的检索增强推理管道中,过程从 \({R}\) 开始,检索一组段落 P = {p1, p2,..., pN} 来自 D——一个大规模的已发表科学论文语料库——基于输入查询 x 的语义相关性。这些段落为下一步提供了背景。生成元 LM \({G}\) 随后同时取回的段落 P 和输入查询 x,生成输出 y 及其对应的引用 C。形式上,该过程可以表示为:$$y,{\bf{C}}={G}(x,{R}(x,{\bf{D}})),$$其中每个 ci在C中对应P中的一段特定段落。OpenScholar引入了新的技术贡献,以应对上述挑战。(1)为解决大规模、最新科学语料库的缺乏,我们构建了OSDS,这是一个包含4500万篇科学论文的数据库,这些论文带有预先计算的密集嵌入,据我们所知,是目前最大且最新的科学论文数据存储库。(2)为了实现高召回率、高精度检索并支持科学领域的LM训练,我们设计了一个检索流水线,整合了经过训练的OpenScholar检索器和OpenScholar重新排序器,基于科学数据优化,选择前N段作为生成器\({G}\)的补充,并配套检索API,确保覆盖范围更广且相关性更高。(3)为提升事实性和证据基础,我们引入了带有检索和引用验证的迭代自反馈推断,其中LM首先生成初始草稿y0然后通过检索增强自反馈迭代细化。(4)为了提升引用准确性和整体输出质量,我们利用该推理流程生成高质量的训练数据,从而培养出更准确、更懂引用的长篇答案的专业LM。OpenScholar 检索流水线扩展数据图。1(左上角)显示了我们的检索流水线,由一个数据存储D和一个双编码器检索器θ组成双性恋以及一个交叉编码器重新排序器 θ十字架.我们首先选择初始候选段落,使用 D 和 θ双性恋以及外部API,然后用θ细化并识别前N段相关段落十字架.科学论文收集与数据存储建设尽管以往的研究通常使用了一小部分科学论文,例如2023年至2024年的arXiv论文(参考文献:9),拥有多样化的论文集对于提升模型生成的质量和覆盖性非常重要23.为此,我们使用 peS2o(参考文献:24)作为我们的检索来源,该来源包括S2ORC的开放获取学术论文(参考文献:25).我们使用 peS2o v3 构建了数据存储,截至 2024 年 10 月,包含 4500 万篇论文。评估方面,我们使用 peS2o v2,包含截至2023年1月的论文,因为我们的主要基准和模型是在 peS2o v3 策展前构建的。我们的数据存储,称为OSDS,包含2.36亿条文章。据我们所知,这是最大的科学文献开源数据存储库。首段检索我们从三个来源检索段落:(1)使用训练有素的检索器检索OSDS;(2)通过Semantic Scholar API返回的公开论文摘要(参考文献:26)基于搜索关键词;以及(3)通过网络搜索引擎使用原始查询X检索的公开论文文本。对于(1),我们首先使用通道双编码器θ生成OSDS D中每个段落的嵌入双性恋该系统将文本块(例如查询或段落)处理成密集向量27离线。现成的检索模型在域外场景中常常表现不佳28.为克服这一限制,我们发展θ双性恋通过持续预先训练Contriever,29以无监督方式在 peS2o 数据存储中进行,以提升特定领域的检索性能。在推断过程中,我们用θ编码查询双性恋并通过最近邻搜索检索前70条通道27.继之前的工作之后23我们将每篇论文的主文拆分为离散的256字文本块(由空白确定),并将论文标题串接到每个块,以构建D字体中的段落。虽然语义分割可以用来将科学文章划分为有意义的章节,但我们发现并非所有论文都一致保留了这样的语义或话语结构。此外,事后应用分割模型在如此规模下计算成本较高。因此,遵循该领域的常见做法 27,29我们将文章划分为固定长度的块块,以确保可扩展性和简洁性。因此,推理时可以检索同一篇论文中的多个文本块。对于(2),我们首先使用生成器LM从查询x生成关键词。这些关键词随后通过Semantic Scholar搜索API按引用数排名,检索每篇论文的前10篇。这种方法解决了Semantic Scholar API的局限性,该API无法有效处理长篇、类似问题的搜索查询。如果全文有HTML格式(例如ar5iv),我们会检索全文,并将论文中的所有段落作为候选文档。否则,我们只考虑抽象层面。对于(3),我们使用 You.com 检索API获取前10个搜索结果,搜索范围限制在arXiv和PubMed等学术平台。类似于(2),如果论文是开放获取的,我们会提取并将它们的全文添加到候选人库;否则,我们只包含它们的摘要。顶部N段重新排序与最终确定经过初步阶段,我们收集了每个查询中超过一百甚至一千条相关文章。然而,双编码器检索的段落可能包含不利上下文,因为查询与段落之间存在深度交互,因为它们是分开编码的30.即使是最先进的模型,向大型语言模型(LLM)输入可能包含无关内容的大量文档,也会导致效率和性能问题 31,32.为了克服这些挑战,我们使用了跨编码器重新排序器 33,34,记作 θ十字架.对于每个候选段落,交叉编码器重新排序器联合编码并计算输入查询与每段文章之间的相关性分数。然后我们用相关性评分对文章进行相应排名。训练 θ十字架对于科学领域,我们会微调BGE重新排序器34使用Llama-3-70B-Instruct生成的合成数据。具体来说,我们会根据 peS2o 的摘要随机生成查询,并检索前 10 篇文章。对于每篇文章,Llama-3-70B-Instruct 会给出1到5的相关性评分,我们认为4或5分为正面,1或2分为负面。得分为3的段落被淘汰。关于θ的更多细节十字架培训内容见补充信息第3.3节。在重新排序和最终确定前N篇文章时,我们还实施了额外的元过滤,包括:(1)将每篇文章的文章数量限制为三篇,(2)将归一化的引用计数纳入交叉编码器预测的相关性评分中。 |
| [返回] |