通过集成 LLM 和人机回圈进行知识图谱验证 |
来源:一起赢论文网 日期:2025-05-10 浏览数:108 【 字体: 大 中 小 大 中 小 大 中 小 】 |
通过集成 LLM 和人机回圈进行知识图谱验证
作者链接 打开叠加面板
斯特凡尼·萨内瓦一个
,
达尼洛·德西b 1
,
弗朗切斯科·奥斯本c d 1
,
玛尔塔·萨布一个
一个
维也纳经济与商业大学数据、过程和知识管理研究所,Welthandelsplatz 1, 1020, 维也纳, 奥地利
b
沙迦大学城计算机与信息学学院计算机科学系,阿拉伯联合酋长国沙迦
c
英国米尔顿凯恩斯开放大学知识媒体研究所,Walton Hall, MK7 6AA
d
米兰比可卡大学商业与法律系,Via Bicocca degli Arcimboldi 8, 20126, 米兰, 意大利
接收日期:2024 年 9 月 14 日,修订日期:2025 年 2 月 26 日,接受日期:2025 年 3 月 10 日,在线提供日期:2025 年 4 月 9 日,记录版本:2025 年 4 月 9 日。
这些日期是什么意思?
显示简要信息
大纲
添加到 Mendeley
共享
引用
https://doi.org/10.1016/j.ipm.2025.104145
获取权利和内容
根据 Creative Commons 许可
开放获取
突出
•
LLM 作为独立的知识图谱验证器表现出较弱的性能。
•
LLM 与其他自动验证方法相结合,可达到人类水平的质量。
•
人工与 LLM 协作在精度和召回率之间取得平衡。
•
HiL 参与自动验证者之间的冲突减少了手动工作。
抽象
确保知识图谱 (KG) 的质量对于它们支持的智能应用程序的成功至关重要。大型语言模型 (LLM) 的最新进展已经证明了在各种任务中具有人类水平的性能,这引发了人们对它们在 KG 验证中的潜力的质疑。在这项工作中,我们探讨了 LLM 在以人为中心的 KG 验证工作流程中的作用,研究了 LLM 和领域专家之间的不同协作策略。我们提出并评估了九种不同的方法,从全自动验证到将专家监督与 AI 协助相结合的混合方法。这些工作流在用于生成计算机科学知识图谱 (CS-KG) 的实际 KG 构建管道中进行了测试,计算机科学知识图谱是一种大型资源,旨在支持趋势预测和假设生成等科学计量任务。CS-KG 包括 4100 万条语句,在计算机科学领域中表示 3.5 亿个三元组。我们的研究结果表明,将 LLM 集成到 CS-KG 验证过程中可将精度提高 12%,从而提高与专家级验证的一致性。然而,这是以召回为代价的,导致 F5 总分下降 1%。相比之下,同时涉及人机交互和 LLM 模块的混合方法会产生最佳的整体结果,将 F1 分数提高 5%,而人工参与最少。
上一篇
下一篇
关键字
知识图谱验证大型语言模型混合人类 AI 工作流
1. 引言
知识图谱 (KG) 是构建领域知识的概念模型,从各种来源集成,并以机器可读和可理解的格式存储(Hogan et al., 2021, Peng et al., 2023)。幼儿园被用于各种智能应用(Paulheim,2017)支持任务,如问答(Yani & Krisnadhi,2021,推荐系统,Guo等人,2020,和探索性搜索(Nuzzolese,Presutti,Gangemi,Peroni和Ciancarini,2017)。基于KG的解决方案已被各个领域采用,如医学(李等人,2020年),生产和制造(Wang等人,2024年,徐和党,2023年),旅游(Chessa等人,2023年)和教育(Su & Zhang,2020年)。).在科学计量学领域,科学 KG 最近作为科学著作基于知识的内容探索的解决方案引起了极大的兴趣(Dessí 等人,2022b,Dessì 等人,2020 年,Jaradeh 等人,2019 年,Meloni 等人,2023 年,Sakor 等人,2023 年).一些拟议的科学知识图谱是人工策划的,确保了这些资源的高质量,例如开放研究知识图谱(Jaradeh et al., 2019)。其他方法则优先考虑科学领域的高覆盖率,并且是通过自动化方法生成的,例如 COVID-19 知识图谱(Sakor et al., 2023)和计算机科学知识图谱(Dessí et al., 2022b)。
虽然自动化 KG 生成允许集成来自大量来源的内容并提供对给定领域的广泛覆盖,但生成的资源可能会面临质量问题,例如包含错误、不一致或误导性的事实(Paulheim,2017 年,Zaveri 等人,2013 年).为了确保依赖构建的 KG 的系统成功,知识图谱验证是集成到 KG 生成管道中的重要步骤。
在此背景下,已经提出了各种 KG 质量评估方法。在 Xue 和 Zou (2023) 中,作者概述了最先进的验证技术,分为依赖统计(例如,异常值检测和 KG 嵌入)或规则(例如,基于本体的规则)的自动化方法,以及依赖于人在回路 (HiL) 的方法,例如众包。虽然一些 KG 生成管道包含一个集成的自动化验证阶段,但基于 HiL 的 KG 验证技术不能很好地扩展(Paulheim,2017 年,Xue 和 Zou,2023 年),因此经常被排除在外或被设想为未来的扩展。
最近,大型语言模型 (LLM) 在各种自然语言处理任务中表现出类似人类的性能,显着减少了人工干预的需求(Chiang 和 Lee,2023 年,Sallam 等人,2024 年)。因此,知识工程领域的几项工作,例如 Allen 和 Groth,2024 年,Fathallah 等人,2024 年,Khorashadizadeh 等人,2023 年,Tsaneva,Vasic 等人,2024 年,都受到了启发,报告了在语义资源(即本体论、KGs)评估方面的有希望的 LLM 性能。然而,所进行的实验在应用领域的简单性、评估资源的小规模和缺乏全面的实验调查方面受到限制。此外,仍有许多悬而未决的问题:(i) 应该如何评估拟议的基于 LLM 的方法?(ii) 应如何将基于 LLM 的方法整合到真正的 KG 的生成中?(iii) 这些解决方案能否完全取代或仅支持人工验证者?
本文主要解决上述问题 (iii),探讨如何最好地将 LLM 和 HiL 结合起来进行 KG 验证。具体来说,我们调查了以下两个研究问题。
RQ1:结合 LLM 和 HiL 贡献者来验证大型知识图谱有哪些不同的方法?我们研究了新颖的 KG 验证工作流程,结合了 HiL 和 LLM 验证,以提高 KG 生成管道的性能。我们的工作基于先前对来自一系列自动化级别的协作人类 LLM 工作流程的研究,Faggioli 等人(2023 年)提出了相关性判断任务,我们将其用于 KG 验证。因此,我们提出了九种不同的验证工作流程——三个完全依赖人工判断的工作流程,三个涉及人类专业知识和 LLM 结合的混合解决方案,以及三个基于 LLM 的全自动验证管道。每个工作流程都针对特定的评估目标以及 HiL 和 LLM 资源的可用性量身定制,以提供跨不同用例的适应性。
RQ2:人类-LLM 协作知识图谱验证工作流程的优势和局限性是什么?据我们所知,之前尚未对用于 KG 验证的混合人机工作流程所涉及的权衡进行过实证调查。因此,我们对代表一个非平凡领域的大规模资源进行了两项实验调查,以收集经验证据并促进将所实现的性能与每个工作流程进行直接比较。
为了探索 RQ1 和 RQ2,我们将计算机科学知识图谱 (CS-KG) 的验证视为我们的用例。CS-KG 是一个科学知识图谱,从 6.7M 出版物自动生成,通过实现对研究动态的探索来支持研究人员和资助机构(Dessí et al., 2022b)。我们之所以选择这个 KG,是因为它与各种应用的相关性、对科学概念和领域的广泛覆盖,以及它对作者所熟知的领域的关注。此外,CS-KG 是使用一种开放式方法构建的,该方法已经集成了一些验证技术,我们可以在分析中利用这些技术。具体来说,CS-KG是使用SCICERO管道生成的(Dessí, Osborne, Recupero, Buscaldi和Motta, 2022a),该管道从文献中提取科学陈述并将它们表示为形式的三元组。
主语, 谓语, 宾语
例如
云服务, 收购, 信息整合
或
文本分类, 包括, 文本处理
.SCICERO 包括一个自动化验证阶段,我们通过将其与 HiL 技术、LLM 来源的验证或它们的组合集成来扩展它。随后,我们评估了这些 SCICERO 扩展在一组
三元组。
我们的结果表明:(1) 基于 LLM 的验证可以将精度从 75% 提高到 87%,而无需任何手动验证工作;(2) 全手动和全自动验证方法都在精度和召回率之间进行权衡;(3) 混合方法,仅在自动化方法之间存在分歧时利用 HiL,以最少的手动工作实现高达 80% 的较小精度改进,总体最高 F1 分数达到 82%(与 SCICERO 相比为 +5%)。
本文的其余部分结构如下。第 2 节回顾了该领域的相关研究。第 3 节介绍了 CS-KG 及其提取管道 SCICERO。在第 4 节中,我们提出了 SCICERO 的扩展,涵盖了从纯粹基于 HiL 的验证到纯粹基于 LLM 的验证的一系列自动化级别。第 5 节详细介绍了为评估这些扩展工作流程而进行的两项实验的设计。实验结果在第 6 节中讨论,然后在第 7 节中得出结论和未来的工作方向。
2. 相关工作
虽然尚未提出用于验证知识图谱的 human-LLM 框架,但已经设计了一些用于语义资源(即本体、知识图谱)的可扩展验证的半自动方法。第 2.1 节回顾了几项此类工作,概述了最先进的人机协同方法。在 2.2 节中,我们探讨了自动三重验证方法,特别关注了最近旨在提高语义资源质量的基于 LLM 的技术。最后,第 2.3 节通过概述检查跨各个领域的人机工作流协作水平的研究,为本文中提出的人工 LLM 工作流奠定了基础。
2.1. 语义资源评估工作流程
与完全自动化的方法相比,完全手动的 KG 创建过程(涉及训练有素的领域专家和知识工程师)可以生成更高质量的资源。然而,可扩展性成为一个重大挑战,尤其是对于大型 KG。作为替代方案,可以将以人工为中心的 KG 验证(通常意味着人工贡献者将三元组注释为 true 或 false)包含在自动创建工作流程中,以确保删除错误表示的语句。已经出现了几个研究方向,试图从不同的角度来解决这个问题。
半自动 KG 生成。
人机回环方法已作为 KG 提取工作流程的最后一步纳入,包含一定程度的自动化。例如,在 Lossio-Ventura 等人(2018 年)中,HiL 验证是作为医学文献中三重提取步骤的一部分进行的,以消除嘈杂的三元组。Rumin1 和 Mekterović (2019) 中也描述了类似的工作流程,其中人工判断被添加为 KG 提取工作流程的最后阶段。虽然这些工作避免了创建 KG 的手动工作,但它们在验证阶段引入了瓶颈。
HiL 注释的三重选择。
已经实施了几种方法来减少需要手动验证的三元组的数量。在 Demartini、Difallah 和 Cudré-Mauroux (2013) 中,进行 HiL 注释以验证实体链接预测任务的结果,只有当预测置信度分数低于某个阈值时,才会验证三元组。Li et al. (2017) 采用了类似的方法并结合进一步的矛盾推理来选择要手动注释的三元组。
HiL 注释的三重优先级。
Ojha 和 Talukdar (2017) 也讨论了 HiL 要检查的三元组的最小化,其中三元组根据额外三元组的数量确定优先级,其正确性可以从注释中推断出来。Gao et al. (2019) 和 Qi, Zheng, Hong, and Zou (2022) 通过优化手动注释和计算工作的成本和持续时间,继续开展了这项工作。
HiL 协助。
Pomp、Lipp 和 Meisen (2019) 提出了一个专注于协助人工验证者的半自动工作流程。在这种方法中,人工贡献者由一个自动工具提供帮助,该工具使用推理根据先前验证的约束和已识别的不一致提供建议。
在上述示例中,KG 验证任务由人工注释者执行,而自动化方法要么生成要检查的三元组(Lossio-Ventura 等人,2018 年,Rumin1 和 Mekterović,2019 年),旨在减少要验证的三元组的数量(Demartini 等人,2013 年,Gao 等人,2019 年,Li 等人,2017 年, Ojha 和 Talukdar,2017 年,Qi 等人,2022 年),或协助人类注释者提供自动建议(Pomp 等人,2019 年)。同时,已经研究了各种自动化 KG 验证技术,我们接下来对此进行了总结。
2.2. 语义资源的自动验证
自动 KG 提取方法通常面临结果资源的范围和质量之间的权衡(Paulheim,2017 年)。因此,出现了几个专注于语义资源的自动验证的研究方向,特别是解决完成和错误检测等任务(Paulheim,2017)。
相关工作遵循各种方法处理这些任务,例如利用KG嵌入(Bordes等人,2013年,Dettmers等人,2018年,Nickel等人,2012年),图形特征(Borrego,Ayala,Hernández,Rivero和Ruiz,2021年)或变压器(Dessí等人,2022a,Jaradeh等人,2021年, Yao et al., 2019),用于将新生成的三元组分类为有效或无效。例如,对于 KG 完成,在 Jaradeh 等人(2021 年)中,分类器在现有的 KG 三元组上进行训练,随后应用于评估新生成的三元组的有效性。同样,在 Dessí et al. (2022a) 中,分类器在 KG 的可靠子集上进行训练,然后用于确定不确定的三元组是否是错误的。
然而,最近,LLM 在任务上表现出令人印象深刻的人类水平表现,通常由各个领域的人类贡献者完成(Chiang 和 Lee,2023 年,Sallam 等人,2024 年),无需额外培训。因此,接下来,我们将讨论语义 Web 领域中基于 LLM 的相关方法,重点是语义资源的验证。
使用 LLM 验证语义资源。
在过去的几年里,LLM 吸引了语义 Web 社区的大量研究兴趣。LLM 已被广泛探索用于一些知识工程任务,例如创建或完成语义资源,例如,Carta 等人,2023 年,Trajanoska 等人,2023 年,Zhang 等人,2023 年,Zhu 等人,2024 年。然而,使用 LLM 评估语义资源直到最近才受到兴趣。
在 Khorashadizadeh 等人(2023 年)中,作者在他们的 KG 生成工作流程中使用 LLM 进行了三重验证步骤。然而,他们没有提供有关这种验证方法性能的定量细节,也没有将其与其他方法进行比较。
在Fathallah等人(2024年)中,重点是设计一个生成本体的提示链,包括一个验证阶段,通过外部服务(如OOPS Poveda-Villalón,Gómez-Pérez和Suárez-Figueroa,2014年和一个本体推理器)来识别错误,并由LLMs进行纠正。本文介绍了 Wine Ontology 生成过程中成功纠正的几个例子。2但是,作者没有具体说明验证性能是否在具体的实验设置中进行了测试。
Tsaneva、Vasic 等人(2024 年)研究了通过 LLM 识别本体建模缺陷的方法。虽然该研究报告的验证准确率为 96%,但进行的实验依赖于 Pizza Ontology 的小型数据集。3
在 Tsaneva、Herwanto 和 Sabou (2024) 中,作者提议开发知识工程任务特定的评估测试,并根据它们验证本体公理的能力来评估各种 LLM。该基准测试旨在评估 LLM 能力,从通常用于众包工作者的资格测试中汲取灵感。
在Allen和Groth(2024)中,作者使用LLMs调查了本体论中不正确和缺失的类成员关系。他们试验了从一般领域和各种 LLM 的公共知识图谱中提取的关系。但是,数据集大小和检查的关系类型是有限的。
最近,在 Regino 和 Dos Reis (2025) 中,探索了对新生成的 KG 三元组进行基于 LLM 的验证,重点是不一致检测。作者研究了四个基本方面:对齐类和属性、标准化 URI、确保语义一致性以及验证语法准确性。
虽然回顾的文献表明 LLM 在验证语义资源方面的潜力,但所提出的方法仍处于初步阶段,在小型数据集上进行测试或缺乏实验评估。此外,缺乏探索如何将设计的解决方案最好地集成到现有 KG 生成管道中的研究,即它们是否可以完全取代以前的自动化/手动方法,或者它们应该作为补充工具。
2.3. 人机协作工作流程
在知识图谱验证领域,一项研究将验证方法分为基于人工注释、统计/学习、规则和混合方法的方法,这些方法结合了这两种或多种方法(Xue & Zou, 2023)。作者认为,混合方法有可能克服每种单独方法的局限性。虽然在语义 Web 社区中缺乏对人机协作的深入研究,但人类贡献者和自动化方法之间可能的交互已经引起了各个社区的研究兴趣。
在医疗领域的道德决策中,已经探索了协作工作流程,展示了人类-人工智能混合团队中的角色和责任(van Stijn,Neerincx,ten Teije和Vethman,2021)。这项工作突出了每个代理(人类或 AI)的参与程度,以及在工作量、问责制和道德问题方面的预期优缺点。
最近的一篇定位论文确定了人类注释者和 LLM 之间在相关性判断任务中的不同程度的合作(Faggioli 等人,2023 年)。作者讨论了与传统 HiL 方法相比,使用 LLM 注释的影响,同时考虑了预算和质量等因素。他们讨论了从全手动到全自动方法的潜在好处和场景实施(Faggioli et al., 2023),分为以下几类:
•
人工判断意味着 (1) 注释是由人类参与者手动完成的,他们在没有任何支持的情况下执行任务,或者 (2) 人工注释者由工具(例如,文档聚类)提供支持,但最终仍然是三重正确性的唯一判断者。
•
AI 协助可以通过不同的责任级别以各种方式实施。例如,LLM 可用于生成摘要或其他上下文信息,以帮助人工评委进行注释。此外,可以建立任务分区,其中每个代理都专注于适合其功能的任务。
•
人工验证描述了人机协同工作流程,其中人工参与者判断自动化方法的结果并在需要时进行纠正。由 “偏好测试” 概念驱动的一种新颖的实现表明,两个 LLM 可以提供判断,人类参与者可以选择更相关的示例。
•
完全自动化的工作流程将 LLM 判决视为可靠的来源,可以完全取代人工法官。
在这项研究中,我们考虑了文献中确定的交互工作流程,并为应用于具体用例的各种协作工作流程提供了实验结果:自动提取的三元组的验证,这是计算机科学知识图谱的一部分,我们将在下一节中介绍。 |
[返回] |