欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033
微信:paperwinner
工作时间:9:00-24:00
博士论文
当前位置:首页 > 博士论文
模拟前三思:用于编排反事实问答神经计算的符号推理
来源:一起赢论文网     日期:2025-06-14     浏览数:7     【 字体:

 模拟前三思:用于编排反事实问答神经计算的符号推理

 
关于视频动态的因果和时间推理是一个具有挑战性的问题。虽然将符号推理与基于神经的感知和预测相结合的神经符号模型显示出前景,但它们表现出局限性,尤其是在回答反事实问题方面。本文介绍了一种增强反事实推理的神经符号模型的方法,利用关于事件之间因果关系的符号推理。我们定义了因果图的概念来表示这种关系,并使用声明式逻辑编程方法答案集编程 (ASP) 来找到如何协调感知和仿真模块的方法。我们在 CLEVRER 和 CRAFT 这两个基准上验证了我们的方法的有效性。我们的增强功能在 CLEVRER 挑战赛中实现了最先进的性能,明显优于现有模型。在 CRAFT 基准测试的情况下,我们利用一个大型预训练语言模型,例如 GPT-3.5 和 GPT-4,作为动态模拟器的代理。我们的研究结果表明,这种方法可以通过提供由符号因果推理指导的替代提示来进一步提高其在反事实问题上的性能。
 
1介绍
识别物体运动并推理其动态的能力是人类认知的一个基本方面[29].深度神经网络在识别复杂视觉和语言输入中的模式方面取得了显著进展[24,11,20,25],但回答涉及视频动态中时间和因果结构的问题仍然是 AI 中的重大挑战。在处理假设问题(例如预测性和反事实问题)时尤其如此[30,32,22]. 为了强调这个问题,Yi 等人。[32]引入了一个具有挑战性的基准测试,称为 CLEVRER1.这包括四种类型的问题,内容涉及以各种物体运动为特色的视频,每种类型的问题的形状、颜色和材料都不同。他们观察到,以前最先进的可视化 QA 端到端模型,例如 TbD-Net[19]、MAC[12]和 IEP[13]在 CLEVRER 基准测试中表现不佳。作为回应,他们提出了一种名为 NS-DR 的神经符号混合 AI 模型,该模型的性能优于这些模型。关键策略包括将 (i) 识别对象和事件并模拟对象动态的神经组件与 (ii) 聚合神经组件输出并应用符号逻辑来回答自然语言问题的符号组件集成。沿着相同的架构进行了进一步的改进,增强了神经组件以实现更准确的感知和预测。例如,VRDP[9]包含一个可微物理引擎,该引擎可以推断显式物理属性,并利用这些知识来产生更好的模拟。然而,这些模型仍有改进的空间,特别是在反事实问题方面。
 
另一方面,最近一个名为 Aloe 的端到端神经模型[8]基于自我注意机制的 S S 模型与早期的神经模型相比,已显示出显著的性能改进。ODDN-Aloe 进一步支持了这一发现[28],其性能与 VRDP 相当。但是,需要注意的是,这些神经模型仍然缺乏通常需要的透明度和可解释性。
 
在本文中,我们认为以前的神经符号模型没有充分利用神经符号方法的优势。我们建议在前面加入符号推理,而不是仅使用符号推理来聚合来自神经组件的信息,并在神经感知和神经模拟之间进行协调。 具体来说,对于反事实问答,我们的方法通过观察视频并考虑反事实问题中干预的对象来构建因果图。然后,我们计算此更改的因果效应,并仅在需要时使用结果触发模拟,从相关帧开始。这与以前的神经符号模型形成鲜明对比,后者从一开始就盲目地应用模拟。对于因果图的计算,我们使用答案集规划 (ASP)[15,4],一种声明性逻辑编程方法。 我们声称,只要感知比模拟更准确,我们的方法就会增强基线,而大多数基线通常是这种情况。 此外,即使使用相同的感知和模拟模块,我们的模型也优于基线神经符号模型。
 
我们通过将方法应用于两个基准 CLEVRER 和 CRAFT 来验证该方法的有效性[2].对于 CLEVRER 任务,我们还通过使用额外的模块来增强基线模型的回答,这要归功于神经符号架构的模块化。因此,我们在 CLEVRER 上实现了最先进的结果,性能优于上述所有模型。
 
我们还发现了大型语言模型 (LLM) 的一个有趣的用例。 我们的方法假设模拟器可用,但我们找不到 CRAFT 数据集的公开可用模拟器。我们没有构建新的模拟器,而是使用 LLM,例如 GPT-3.5 和 GPT-4[5,21]作为代理模拟器。 我们提供 GPT-x (x
{
3.5
,
4
}
) 替换为数据集中场景的自然语言描述,并使用它来回答反事实问题。 令人惊讶的是,原版 GPT-x 推理在视觉场景的文本描述方面表现出合理的性能。此外,通过应用我们的方法,我们可以通过确定是否可以使用事实状态来回答反事实问题,从而进一步提高性能,如因果图所示。 由于 GPT-x 比反事实问题更有效地处理事实问题,因此我们的方法显着提高了 GPT-x 答案的准确性。从本质上讲,我们的方法可以被认为是一种提示 GPT-x 提出反事实问题的新方法。
 
总之,本文首先介绍了一个图形模型,该模型将事件之间的因果关系和时间关系形式化。其次,我们使用声明式编程语言 ASP 实现模型的计算,用于改进反事实事件预测。第三,我们通过在 CLEVRER 上实现最先进的性能来证明我们方法的有效性。最后,我们展示了 LLM 的视觉推理能力,并展示了如何通过我们的反事实推理方法进一步增强它。
[返回]

下一篇:通过基于 LLM 的动态航路点生成实现强大的移动机器人路径规划