欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033
微信:paperwinner
工作时间:9:00-24:00
机械论文
当前位置:首页 > 机械论文
人工和生物神经网络中语言语境的增量积累
来源:一起赢论文网     日期:2025-02-11     浏览数:138     【 字体:

 人工和生物神经网络中语言语境的增量积累

 
大型语言模型 (LLM) 在预测与叙事处理相关的神经信号方面已显示出成功,但它们在大时间尺度上整合上下文的方法与人脑的方法有着根本的不同。在这项研究中,我们展示了大脑如何与并行处理大型文本窗口的 LLM 不同,它如何通过增量机制整合短期和长期上下文信息。使用来自 219 名参与者聆听口语叙述的 fMRI 数据,我们首先证明 LLM 只有在使用最多几十个单词的短上下文窗口时才能有效地预测大脑活动。接下来,我们介绍了另一种基于 LLM 的增量上下文模型,该模型将传入的短期上下文与先前上下文的聚合、动态更新的摘要相结合。该模型显着增强了对长期尺度处理中涉及的高阶区域中神经活动的预测。我们的研究结果揭示了大脑的分层时间处理机制如何随着时间的推移实现信息的灵活整合,为认知神经科学和 AI 开发提供有价值的见解。
 
其他人正在查看类似内容
 
人类语言处理和深度语言模型的共享计算原理
文章 开放获取 07 三月 2022
 
通过叙述文本的自然语言处理,通过深度学习解释人类听众的神经活动
文章 开放获取 25 十月 2022
 
人脑听语音中存在预测编码层次结构的证据
文章 开放获取 02 三月 2023
介绍
认知神经科学的最新工作证明了计算大型语言模型 (LLM) 在预测人类语言诱发的神经信号方面的能力1,2,3,4,5,6,7,8,9,10.LLM 彻底改变了自然语言处理 (NLP) 领域,在许多语言任务中展示了人类和超人类水平的性能11、12、13.这些模型能够生成丰富的语言表示,通过多维数字向量(也称为单词嵌入表示)来表示。这些表示也是上下文化的,因为单词的嵌入表示可以根据它出现的上下文(即输入文本中的前面单词)进行更改。越来越多的研究表明,这些上下文表示可以线性映射到人类参与者聆听口语叙述时记录的神经信号(例如 fMRI、EEG、ECoG)——这种分析通常称为神经编码4、7、8、10.在这种方法中,通过向 LLM 提供该单词以及前面 N 个单词的上下文窗口,为叙述中的每个单词提取一个上下文化的单词嵌入向量(图 D)。然后,提取的向量用作线性回归模型的输入,该模型预测相应单词诱发的神经信号。神经编码方法的成功,以及利用 LLM 中上下文信息的类人认知机制,表明 LLM 的内部语言表征和过程可以阐明人脑中语言的内部神经表征和过程10、14、15 元.
 
图 1:大脑中的上下文处理与大型语言模型。
图 1
a The neuroanatomical hierarchical organization according to multiple timescales of processing. Partially adapted from ref. 18经作者许可。b 我们提出的在时间尺度层次结构的顶层整合长期上下文信息的神经机制。c 通过大型语言模型 (LLM) 实现上下文集成的基线。该模型将向整个传入的上下文窗口公开,并以并行方式对其进行处理。d 我们提出的通过 LLM 进行上下文集成的替代模型。增量上下文 LLM 不是一次处理整个上下文窗口,而是沿着故事顺序应用。LLM 通过生成过去的简明摘要来积累长期的上下文信息,并在每个步骤中将此摘要与传入的上下文窗口集成,并更新摘要以用于下一步(参见图 2 中的更多详细信息)。3 和 S3)。
 
全尺寸图像
然而,将 LLM 视为认知模型的缺点之一在于这些模型处理自然文本的方式,例如故事或叙述,这些文本在很长的时间尺度上展开。与人脑相比,LLM 使用固定大小的上下文窗口消化大量文本,包括数千个并行单词。感谢带下划线的注意力机制16,LLM 可以并行学习所有单词之间的上下文依赖关系。相比之下,随着语音和文本随着时间的推移而展开,人脑会逐字逐句地连续处理传入的语言输入。此外,在听长篇叙述时,人类没有能力将自叙述开始以来处理过的所有成百上千个单词保存在他们的工作记忆中。相反,人类运行着一种在线机制来积累信息并将其整合到更广泛的情境记忆中,该记忆会随着故事的展开而改变和更新17,18 元.在这项研究中,我们旨在为大脑如何在短期和长期环境中整合语言信息提供一种替代模型,而不是当前的 LLM。
 
一系列研究表明,大脑以地形分层方式逐渐整合跨皮层区域的时间信息。在这样的地形中,颞叶感受窗 (TRW) 沿着皮层处理层次结构逐渐增加,早期感觉区域在短时间内(数十到数百毫秒)将语音相关信息(例如音素)整合到单词中。然后,相邻的皮层区域在几秒钟内将单词级信息整合到句子中,并将信息传输到相邻区域,后者将句子整合到段落中。最后,位于时间整合层次结构顶部的默认模式网络 (DMN) 沿线的区域可以通过整合随着故事展开而积累数百秒的信息,将相关过去信息整合到一个连贯的叙述中(图 D)。1 个)18、19、20 元.这种时间处理分层地形提供了一种替代处理方案,用于在 DMN 中集成随时间推移的短期和长期语言信息(图 D)。1b)。
 
我们假设,与处理数千个单词的大型上下文窗口的 LLM 不同,DMN 网络可以通过一个只有几十个单词的小窗口接收有关传入上下文 (IC) 的信息(图 D)。为了检验这一假设,一组参与者在接受 fMRI 扫描时听了几个口语故事(总共记录了 297 名个体的 219 次扫描)。然后,我们设计并实施了几个编码模型,在将 LLM 的上下文窗口大小从几个单词参数调整到一千个单词后,使用从 LLM 中提取的上下文嵌入来预测它们的 BOLD 响应。我们凭经验证明,LLM 和大脑之间的拟合度随着 LLM 的上下文窗口大小超过数十个单词而减小,并且当上下文窗口大小的长度为 ~32 个标记时,就会获得最大拟合。这个结果支持了我们的预测,即传入大脑的上下文信息整合了几句话的信息。
 
接下来,我们假设在时间 n (ICn)与聚合上下文信息 (ACn−1) 已经积累在 DMN 中(图 D)。在故事的开头,还没有积累任何上下文信息,累积的上下文与 IC (AC1= 集成电路1).随着故事的展开,累积的上下文信息是传入的上下文信息和聚合的上下文信息的总和。为了检验这一预测,我们提出了一种替代的基于 LLM 的增量上下文模型,该模型融合了传入的短期上下文 (ICn)替换为聚合上下文 (ACn-1).通过要求 LLM 生成传入上下文信息的简明摘要来作聚合的先前上下文——该摘要会随着模型在叙述中的进展而逐渐更改和更新(见图1d 和 3b、S3 和方法)。在传入信息中添加聚合上下文信息的摘要大大提高了我们在处理所有叙述时预测大脑中 BOLD 反应的能力,这种改进主要在 DMN 中的高阶区域中很明显。综上所述,我们的结果表明,DMN 不断进行在线总结,并将段落级传入的上下文信息与几分钟、几小时甚至几天内积累的信息进行整合。这种在线总结和整合为大脑提供了灵活整合在多个时间尺度上积累的信息的必要能力,而目前许多 LLM 的固定上下文窗口架构中缺乏这种能力。
 
结果
概述
结果和分析分为三个连续阶段。首先,我们进行了一项系统分析,以研究增加 LLM 输入的 IC 窗口大小对从 LLM 嵌入表示预测 fMRI 信号的能力的影响。为此,我们应用了成熟的神经编码分析7、8、10并测试了其性能,同时将上下文窗口的大小从 8 个令牌更改为最大可能的大小 2048 个令牌。在第二阶段,我们介绍了增量上下文模型,它结合了短期 IC 窗口和长期聚合上下文。然后,我们测试了我们的模型在预测大脑活动方面的性能,与具有长或短 IC 窗口的基线 LLM 相比。最后,在第三个互补阶段,我们对每个大脑区域的 BOLD 信号进行了频谱分析,以估计信息变化的速度/速度——这种测量相当于估计大脑区域在当前处理的先前上下文的数量。根据这项分析的结果,我们确定了利用长/短上下文窗口的大脑区域,并测试了我们的增量长期上下文模型是否比短期上下文模型更好/更差地预测了他们的活动。以下各节详细介绍了所有这些阶段。
 
IC 在大脑中通过小的上下文窗口进行处理
来自 Narratives fMRI 数据集21,我们从 219 名被动聆听叙事刺激的个体中提取了数据。数据包含来自 8 个不同的相对较长故事/叙述(~7 分钟或更长时间)的总共 297 次扫描,总共包含 15,978 个标记(参见表 S1 和方法)。使用最先进的开源 GPT-3 类模型 (GPT-neoX) 为每个故事创建词嵌入表示22),随后通过完善的神经编码分析来预测从听该故事的个体那里记录的神经信号7、10、23(请参阅方法)。神经编码分析是在 9258 个刺激锁定体素(即产生显着主体间相关性分数的体素,参见方法)中逐体体素应用的。我们系统地测试了模型的预测,同时改变了模型在词嵌入提取过程中暴露的先验上下文的数量(即标记的数量)。我们测试了以下上下文窗口大小:8、16、32、64、128、256 和 512 个标记,以及包含整个叙述的最大窗口大小(最多 2048 个标记;这个大小因叙述而异,见表 S1)。神经编码器模型对每个窗口大小、扫描和体素使用五重交叉验证进行训练和测试,如方法部分所述。
 
结果的模式很明确。如图 1 所示。2 表示,随着窗口大小的增加,神经编码器的性能(通过原始信号和预测信号之间的平均 Pearson's r 相关性来衡量)越来越好,但仅限于 32 个标记的窗口大小。但是,从那时起,性能往往会随着窗口大小的增加而降低,最终达到 128 个令牌以上的平台。这种模式反映在平均 r 分数具有统计学意义的皮层区域的范围上(从窗口大小 = 32 个标记时跨颞叶、顶叶和额叶区域的体素大簇到较大窗口大小的顶叶中只有几个小簇;见图2a) 以及平均 r 分数的量级(范围分别为 -0.02 到 0.02、0.00 到 0.13、-0.01 到 0.15、-0.01 到 0.07、-0.02 到 0.08、-0.01 到 0.063、-0.03 到 0.069 和 0.00 到 0.07,窗口大小分别为 8、16、32、64、128、256、512 和 Max 标记)。图 1 中演示了相同的模式。2b 表示五个选定的体素,每个体素都来自不同的语言相关感兴趣区域 (ROI)。当使用(相对)较旧的 GPT-2 模型时,这些结果几乎相同,如图 2 所示。S1 的此外,在图 1 中。S2 我们表明,其他专门为长上下文设计的 LLM 也观察到大型上下文窗口 LLM 在预测大脑方面的失败:长 T524、变压器 XL25和 Longformer26.
 
图 2: 输入到 LLM 的上下文窗口大小(以 # 个标记为单位)对其预测神经信号能力的影响。
图 2
a 不同窗口大小的皮层图显示体素,其中神经编码器分数(在预测信号和原始信号之间计算的 Pearson r 在预测信号和原始信号之间计算,在 297 次 fMRI 扫描中平均)使用非参数 Wilcoxon 符号秩检验和 FDR 校正具有统计学意义。b 按窗口大小计算的五个不同体素的平均 r 分数,每个体素都位于左半球不同的语言相关感兴趣区域 (ROI) 中。误差线表示通过 10,000 次迭代 bootstrap 分析计算的平均值的 95% 置信区间。解剖位置以 MNI 坐标的形式提供。c 皮层图显示了使用 32 个标记的窗口大小比使用最多 2048 个标记的窗口大小(红色区域)预测的 ROI 明显更好,反之亦然(绿色区域)。A1 初级听觉皮层、STG 颞上回、IFG 额下回、TPJ 颞顶交界处。源数据作为 源数据 文件提供。
 
全尺寸图像
为了进一步验证结果,我们还对 32 个代币的短窗口大小和最多 2048 个代币的最大长窗口大小进行了直接比较。对于每个体素,我们计算了 \({\Delta r}_{32{tokens}-{MAX\; tokens}}\),它等于从窗口大小为 32 个令牌的 LLM 获得的平均 r 分数,减去从窗口大小高达 2048 个令牌的 LLM 获得的平均 r 分数。结果地图产生了 2594 个重要的体素,所有这些体素都有利于短窗口大小(即正 \({\Delta r}_{32{tokens}-{MAX\; tokens}}\) 值;qFDR < 0.05;最大值 = 0.028,平均值 = 0.01,SD = 0.004;无花果。2c 红色区域)。没有一个体素显示出显著的负 \({\Delta r}_{32{tokens}-{MAX\; tokens}}\) 值 (qFDR>0.05)。
 
上述结果表明,固定大小的上下文 LLM 在预测与语言相关的 BOLD 响应方面的成功仅在编码信息与相对较短的上下文窗口相关时有效,相当于几个句子的时间尺度。此外,如图 1 所示。2,这种限制不仅在时间区域观察到,而时间区域以前与较短的时间尺度有关19,20 元,但也在与较长时间尺度相关的 DMN 的高阶区域中被发现。这证实了我们的第一个假设,即大脑的 IC 仅限于包含多达数十个单词的小上下文窗口,因为与 LLM 不同,大脑无法并行计算成百上千个标记。在下一节中,我们将介绍一种替代模型,它能够以顺序和增量的方式整合和维护非常长的上下文信息——类似于我们认为人脑的功能。
[返回]
上一篇:多模态数据的特征提取方法和步骤
下一篇:深度神经网络具有内置的奥卡姆剃刀