| 人脑中的高级视觉表示与大型语言模型保持一致 |
| 来源:一起赢论文网 日期:2025-09-19 浏览数:440 【 字体: 大 中 小 大 中 小 大 中 小 】 |
|
人脑中的高级视觉表示与大型语言模型保持一致 视觉系统为大脑提供了有关物理环境的大量信息。在理解职能组织方面取得了很大进展1,2,3,4,5和计算原理6,7,8,9视觉系统是由对视觉场景中存在的对象的高度关注所驱动的。特别是,通过训练人工神经网络 (ANN) 从原始视觉输入中执行物体识别,在定量预测纹外视觉皮层神经活动的能力方面取得了令人兴奋的进步10、11、12、13、14.
尽管取得了这些进步,但很明显,视觉场景传达的信息比存在的物体的身份更多15.据推测,对视觉场景的有效解释必须包括对象所在的上下文以及它们的空间和语义相互关系。对对象上下文和关系的神经基础的研究提供了对对象共现统计作用的见解 16,17、物体之间的空间和语义相互关系18,19,20,21,对象显示的上下文22以及它们在场景中的典型位置23,24,25,26.此外,还出现了关于大脑场景表征的可靠文献 27,28,提供对场景类别的见解27,29,30,31,32,33、场景语法26和动作可供性34,仅举几个主题。然而,目前尚不清楚如何将从这些研究中获得的见解与与物体识别文献相关的定量和计算方法(包括图像可计算模型)联系起来并整合起来。研究从视觉场景中提取的复杂信息的定量方法似乎难以捉摸:可以使用什么表征格式来总结和研究这些信息?
令人兴奋的是,人工智能 (AI) 的最新进展为表示场景信息的挑战提供了线索。首先,大型语言模型(LLM)在自然语言处理方面取得了长足的进步35.法学硕士通过对海量文本数据的训练,学习编码丰富的上下文信息和统计世界知识36,37,38,39.其次,人工智能研究人员已经证明,通过将视觉表示与文本图像标题传达的信息保持一致,视觉模型分割、识别和生成图像的能力得到了改进40,41,42,43.重要的是,这些图像标题通过嵌入 LLM 的潜在空间,被转换为强大的可作格式 44,45.这些见解带来了一种有趣的可能性:图像标题的 LLM 嵌入可能是捕捉视觉场景所传达的丰富信息的有效方法。
在本文中,我们探讨了这样一个假设,即人脑通过一系列分层计算将视网膜输入的视觉信息投射到一个高级多维空间中,该空间可以通过场景字幕的 LLM 嵌入来近似。为此,我们将参与者在观看数千个自然场景时收集的 7 T 功能磁共振成像 (fMRI) 数据与多变量编码和解码分析以及 ANN 建模相结合。我们证明,视觉系统确实可以在各种更高级别的视觉区域中收敛到与 LLM 嵌入一致的表示。
结果
为了探索整个视觉系统的表征转换,我们利用了自然场景数据集 (NSD)46,一个大规模的 7 T 功能磁共振成像数据集,具有大脑对从 Microsoft 上下文中常见对象 (COCO) 图像数据库获取的数千个复杂自然场景的反应 47,48. COCO数据库包括描述每张图像的人类提供的标题,以及每个图像中存在的对象类别的标签(参见补充图。1 用于COCO标题的描述性统计)。为了测试LLM嵌入是否为模拟视觉诱发的大脑反应提供了有用的表示格式,我们使用了基于Transformer架构的LLM句子编码器49并将场景字幕投影到这些 LLM 的嵌入空间中(图1a)。作为具有代表性的 LLM,我们使用 MPNet39,一个针对句子长度嵌入进行微调的转换器。选择 MPNet 是因为它在各种基准上达到了最先进的性能,包括语义文本相似性 (STS),它衡量句子之间语义相似性与人类判断的匹配度50.重要的是,我们的 LLM 嵌入完全源自文本,不考虑相应场景的视觉特征。这不同于在视觉输入和语言上联合训练的其他嵌入(例如,对比语言-图像预训练 (CLIP)43).MPNet嵌入的NSD标题的二维t分布随机邻域嵌入(t-SNE)投影证实,该模型成功地捕获了细粒度的场景信息,例如存在哪些对象、正在执行哪些作以及场景类型(补充图。2)。
图 1:来自 LLM 嵌入的映射捕获了对自然场景的视觉响应。
图1
a,LLM 到大脑映射方法。NSD 数据集中的每张图像都与不同的人类观察者编写的标题相关联,以描述场景。这些字幕通过 LLM 模型传递以生成嵌入。我们使用两种方法来量化这些嵌入与功能磁共振成像数据(RSA 和编码模型)之间的匹配。请注意,出于版权原因,我们无法显示我们使用的真实 COCO 图像;因此,它已被类似的无版权图像所取代。b,RSA 揭示了一个扩展的大脑区域网络,其中 LLM 表示与大脑活动相关。LLM 嵌入 (MPNet) 和大脑表征(通过对参与者 (N = 8) 的双尾 t 检验设置的显着性阈值)之间的组平均 Pearson 相关性(未进行噪声上限校正)的探照灯图,并带有 Benjamini-Hochberg 错误发现率 (FDR) 校正;P = 0.05)。参见补充图。个人参与者 3 个。c,线性编码模型突出显示了类似的大脑区域网络。我们执行体素线性回归来预测 LLM 嵌入中的体素活动。显示的是测试集上预测和实际 beta 响应之间的组平均 Pearson 相关图(未进行噪声上限校正)(显着性阈值由参与者 (N = 8) 的双尾 t 检验设置,并具有 Benjamini-Hochberg 错误发现率校正;P = 0.05)。参见补充图。个人参与者 4 个。d,编码模型性能与参与者间协议。散点图中的每个点显示给定体素的编码模型性能与参与者间一致性,计算为每个参与者 (N = 8) 体素活动与测试图像上其余七名参与者的体素活动平均值之间的平均 Pearson 相关性。我们的编码模型在所有 ROI 中接近参与者间协议,表明性能良好。对角线以下的值可以通过以下事实来解释:模型捕获了其他参与者的平均值未捕获的特定参与者方差。钙,钙沟;CGS,扣带回沟;CoS,侧支沟;CS,中央沟;IFRS,额下沟;IPS,顶内沟;LS,外侧沟;OTS,枕颞沟;PoCS,中央沟后;PrCS,中央前沟;SFRS,额上沟;STS,颞上沟。
全尺寸图像
LLM 嵌入的线性映射可捕获大脑对自然场景的反应
为了量化场景字幕的 LLM 嵌入预测大脑活动的能力,我们使用了表征相似性分析 (RSA)4,51,52,53. 我们将由图像标题的LLM嵌入构建的表征差异矩阵(RDM)与根据参与者查看相应自然场景时获得的大脑活动模式构建的RDM相关联(图。1a)。以探照灯方式应用RSA,我们发现LLM嵌入能够预测腹侧、外侧和顶叶流中更高水平视觉区域的视觉诱发大脑反应(图。1b;见补充图。3 对于个人参与者;见补充图。11 使用不同的 LLM 复制此结果)。
然后,我们使用线性编码模型探测了 LLM 表示和大脑表示之间的映射。我们首先训练了一个编码模型,以使用交叉验证的分数脊回归来预测 LLM 嵌入中的单个体素活动54. 与 RSA 结果一致,我们发现编码模型成功地预测了视觉系统大部分的方差(图1c,d;参见补充图。4 对于个人参与者)。这表明相关标题的 LLM 表示准确地捕捉了视觉处理的重要特征。我们通过使用跨参与者编码方法验证了这些特征在参与者之间泛化,其中我们在一个参与者身上训练模型并在其他参与者身上对其进行测试(补充图5)。
为了详细说明这一点,我们测试了该模型是否可以重现在认知神经科学中观察到的成熟的调谐特性。我们对比了从突出人物与场景的不同新颖句子中得出的预测(例如,“留着胡子的男人对着镜头微笑”与“美丽的风景”)。这种对比揭示了与人和地方选择区域(包括梭形面部面积 (FFA)、枕面部面积 (OFA) 和纹状体外区域 (EBA) 与海马旁区域 (PPA) 和枕骨区域 (OPA))以及食物选择区域相关的经典调整特性55(图.2a;另见补充图。6). 编码模型的成功表明,尽管 LLM 表示纯粹源自文本,但可以准确预测视觉皮层的特定区域调整特性。
图2:基于LLM的大脑活动线性预测和解码。
图2
a,线性编码模型捕获不同大脑区域的选择性。我们对比了五个与人与地方相关的新句子(左)和五个与食物与人相关的句子(右;通过双尾 t 检验对参与者 (N = 8) 设置的显着性阈值,P = 0.05;没有 FDR 校正)。这些对比突出了已知对人、地点和食物具有选择性的大脑区域(人和地方区域被定位为 NSD 的一部分(左);参考文献描述的食物区域。55显示为白色轮廓(右))。b,从视觉诱发的大脑反应中解码字幕。上图:我们拟合一个线性模型来预测 fMRI 体素活动的 LLM 嵌入 (MPNet)。然后,我们使用最近邻查找为每张图像生成标题。左下角:每个参与者在持有的测试集中的预测分数的核密度估计图(参见补充图。5 用于训练集和测试集的 t-SNE 投影),使用预测嵌入和目标嵌入之间的 Pearson 相关性进行量化。噪声上限的计算方法是为每张图像的五个人工生成的字幕之间的一致性。右下:来自举行测试集中不同参与者的目标(蓝色)、解码(粉红色)和最近的训练(绿色)字幕示例,跨越预测分数范围。解码器不仅仅是查找最近的训练项目,而是提供另一个适当的标题。排名是指所显示样本的预测分数(即排名 0 是该参与者的最佳预测,而排名 514 是最差的)。请注意,出于版权原因,我们无法显示我们使用的真实 COCO 图像;因此,它们已被类似的无版权图像所取代。EBA,纹外体区;FBA1/2,梭形体区的后部/前部;FFA1,梭形面部区域后部;FFA2,梭形面部区域的前部;PPA,海马旁区域;pSTS面部,颞后上沟面部区域;OFA,枕面部区域;OPA,枕部区域。参考文献:Allen 等人。46,彭诺克等人。55.
全尺寸图像
LLM 表示在表征大脑活动方面的成功表明,使用简单的线性方法,可以仅从视觉诱发的大脑活动中准确推断参与者所看到的内容的文本描述。为了测试这一点,我们训练了一个线性解码模型来预测功能磁共振成像体素活动的法学硕士嵌入(图2b). 然后,为了重建场景字幕,我们使用了字典查找方法56在包含 310 万个字幕的大型语料库上(取自 Google 概念字幕57). 如图所示。2b,我们获得了参与者所看到的刺激的非常准确的文本描述。这突出了LLM嵌入作为视觉刺激引起的更高层次大脑信号的表示格式的适当性。
LLM 集成了场景字幕中包含的复杂信息,这对于匹配大脑活动很重要
LLM 能够对场景字幕中所有单词的复杂上下文信息进行编码和集成。我们假设这种能力可以部分解释 LLM 嵌入与大脑活动的匹配。为了检验这一假设,我们对比了在场景字幕中编码上下文信息的能力不同的模型。我们将分析重点放在整个视觉系统的感兴趣区域 (ROI),包括早期视觉皮层 (EVC) 以及腹侧、顶叶和外侧视觉流(使用 NSD“流”ROI 定义)。我们使用无参数RSA来估计表征一致性,并报告Benjamini-Hochberg错误发现率校正后的t检验统计量,显著性阈值为P < 0.05。
首先,我们测试了法学硕士与高级视觉皮层表征保持一致的能力是否不仅仅依赖于对象类别信息(图 1)。3a). 作为基础模型,我们使用二进制多热向量(由 COCO 数据集提供)对各种对象类别的存在或不存在进行编码。然后,我们仅基于类别信息构建了越来越复杂的模型:上下文丰富的单词嵌入(包括快速文本 58,59,它基于单词的上下文,以及 GloVe60,基于单词共现统计)。这种词嵌入提供了比多热对象清单更丰富的表示,因为它们不仅包含有关单个单词的信息,还包含有关其典型语言上下文的信息。在更丰富、更上下文化的表示方面又迈出了一步,我们对所有类别词的 LLM 编码列表。这提供了更丰富的类别信息表示,因为 LLM 可以关联和编码单词之间的交互。类别词的 LLM 嵌入显示出与大脑表示的一致性明显优于多热向量(横向 ROI 除外)和单词嵌入(EVC 中的 fasttext 除外)。这表明 LLM 表示格式可以更好地预测大脑活动,即使仅限于类别信息。然而,到目前为止,完整字幕的 LLM 嵌入更好地预测了所有 ROI 中的大脑活动,这表明 LLM 映射到视觉大脑数据的成功部分归功于它能够整合超越类别的字幕信息。为了进一步检验这一假设,我们进行了与图中相同的编码和解码分析。2a,b,但基于类别词的 LLM 嵌入。我们发现这会导致两项分析的性能较差,支持了这样一个假设,即整合类别之外的信息对于调整 LLM 和大脑表征很重要(补充图8)。
图3:法学硕士与视觉诱发的大脑活动的匹配源于它们整合场景标题中包含的复杂信息的能力。
图3
我们在 NSD 数据集的“流”ROI 定义中应用了 RSA,如左上角插图所示。“LLM 标题”是指整个标题的 LLM 嵌入 (MPNet),不同的组表示不同类别的控制模型,详见下文。每个模型与大脑活动之间的匹配被量化为每个模型与给定 ROI 之间的噪声上限校正 Pearson 相关性(参与者的平均值 (N = 8),误差线反映标准误差);所有统计数据都是跨参与者的双尾 t 检验,并进行了 Benjamini-Hochberg FDR 校正;星级显示“LLM 标题”明显优于对照模型的比较(P < 0.05);所有成对模型比较的校正 P 值在补充图中单独提供。12. a,类别信息的 LLM 嵌入提高了与大脑数据的匹配。我们比较了多种格式来表示类别信息,从二进制多热向量(multi-hot),到平均类别词的fasttext(fasttext)或GloVe(手套)词嵌入,再到使用MPNet(LLM)嵌入所有类别词的串联。b,LLM嵌入捕获名词或动词之外的大脑相关信息。与完整标题(LLM 标题)的 LLM 嵌入相比,串联字幕名词(LLM 名词)或动词(LLM 动词)的 LLM 嵌入与大脑数据的匹配效果明显差(EVC 中的 LLM 名词除外)。c,LLM 嵌入捕获与大脑相关的上下文信息。为了测试字幕传达的上下文信息对于匹配大脑数据是否重要,我们将整个字幕的嵌入与单个字幕词的平均 LLM、fasttext 和 GloVe 嵌入进行了比较。
全尺寸图像
其次,为了进一步了解LLM嵌入的哪些方面驱动它们与大脑数据的一致性,我们将从完整图像标题中提取的LLM嵌入与从所有标题名词或所有标题动词的串联中获得的嵌入进行了比较(图。3b). 与我们之前的研究结果一致,我们发现,在所有测试的 ROI 中,完整的标题嵌入都明显优于基于名词和动词的嵌入,除了 EVC 中基于名词的嵌入。请注意,这种比较比之前对类别词的分析更强,因为字幕名词包含场景位置等附加内容。同样,这一结果支持了这样的假设,即 LLM 嵌入的大脑匹配是由在名词或动词之外的整个标题中整合信息的能力驱动的。
我们还测试了形容词、副词和介词,这导致与大脑表征的一致性非常低(补充图。9). 这是可以预料的,因为介词、形容词和副词的语义内容通常不如 NSD 标题中的名词和动词具体。例如,在标题“一个人在蓝天下的草地上遛狗”中,“on”和“under”等介词提供了有关大脑反应的有限预测信息。探索这些词类型发挥更重要作用的数据集是未来研究的一个有趣的方向。
第三,我们通过测试完整的字幕嵌入是否提供超越其组成词的额外解释能力,询问字幕单词之间的上下文信息对于LLM嵌入与大脑的表征匹配是否重要(图。3c)。为此,我们将LLM字幕嵌入与LLM、fasttext和GloVe嵌入进行了比较,在所有单个单词中均值(也就是说,这些模型看到所有字幕词,但每个单词都是单独处理的,而不可能根据标题中的其他单词将一个单词上下文化)。同样,在所有ROI中,整个字幕的嵌入与大脑数据的一致性明显优于单个字幕词的平均嵌入。这表明字幕词之间的上下文关系是LLM与大脑中视觉表征保持一致的重要因素。
在进一步的分析中(补充图。10),我们从打乱的句子中生成了LLM嵌入,并发现它们与原始句子的LLM嵌入高度相关(八名参与者的平均人相关性,0.91;标准差0.001)。这表明MPNet LLM对词序相对不敏感,因此与两种句子类型的大脑数据具有相当的一致性。虽然大脑可能依赖于语言处理中的语法,但LLM与大脑中视觉唤起反应的一致性并不是由它驱动的。请注意,打乱的句子不属于LLM的训练分布,它仍然可能重建简单NSD标题的含义(例如,它可以检索“道路,土车驾驶是开上路”的非打乱含义)。对于词序至关重要的更复杂的句子,这种情况可能不会发生。未来的研究将进一步调查这一点。
最后,为了确保我们的结果不依赖于用于嵌入字幕的确切 LLM,我们测试了 Sentence-Transformers 排行榜 (https://www.sbert.net/index.html) 中的其他几个 LLM,发现它们的性能都与此处使用的 MPNet 相似(补充图 11;11;LLM 模型之间的统计比较均不显着)。这一发现说明了我们研究结果的普遍性,并与之前的工作一致,表明规模可能比 LLM 中的架构差异更重要 61,62.
LLM 训练的 RCNN 优于其他视觉反应模型
我们的结果表明,高级大脑表征具有类似 LLM 的表征。这导致了这样的假设:人脑通过视觉系统中的一系列非线性作,将视网膜输入的视觉信息投射到一个可以通过 LLM 嵌入近似的多维空间中。在这个假设下,我们预测LLM嵌入可能成为训练视觉人工神经网络模型的强大目标。使用任务优化的人工神经网络作为视觉系统模型已有成功的历史,但传统上,这些模型经过训练以对每个图像中存在的对象进行分类12,13,63,64或者在某些情况下,使用无监督物镜 65,66.因此,我们训练人工神经网络从视觉输入预测LLM嵌入,并量化这些任务优化模型与我们的大脑数据的匹配(图。4a)。
图 4:LLM 训练的深度循环卷积网络在预测大脑活动方面优于其他模型。
图4
a,RCNN。我们的 RCNN 有 10 个递归卷积层,具有自下而上(紫色)、横向(绿色)和自上而下(橙色)连接,后跟一个全连接读出层。训练目标是最小化网络输出与目标 LLM 字幕嵌入之间的余弦距离。经过类别训练的控制网络是相同的,只是它们经过训练可以预测多热类别标签。请注意,出于版权原因,我们无法显示我们使用的真实 COCO 图像;因此,它们已被类似的无版权图像所取代。b,类别标签可以从LLM训练的RCNN活动中解码。在冻结网络权重后,我们测试了类别标签(分别是 LLM 嵌入)从 LLM 训练(分别是类别训练)网络的预读出层中的活动中解码的能力。该图显示了测试性能(N = 10 个网络实例的平均值;误差线表示标准差),量化为预测向量和目标向量之间的余弦相似度。虚线水平条显示地板表现,作为通过预测平均训练目标获得的性能进行作。c,LLM 训练的 RCNN 与 LLM 嵌入。探照灯 RSA 在 llm 训练的 RCNN 活动(最后一层和时间步长)与场景字幕的 LLM 嵌入之间进行对比。RCNN RDM 在 10 个网络实例中取平均值;八名参与者的相关性是平均的;通过双尾 t 检验对具有 Benjamini-Hochberg FDR 校正的参与者设置的显着性阈值;P = 0.05。参见补充图。个人参与者 15 个。插入:LLM 训练的 RCNN 与每个探照灯位置的 LLM 嵌入的大脑模型相关性。d,LLM 训练的 RCNN 与类别训练的 RCNN。与 c 类似的图,但显示了 LLM 训练和类别训练的 RCNN 之间的对比(最后一层和时间步长)。参见补充图。17 个人参与者,补充图。16 用于所有其他 RCNN 层和时间步长,以及补充图。18 用于使用 ResNet50 架构重现此效果。e,LLM训练的RCNN与其他广泛使用的人工神经网络的ROI比较。各种模型的预读出层与 ROI RDM 之间的噪声上限校正相关性。我们的RCNN模型明显优于所有其他模型(CORnet-S除外,其顶叶ROI并未显著差;对具有Benjamini-Hochberg FDR校正的受试者进行双尾t检验;P = 0.05)。所有成对模型比较的 Benjamini-Hochberg FDR 校正 P 值如补充图所示。20.
全尺寸图像
我们使用循环卷积神经网络(RCNN67),基于 vNet 架构63这反映了整个腹侧流感受野大小的逐渐增加。RCNN被训练为预测COCO数据集上与输入场景相关的字幕(LLM训练的RCNN)的LLM嵌入。为了避免对 NSD 参与者看到的图像过度拟合,我们将 NSD 中使用的所有图像排除在训练之外。我们训练了十个具有不同随机种子的网络实例,以考虑由于网络初始化而可能产生的变化68.为了比较模型对大脑数据的反应,我们从最后一层和时间步长中提取了响应 NSD 刺激的活动模式,计算了 RDM 并使用探照灯 RSA 来量化与大脑的表征对齐。这种探照灯分析表明,LLM训练的RCNN层激活能够显着预测整个视觉系统中视觉诱发的大脑反应,类似于对LLM嵌入本身执行的探照灯(补充图。13;见补充图。14 对于网络中所有层和时间步长的探照灯图,显示早期层更好地匹配较低的视觉区域,而较高的层更好地匹配较高的视觉区域)。
虽然前几节的结果表明,视觉上与视觉无关的 LLM 嵌入可以很好地捕获高级大脑表征,但它们仍然有可能保留一些仅靠 LLM 嵌入无法捕获的视觉信息(例如,场景标题中未明确提及但下颞叶皮层可用的物体位置69).我们假设这些信息也可能存在于 LLM 训练的 RCNN 模型的后期层中,这些模型从视觉输入过渡到类似 LLM 的表示。根据这一假设,我们发现经过LLM训练的RCNN与大脑数据的一致性明显优于它们被训练预测的LLM嵌入(图。4c;见补充图。个人参与者 15 个)。请注意,我们从 LLM 训练模型中提取的表示具有 512 个特征,比目标 LLM 嵌入的 768 个特征的维度更低。因此,这个结果不能简单地用被测试表示的维数来解释。 |
| [返回] |