| 材料科学多模态大型语言模型理解和预测 |
| 来源:一起赢论文网 日期:2026-05-03 浏览数:33 【 字体: 大 中 小 大 中 小 大 中 小 】 |
|
材料科学多模态大型语言模型理解和预测无机材料的性质对于加速材料科学进步和推动能源、电子等领域应用至关重要。通过多模态大型语言模型(LLMs)将材料结构数据与基于语言的信息整合,为增强人机交互提供了支持这些努力的巨大潜力。然而,一个关键挑战在于如何以全分辨率将原子结构集成到大型语言模型中。在本研究中,我们介绍了MatterChat,一种多功能的结构感知多模态大型语言模型,将材料结构数据和文本输入统一为一个连贯模型。MatterChat 使用桥接模块,有效将预训练的通用机器学习原子间潜能与预训练的大型语言模型对齐,降低训练成本并提升灵活性。我们的结果表明,MatterChat在材料属性预测和人机交互方面大幅提升了性能,超过了如GPT-4这样的通用大型语言模型。我们还展示了其在更高级科学推理和逐步材料合成等应用中的实用性。类似内容被他人观看实现大型语言模型以实现现实材料发现第10条 2025年7月一系列用于材料研究的大型语言模型,洞察模型在持续预训练中的适应性第27条 2026年2月聊天机器人生成的150万条材料叙事文章 开放获取 2024年9月28日主要角色在计算机模拟中,材料发现传统上依赖于高保真度方法,如密度泛函理论1以及从头到尾的分子动力学2.然而,高昂的计算成本限制了其在高通量筛选中的可扩展性。此外,许多先进材料由于复杂的组成和相不稳定性,缺乏对机理的理解。因此,功能材料(如相关氧化物)取得了突破 3,4以及量子材料 5,6这些因素往往是偶然的,而非理论驱动。实现材料的可靠、可扩展和预测性设计需要范式转变。随着人工智能在材料科学领域的兴起,针对这些限制的方法激增,包括替代模型 7,8到MLIPs(多重学习计划)9,10,11,12,13以及生成模型 14,15.这些模型能够实现快速预测,加速大规模仿真,并促进新材料的生成。因此,他们在储能等领域取得了极大进步16电子学17催化18以及生物医学应用19.在这些有前景的机器学习方法中,基于图的模型因其多功能的图表示原子系统而日益流行,其中每个原子被表示为节点,化学键与邻近原子的化学键以边表示。尽管这些基于图的方法在准确预测材料性质方面取得了成功,但它们通常缺乏处理需要理解科学背景、文献洞察和领域特定语言任务的能力20.特别是,这些模型不支持通过用户提示或文本描述实现人与人工智能的交互,这使得整合专家领域知识和用户指定请求以闭合反馈循环变得困难。这一瓶颈激发了对大型语言模型(LLM)的探索。像BERT这样的大型语言模型21,GPT22,密斯特拉尔23,羊驼24以及DeepSeek25在科学问答中展现出潜力26以及信息检索27.近期的努力将大型语言模型纳入解决材料问题 28,29通过利用预训练或多模态架构。近期基准测试,包括MatSci-NLP30,MaScQA31,蜜蜂32及其他33,34,35,36,37为评估领域特定推理提供了有价值的基线。然而,这些方法主要依赖基于文本的表示——如化学式28,微笑弦乐 29,38以及晶体信息文件(CIF)39.虽然这些文本输入具有信息量,但往往未能明确捕捉原子结构中固有的复杂三维空间关系和局部环境。因此,它们在属性预测方面表现不如基于图的模型40.通用MLIPs(通用MLIPs)11现在允许从原子嵌入中提取丰富的结构信息,为多模态积分提供可行的路径。在本研究中,我们介绍了MatterChat,一种材料科学领域的多模态大型语言模型。MatterChat 采用模块化框架,连接预训练语言和材料模型。通过冻结LLM和材料编码器的权重,我们的系统实现了即插即用的灵活性,支持CHGNet等组件41或多体原子簇膨胀(MACE)11.该设计保留了基础模型的泛化,并便于未来扩展而无需重新训练整个架构。MatterChat 将结构数据与文本查询相结合,克服了传统大型语言模型在定量预测上的局限。它保持了强大的人机交互,并支持先进的推理以实现综合指导。嵌入分析证实MatterChat有效保存结构-属性信息,支持多模态检索增强生成(RAG)方法以增强推理鲁棒性。选举结果MatterChat概述图1a展示了MatterChat的架构,设计用于处理材料结构和用户请求作为输入,生成基于文本的输出,用于材料属性预测、结构分析和描述性语言生成等任务。MatterChat 由三个核心组件组成:材料处理分支、语言处理分支和桥接模型。材料加工分支从以图表示的材料结构中提取原子层面嵌入。这些嵌入随后由桥接模型处理,桥接模型使用可训练查询生成与语言模型兼容的嵌入。最后,语言处理分支将用户基于文本的提示(例如,“材料的形成能是多少?”)处理成语言嵌入。这些嵌入随后与桥接模型生成的查询嵌入结合,输入LLM以生成文本格式的最终输出。下面,我们提供了每个组成部分的详细信息。图1:MatterChat概述:一款基于材料的多模态问答模块化大型语言模型。图1:MatterChat概述:一款基于材料的多模态问答模块化大型语言模型。这张图片的替代文本可能是用AI生成的。全尺寸图像a, MatterChat 架构:该系统包含一个生成原子嵌入的材料编码器和处理语言数据的大型语言模型。这些组件通过可训练的桥接模型连接,该模型将材料结构与自然语言对齐,以支持材料描述和属性预测等任务。b、元素分布涵盖142,899种组成,代表数据集的成分多样性。c、数据集分布,显示空间组(外环)和晶体系统(内环),展示数据集内结构变异。来源数据材料加工分支材料加工分支将材料结构编码为捕捉原子局部环境的图表。我们特别利用了最先进的基于图的通用MLIP模型中的编码模块,如CHGNet。41以及权杖11,作为处理这些图的特征提取器。这些编码器在涵盖多种对称性、组成和键合类型的材料数据集上进行预训练,使其能够有效模拟复杂的原子相互作用和结构细节。通过捕捉原子类型和化学键等关键组成特征,以及键角等空间特征,这些预训练编码器生成高质量的原子嵌入,既具有物理意义,又非常适合后续任务。语言处理分支语言处理分支用于处理用户基于文本的提示,如性质预测、化学式、空间组信息或其他物质特性的请求。我们使用的是Mistral 7B LLM23是最新的开源大型语言模型之一,因其在广泛的科学和非科学任务中表现出色而被选中。该分支处理每个提示,将其转化为密集嵌入,捕捉询问的语义内容。这些嵌入随后与桥接模型通过结构化融合方法处理的查询嵌入结合,使模型能够有效整合文本和实质信息。这种集成使LLM能够生成针对用户具体材料相关提示的精确且具上下文相关的回答。桥梁模型为了促进原子嵌入与语言处理分支之间的集成,我们开发了一个受BLIP2架构启发的桥接模型42基于多层变换器框架。该桥模型包含32个可训练的查询向量,通过交替注意力机制与原子嵌入交互。偶数层的交叉关注能从原子嵌入中提取关键特征,而奇数层的自我关注则增强表征深度。该方法将原子嵌入细化为与文本最相关的查询嵌入(见图)。1a)。最后,这些精炼后的表示通过线性投影层映射到与LLM兼容的嵌入。图1b,c概述了我们训练集中使用的晶体结构数据集。图1b可视化了元素周期表上的物质分布,显示数据集均匀涵盖了多种元素,直到钚。图1c展示了晶体结构按空间组在数据集中的分布情况。该数据集由材料项目策划43并包含142,899个物质结构。对于每个结构,我们生成了一个包含12项任务的文本数据集:3项描述性任务(化学式、空间群和晶系)和9项性质预测任务。这些属性预测任务包括金属丰度、直接带隙、稳定性、实验观测、磁状态、磁序、地层能量、船体上方能量和带隙(图)。1a)关于训练方案、超参数和数据集管理的更多细节见方法部分。图2展示了人与人工智能在多种材料属性预测和分析任务中与MatterChat的交互示例。它展示了MatterChat有效应对从基本材料属性(例如化学式、空间群和晶体系统)到复杂材料属性(如热稳定性、带隙、地层能量和船体上方能量)等广泛用户提示的能力。图2a展示了来自材料项目数据库中随机选取材料的三个互动材料属性提示示例。左上角面板展示了人机与MatterChat的查询界面,针对mp-id为mp-1001021的材料。它提供了详细的剖面,包括化学式 Y2锌4Se2其晶体结构以空间群Fd-3 m表示,以及电子性质,如带隙为0.23870 eV。界面还解决了材料的热稳定性不足问题。顶部中间面板展示了与mp-id为mp-1028281的材料的相互作用示例。它详细解析了材料的成分属性,包括其化学式(Mg14VSb)及其空间群(Amm2)。该相互作用进一步预测该材料既具有磁性又具有金属性,其形成能估计为每原子0.07219电子伏特。右上方面板展示了与 MatterChat 的交互示例,内容的 mp-id 为 mp-10198。该面板向用户查询化学成分 \({{\rm{Mn}}}_{3}{\rm{PdN}}\) 及其立方晶体结构,空间群被归类为 Pm-3 m。此外,研究估算该材料具有间接带隙,这是电子应用中的重要特性。MatterChat还准确预测了该材料表现出的铁磁性行为,并提到其在包壳值以上的能量为每原子0.01357 eV。在底部面板中,我们展示了MatterChat在GNoME新发现材料中地层能量评估任务表现的比较评估44.该模型被与商业大型语言模型(如 Gemini)进行了比较45,GPT-4o46以及DeepSeek25.结果显示MatterChat在估算阵型能量方面具有卓越的准确性,持续提供更接近实际情况的预测。例如,MatterChat对mp-3202380和mp-3206774的地层能量预测与地面真实值高度吻合。这些结果展示了MatterChat能够无缝整合结构和文本数据,应用于各种材料性质任务。图2:MatterChat准确预测材料属性,并优于最先进的大型语言模型。图2:MatterChat准确预测材料属性,并优于最先进的大型语言模型。这张图片的替代文本可能是用AI生成的。全尺寸图像a, 使用MatterChat进行多模态材料性质查询的示范。该模型准确解读用户提示,预测材料的化学式、晶体学性质、稳定性、电子带隙、磁序和能量指标。这三个小组展示了该框架应对多样材料科学问题的能力,展示了其基于图和文本嵌入的对齐,以实现精确的问题解答。b、GNoME新发现材料地层能量预测的比较评估44.MatterChat的预测与地面真实值进行了比较,并结合了商业大型语言模型(Gemini45,GPT-4o46以及DeepSeek25).结果显示MatterChat在定量材料评估任务中的准确性和稳定性高度符合现实,展示了其整合材料图嵌入以实现精确属性预测的能力。来源数据图3展示了MatterChat的先进推理能力,展示了它如何利用LLMs的全面知识库来应对复杂的材料科学挑战。通过多模态查询系统,MatterChat有效地将材料结构数据与文本推理结合起来。这种整合促进了工作记忆的构建47这使得模型能够提供领域特定的推理、详细的综合过程和解释,这些都深深扎根于材料的结构性质。图3a展示了带有cmcm空间群的硅聊天日志。MatterChat不仅检索了化学式和正确的空间群,还为该硅相的结构不稳定性提供了理由。模型解释说,CMCM空间群的每单位晶胞能量高于硅的热力学稳定立方钻石结构,因此在标准条件下发生的可能性较低。图3b展示了一种关于常见半导体材料氮化镓(GaN)的相互作用。在这里,MatterChat准确识别了化学式和空间群(P63mc),并生成了符合既定实验标准的详细金属-有机化学气相沉积合成方案。具体来说,该模型在800–1000°C温度窗口内将三甲基镓和氨作为前体,直接匹配其他地方报道的标志性方法 48,49.这表明模型能够利用继承知识提供实用、扎实且实验可行的科学推理。图3c探讨了广泛使用的铁氧体材料钇铁石榴石的相互作用。MatterChat能够根据结构生成详细的文本描述。此外,MatterChat还可以为YIG生成一个与既有实验程序相符的综合协议50.通过确定正确的3:5混合比Y,2O3以及 Fe2O3并指定关键参数如5°C最小值−1该模型展示了其根据标准实践和表征技术(如X射线衍射和扫描电子显微镜)应用领域特定知识的能力50.MatterChat通过模块化的两阶段流程生成综合指导,无需针对特定任务的监督。首先,结构属性——包括公式、空间群和晶体系统——通过冻结编码器提取并分词,形成持久的工作记忆。其次,LLM根据这一上下文生成响应,并与符号记忆框架相符47其中推断出的重要事实成为推理的基础。通过利用LLM继承的知识和显式结构信号,MatterChat生成物理上合理、符合文献的综合输出。这种模块化确保了物质感知与语言推理之间的明确界限,增强了可解释性和结构条件生成。 |
| [返回] |