欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033
微信:paperwinner
工作时间:9:00-24:00
机械论文
当前位置:首页 > 机械论文
评估用于原子力显微镜自动化的大型语言模型代理
来源:一起赢论文网     日期:2025-11-10     浏览数:341     【 字体:

 评估用于原子力显微镜自动化的大型语言模型代理

 
大型语言模型 (LLM) 正在通过支持可以加速材料研究的自动驾驶实验室 (SDL) 来改变实验室自动化。然而,当前的 SDL 实施依赖于僵化的协议,无法在动态实验环境中捕捉专家科学家的适应性和直觉。在这里,我们展示了 LLM 代理可以通过我们的人工智能实验室助手 (AILA) 框架实现原子力显微镜 (AFM) 自动化。此外,我们还开发了 AFMBench——一个全面的评估套件,在从实验设计到结果分析的整个科学工作流程中挑战 LLM 代理。我们发现,最先进的法学硕士在基本任务和协调场景方面遇到了困难。值得注意的是,擅长材料科学问答的模型在实验室环境中表现不佳,这表明领域知识并不能转化为实验能力。此外,我们观察到 LLM 代理可能会偏离指令,这种现象被称为梦游,引发了 SDL 应用程序的安全对齐问题。我们的消融表明,多智能体框架的性能明显优于单智能体方法,尽管两者都对指令格式或提示的微小变化仍然敏感。最后,我们评估了AILA在日益先进的实验中的有效性——AFM校准、特征检测、机械性能测量、石墨烯层计数和压头检测。这些发现确定了在部署 LLM 代理作为跨科学学科的自主实验室助理之前进行基准测试和稳健安全协议的必要性。
 
其他人正在查看的类似内容
 
重新思考大型语言模型的机器学习
第17条 2025年2月17日
 
材料发现的基础模型——现状和未来方向
文章 开放获取 06 三月 2025
 
基于分类的并发API调用与AI智能体工具增强LLM最优模型组合研究
文章 开放获取 01 七月 2025
介绍
科学实验需要卓越的领域专业知识,从探索或假设驱动的实验设计到精确执行和严格的数据分析。这种复杂性给科学发现带来了瓶颈,特别是随着实验技术变得越来越复杂。大型语言模型 (LLM) 的出现推动了自动驾驶实验室 (SDL) 的发展,这些实验室集成了多种信息源以进行自动化规划1和实验。人工智能 (AI) 代理 2,3SDL 已经在材料或分子发现方面取得了多项壮举 4,5,6, 化学研究7和无机材料合成。SDL 实现可持续发展的承诺8为利用其在高通量实验和发现中的潜力付出了巨大的努力9.简化 SDL 的努力催生了 ChemOS 等编排架构10.此外,已经证明,可以通过处理消歧义的人机交互框架来增强 SDL 的功能,从而实现更好的规划和执行 11,12.虽然基于法学硕士的实验室助理的早期演示显示出在化学和材料科学方面的前景 1,2,3,除了特定应用或具有预定协议的重复用例之外,它们的运行可靠性在很大程度上仍未被描述13,14,15,16,17.
 
目前的研究主要涉及有据可查或预定义的协议和单一目标任务,未能捕捉到实验计划、多工具协调以及结果解释或在线干预之间错综复杂的相互作用10.虽然最近纳入规划元素的研究表明,在实现特定实验目标方面取得了成功,但它们尚未系统地评估 SDL 在更广泛的实验室自动化任务中的可靠性 13,14.尽管有几项研究对法学硕士进行了基准测试15,16,17,18,19,20,21,22,23和视觉语言模型13,14,24,25通过问答协议来评估它们作为材料研究副驾驶的潜力,一个关键的知识差距仍然存在:了解这些人工智能系统如何处理新的实验场景及其基本局限性。
 
为了应对这一挑战,我们在这里介绍 AILA(人工智能实验室助手),这是一个由 LLM 驱动的框架,并添加了专门的工具。我们选择了扫描探针显微镜18,特别是原子力显微镜 (AFM),鉴于其固有的复杂性和在材料研究中的广泛适用性,作为我们的实验试验台。由于人工智能和人机交互方法在材料表征中的广泛应用,人们已经做出了多种努力来自动化显微镜技术26,27,28,29,30,31,32,33,34,35.这些工作专门侧重于推进特定的作方面,例如分析移动物体或优化照明条件,重点是改进更广泛的实验方案中的各个步骤。除了这些有针对性的进展之外,Liu 等人。36探索 LLM 与应用程序编程接口 (API) 的集成,以增强扫描探针显微镜研究中的工作流程准备、仪器作和数据可重复性。AFM作需要跨多个领域的专业知识——从探针校准到参数优化和数据解释——使其成为评估 AI 代理管理复杂实验工作流程的能力的理想平台。
 
使用 AFM 作为模型系统,我们通过 AFMBench 探索 AILA 在科学自动化的五个关键方面的能力:实验工作流程设计、多工具协调、决策、开放式实验的执行和数据分析。我们的系统评估揭示了关键的故障模式和需要改进的领域。我们通过五个实际实验证明了 AILA 的实际实用性:(1) 识别和分析玻璃样品上的压痕,包括推断所用压头类型;(2)硅片上石墨烯薄片的检测和石墨烯层数的测定;(3)自动显微镜校准;(4)石墨烯阶梯边缘的高分辨率成像;(5)高取向热解石墨(HOPG)的负载相关摩擦表征。
 
结果
AILA 框架
AILA 的架构优先考虑模块化,从而能够与不同的实验和分析平台无缝集成。其核心是一个由 LLM 驱动的规划器(该框架的认知中心),它协调用户交互并协调专业代理(图 1a).该规划器直接从用户那里获取查询并确定处理任务的适当代理。代理调用工具以执行完成实验所需的步骤。代理与代理之间的协调由两个关键字调用,即“NEED HELP”和“FINAL ANSWER”。前一个标志调用路由函数,将未解决的任务传输给下一个适当的代理,而后一个标志则导致实验终止。因此,AILA 采用动态路由,利用可用的代理和工具来完成用户给出的任务(有关其他详细信息,请参阅补充信息中的 S2.4)。
 
图 1:AILA 框架和实施。
图1
AILA 人工智能实验室助手 (AILA) 的系统架构。虚线表示受 AILA 决策控制的自适应信息流,实线表示具有预定义路由协议的确定性信息路径。b 原子力显微镜(AFM)实验装置的图像,显示了关键的硬件组件和控制接口。c AILA作的代表性演示:用户查询的原始记录和 AILA 未经编辑的响应序列,显示系统的查询解释、任务规划和执行能力。
 
全尺寸图像
对于 AFM作,AILA 部署了两种代理:用于实验控制的 AFM 处理程序代理 (AFM-HA) 和用于分析的数据处理程序代理 (DHA)。AFM-HA 与文档检索系统接口,该系统包括 AFM 软件文档和代码执行引擎,该引擎将 Python 命令转换为实验作。基于Python的API建立了硬件-软件接口,能够通过特定于供应商的协议直接控制AFM系统(图。1b). DHA 通过专用工具管理图像优化和分析:图像优化器用于微调比例积分导数 (PID) 参数以实现高保真成像,以及图像分析器从实验数据中提取目标特征。对于代理功能之外的查询,规划器会生成替代方法或建议的作。
 
在 AFM 实验中,工作流程通常涉及两个关键步骤:捕获图像和分析结果。成像部分首先选择合适的悬臂,然后设置成像参数。然后,将尖端轻轻移向样品表面,进行扫描。对于每个阶段,AILA 都会创建一个特定的 Python 脚本并执行它,通过 API 实时控制 AFM 仪器。这种连接允许数字命令直接转换为仪器上的物理运动。扫描完成后,图像会自动保存并打开进行分析。每个模块的技术规范和实现细节在方法部分进行了解释。
 
为了演示AILA的作工作流程,我们提出了一个多步骤实验:获取HOPG的AFM图像并提取其摩擦和粗糙度参数(图。1c). 这项开放式任务体现了现实世界的复杂性,提供了多种解决方案途径。收到查询后,AILA 将其分解为顺序目标:通过 AFM-HA 进行图像采集,然后进行 DHA 主导的分析。AFM-HA 检索相关文档,生成可执行代码并捕获图像。成功采集后,AILA 将控制权转换为 DHA,后者指示图像分析器计算指定的参数。这个精心编排的序列体现了 AILA 的核心优势:能够解析复杂的自然语言查询、开发战略工作流程以及协调多个代理以实现实验目标。
 
AFMBench:评估AILA框架的任务
AFMBench 包含 100 个专业策划的实验任务(有关任务的一些示例,请参阅补充信息中的 S3.1;所有任务都可以在 GitHub 存储库中找到37),手动设计用于严格评估多个复杂维度的自主 AFM作。与传统的 LLM 基准测试或基于模拟的评估不同,AFMBench 任务需要在 AFM 硬件上进行物理执行,从而引入了现实世界的时间限制和实验变异性。对任务的分析揭示了资源利用率和作复杂性的不同模式。在图中。2a,工具协调要求凸显了对复杂工作流程的系统偏好,69% 的任务需要多工具集成,而 31% 的任务通过单工具协议进行作。代理部署分析揭示了一种分布:83% 的作使用单代理协议,而 17% 的作需要多代理协调——从而能够评估有针对性的专业知识和系统范围的集成能力。
 
图 2:AFMBench 中的任务分布和模块利用率。
图2
饼图显示了基准任务中工具需求(左,单个与多个)和代理需求(右,单个与多个)的分布。b作复杂性分类,显示基本任务与高级任务的比例。c 水平条形图量化所有任务的模块参与频率,展示每个工具和代理的使用模式。d 维恩图,说明文档、分析和计算任务之间的重叠。e 基本(左)和高级(右)任务的代表性示例,展示了实验工作流程日益复杂。源数据以源数据文件的形式提供。
 
全尺寸图像
在图中。2b,作环境分为两个主要的复杂性层:基本作(56%)包括基本显微镜任务和高级程序(44%)需要更复杂的实验工作流程(例如问题见图。2e). 核心系统组件(AFM 处理程序、文档检索器和代码执行器工具)展示了最大的参与度,每个组件都在 66 个不同的任务中激活(见图 1)。2c). 数据处理程序代理和图像分析器工具表现出选择性激活模式(分别为 52 个和 48 个任务),而图像优化器工具专门用于关键参数优化场景(4 个任务)。
 
跨功能域的任务分布揭示了三个主要集群:文档(50 个独立任务)、分析(14 个任务)和计算(10 个任务)(见图 10 个)。这些领域之间的显着重叠是通过结合多种功能需求的集成任务出现的,反映了实验工作流程的相互关联性。这种精心构建的分布能够对人工智能系统进行一系列实验复杂性的系统评估——从基本仪器控制到需要数学推理和动态决策的高级多步骤程序——有效地反映了专家原子力显微镜学家的认知层次结构。
 
AI 代理的性能
使用三种先进的闭源语言模型和一种开源语言模型(GPT-4o、GPT-3.5-turbo-0125、Claude-3.5-sonnet-20241022 和 Llama-3.3-70B-versatile)对 AILA 进行系统评估,揭示了独特的执行模式和运营效率。GPT-4o 在以文档为中心的作方面表现出卓越的熟练程度,实现了 88.3% 的成功率,并在分析 (33.3%) 和计算任务 (56.7%) 方面表现出强大的执行能力(见图 1999999 年)。3a). 该模型的优势在于其导航互连工作流程的能力:在合并文档分析程序中成功率为 23.3%,在文档计算序列中成功率为 36.7%。这些指标凸显了 GPT-4o 复制显微镜专家综合推理特征的能力。
 
Claude-3.5-sonnet-20241022 模型的性能明显低于 GPT-4o,但涉及独立文档的任务除外 (85.3%)。虽然它能够执行一些跨域任务,但我们观察到性能明显低于 GPT-4o。这些发现与之前在材料领域的基准测试结果形成鲜明对比 17,20,其中 Claude 始终优于其他模型,这表明性能优势可能不会在不同类型的科学任务和交互格式之间转移。与此形成鲜明对比的是,GPT-3.5-turbo-0125 即使在独立任务中也表现出较差的性能:文档准确率为 63.7%,数学运算准确率为 3.3%。然而,当面临多领域挑战时,其性能会显着下降,在需要跨领域同时专业知识的任务中成功率为零。这一局限性表明自主实验所必需的跨职能推理能力发展不足。开源 Llama-3.3-70B 多功能模型在所有独立任务中表现出优于 GPT-3.5 的准确性。然而,它在需要跨领域分析或专业知识的任务中完全失败。
 
为了进一步调查性能不佳是否源于 LangGraph 框架,我们实施了模型上下文协议 (MCP) 来评估 Claude 的性能(详细结果见补充信息中的 S3.4 节)。我们观察到两个框架的结果是一致的,证实性能下降是模型固有的,而不是框架的结果。
 
为了评估我们的多智能体 AILA 框架,所有成功的试验都通过作、代币效率和性能指标进行了评估(参见方法论和图 1999 年)。3b 了解详情)。作分析显示,智能体协调能力存在显着差异:Llama-3.3-70B 表现出严重的工具-智能体混淆,平均每个任务需要 10 个步骤,而 GPT-4o 表现出卓越的上下文基础和智能体选择效率,每个任务平均只有 6 个步骤。令牌利用模式与这些作效率低下直接相关,其中 Llama-3.3-70B 消耗了最高的平均提示令牌,表明冗长或冗余的中间推理过程,而 GPT-4o 以最少的令牌使用实现了任务目标,表明了有针对性和深思熟虑的推理途径。在GPT-3.5和Claude-3.5中观察到代理消歧和任务指令对齐方面的严重缺陷,涉及数据处理程序代理的所有三项试验均失败。对于 AFM Handler作,GPT-4o 展示了最佳效率,每个任务大约有 2.5 次代理调用,而 Claude-3.5 生成了最高的完成令牌计数和每步令牌比率,表明中间输出过于复杂。性能指标显示任务完成成功率存在很大差异:GPT-4o 取得了 65% 的成功率,而 GPT-3.5 的成功率为 32.8%,表现不一致。延迟分析显示,Claude-3.5 的平均响应时间最高(17.31 秒),而 Llama-3.3-70B 的延迟最低(7 秒)。这些综合指标表明,虽然 Llama-3.3-70B 减少了延迟,但 GPT-4o 在作效率和执行精度之间提供了最佳平衡,使其成为自主实验室环境中复杂多智能体协调的最合适模型。
 
组件利用率分析强化了这些观察结果。GPT-4o 实现了跨系统模块持续提高的参与度(见图3c、d)。对于不同复杂程度的任务,GPT-4o 表现出最高的准确性,而 GPT-3.5 在高级和基本任务上的表现最差。在所有模型中,与高级任务相比,基本任务的性能通常更高。在多智能体和多工具协作任务中,GPT-4o 实现了最高的准确性,而 GPT-3.5 的准确率最低。GPT-3.5 在单代理和多智能体协作任务设置中的性能都低于其他模型。这些结果凸显了模型架构在自主实验平台中的根本重要性,GPT-4o 的先进集成功能使其成为复杂实验自动化的最佳选择。
 
图 3:AFMBench 上语言模型的性能比较分析。
图3
维恩图显示了 GPT-4o、GPT-3.5-turbo-0125、Llama-3.3-70B-versatile 和 Claude-3.5-sonnet-20241022 在文档、分析和计算任务中的准确性指标。数字表示准确率百分比。b 评估指标分为三类——作(左)、令牌使用(中)和性能(右)指标——以评估四个 LLM 模型的性能。c 比较模型之间工具和代理利用效率的水平条形图表示为成功参与的百分比。d 不同复杂程度(高级/基本)和需要不同工具(单/多)和代理(单/多)的任务中不同模型的性能比较。源数据以源数据文件的形式提供。
 
全尺寸图像
单代理与多代理 AILA 架构
为了评估工具与 AILA 的直接集成是否能产生与多智能体框架相当的性能,我们进行了比较分析。AFMBench 数据集中 10 个问题的代表性子集在单代理和多代理架构中进行了系统评估,每个问题都通过三个独立的试验进行评估,以确保统计可靠性并考虑固有的变异性。比较分析揭示了与框架相关的性能变化:与直接工具集成(58% 成功率)相比,GPT-4o 在多代理配置中表现出优越的性能(70% 的成功率)。对于替代模型,性能差异很小,因为大多数架构在跨域任务中表现出根本局限性,这些任务本质上需要多代理协调,而不管框架结构如何(有关详细结果,请参阅补充材料的第 S6 节)。这些发现表明,虽然计算效率有利于单智能体架构实现,但多智能体架构增强的协调能力为能够进行复杂推理的高级模型提供了可衡量的性能提升。
 
误差分析揭示了特定于模型的局限性
对失败案例的详细检查揭示了所有语言模型之间独特的错误模式(见图。4),提供对其作局限性的见解。请注意,对于计算评估指标,成功的任务定义为给定任务的所有三个试验都成功的任务。而对于错误模式分布,每个任务的所有试验都是单独计数的,总共 300 个任务实例。GPT-4o 的总错误率为 29%,错误分布在三个主要类别:代码生成 (21.7%)、代理选择 (1.3%)、工具选择 (0.3%) 和指令遵守 (5.7%)。尽管该模型在任务理解方面表现出色,但代码生成错误的主导性表明,在将概念理解转化为可执行命令方面存在挑战。
 
图4:模型性能中的误差模式分布。
图4
不同模型之间的错误模式:GPT-4o(左上)、GPT-3.5-turbo-0125(右上)、Llama-3.3-70B-multiversive(左下)和 Claude-3.5-sonnet-20241022(右下)。段表示错误类型的比例分布:指令依从性(蓝色)、代理选择(粉红色)、工具选择(绿色)和代码生成(灰色)。源数据以源数据文件的形式提供。
 
全尺寸图像
GPT-3.5-turbo-0125 的总错误率明显更高,为 66.6%,错误集中在四个类别:代码生成 (32%) 和代理选择 (27.3%)、工具选择 (0.3%)。值得注意的是,该模型显示出较少的基本查询解释错误(7.0%),表明自然语言处理能力强大。然而,代码生成错误频率的增加,加上代理或工具选择的严重失败,表明在将理解转化为可作的实验协议方面存在潜在缺陷。
 
Llama-3.3-70B-versatile 和 Claude-3.5-sonnet-20241022 的错误率分别为 60.6% 和 51.6%,具有不同的故障模式。Llama-3.3-70B-versatile 表现出非常高的代码生成错误频率 (32.0%),表现为工具执行和非功能性代码生成的参数表述不正确。具体来说,它很难构建成功工具调用所需的适当参数结构。相比之下,Claude-3.5-sonnet 的缺陷主要源于药物选择错误 (28.3%),它始终错误地将任务归因于 AFM-HA 和 DHA 之间,导致将实验程序委托给不合适的药物。
 
关于法学硕士的指令遵守情况,出现了一个关键发现。在记录的四个错误之一中,GPT-4o 超出了其指定的作限制,执行了未经所提供指南授权的作。例如,它执行了潜在风险的尖端运动,而它只是被指示更换悬臂(参见补充信息中的 S3.2)。在另一个案例中,GPT-4o 被指示捕获图像并计算表面摩擦力。它没有停留在任务范围内,而是执行了其他作。这种行为不仅限于 GPT4o,在其他 LLM 中也观察到了。尽管有时最终结果可能是正确的,但不遵循说明凸显了对人工智能代理行为的担忧,并增加了自动化实验室环境中的安全风险。类似于法学硕士对幻觉的观察38,这些结果提出了一个独特的挑战——SDL 倾向于采取任意作,可能基于记忆而不是遵循指令,以下称为梦游。这些问题在敏感的实验环境中尤为重要,在这些环境中,严格遵守协议对于确保设备安全和结果的有效性至关重要。
 
AILA 框架采用迭代调试协议,通过系统错误解决来解决代码生成失败问题。检测到错误后,AILA 会捕获全面的错误日志并启动迭代纠正周期,最大阈值为 20 次迭代,以优化彻底性和计算效率之间的平衡。调试结果分析揭示了两种不同的故障模式:(1) 迭代极限耗尽,系统在 20 次纠正尝试失败后终止,持续错误被归类为代码生成失败;(2) 梦游,AILA 生成超出指定要求的功能代码,表现出超出原始指令的功能——一种表明指令漂移或算法过度拟合的现象,被归类为指令遵循错误。这种二元分类系统能够系统地表征故障模式,而迭代阈值确保了计算的可处理性,而不会影响自主实验室作中的调试效率。
 
这种误差分布阐明了框架增强的关键领域。虽然 GPT-4o 的平衡错误曲线表明需要跨多个领域进行有针对性的改进,但 GPT-3.5-turbo-0125 的集中错误模式表明实验执行能力存在根本限制。这些发现强调了自动化实验系统专门培训的必要性,特别是关注将科学协议转化为可执行代码序列。
[返回]
上一篇:广义概率近似优化算法
下一篇:具身大语言模型使机器人能够在不可预测的环境中完成复杂的任务