欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033
微信:paperwinner
工作时间:9:00-24:00
博士论文
当前位置:首页 > 博士论文
大型语言模型在农业中的作用:利用大型语言模型智能开创未来
来源:一起赢论文网     日期:2026-06-14     浏览数:161     【 字体:

 大型语言模型在农业中的作用:利用大型语言模型智能开创未来

 
 
1 简介
近年来信息通信技术(ICT)突破的紧密结合,彻底改变了现代农业运营。这已经发展成一个蓬勃发展的领域,称为智能农业,有望提升农业生产力、效率和产品质量。这些多学科技术利用无人机/地面飞行器(UAV/UGV)、图像处理、机器学习、大数据、云计算和无线传感器网络(WSN)[1],帮助农民做出明智的种植、照料和收割决策,以最大化生产力和利润。然而,从各种数据源,尤其是成像数据中提取有用信息非常困难。复杂的数据使传统数据挖掘难以获得洞见。然而,深度学习[2]在处理复杂高维数据的许多应用中表现出色。DL方法在特征提取、模式识别和图像表现方面表现出色,在包括农业在内的多个领域展现出潜力。其中包括除草、植物病害诊断、收获后质量评估和机器人采摘[3]。
 
尽管已有进步,监督式训练作为这些方法的基础,仍需要大量、针对特定任务且高质量的标注数据集。不幸的是,对于资源极少的应用来说,由于获取和注释此类数据集所需的时间、精力和资金都非常庞大[4]。对准确像素级注释的需求、生物材料的限制以及成像设置,使得这一问题在某些应用中更加严重,包括杂草识别、植物病害诊断和果实缺陷检测。此外,通常需要重复数据收集和模型创建过程,因为收集到的数据集难以广泛推广,即使是针对类似的农业区域。这种迭代过程增加了总成本,无论是时间还是金钱,并且在应用于农业应用时限制了DL框架的效率、可扩展性和通用性。已有多种方法被提出来解决这些问题,如迁移学习[5]、少样本学习[6]和标签高效学习[7]等。特别是,迁移学习在许多领域(包括农业)中非常流行,采用已在ImageNet、Microsoft COCO和PlantCLEF2022等大规模图像数据集上训练的DL模型[8]。然后,针对任务对预训练模型进行调整。相比之下,少数样本学习利用过去的知识(元学习技术)快速训练模型,使其适应新任务,使用少量标记样本。另一方面,标签高效学习采用几乎不需监督甚至完全不监督的策略,以减少繁琐且耗时的标签任务的影响。然而,这些方法在许多领域和应用中的适用性有限,通常是因为它们仅在单一模态的数据上进行预训练。利用多个数据源提升其在多个领域和应用中的通用性至关重要。
 
大型预训练模型,通常称为基础模型(FMs)[9],是一种能够处理许多下游任务的人工智能模型,如决策、计算机视觉、语音识别和自然语言理解。它们会在许多不同的数据集上进行大量训练,并能产生不同的输出。FM可以处理来自多个领域的多个应用,几乎不需要微调,也几乎没有或很少有针对特定任务的标签数据。它们通常通过自监督学习在来自不同领域和模式的大规模数据集上进行训练。通过使用仅包含少数实例的简短文本解释(提示),生成预训练变换器语言模型(GPT-3)[10]可以在无需显式训练的情况下完成意想不到的任务。随后,OpenAI创建并推广了ChatGPT(OpenAI,2022),这是GPT-3的分支,用于基于聊天的交互;这带来了NLP的革命性转变,为前所未有的沉浸式和互动式对话体验铺平了道路。在计算机视觉中,FM与分段任意模型(SAM)[11]类似,可以通过新颖的图像分布和零射推广任务来处理各种下游分割问题。他们接受了超过10亿个口罩和1100万张授权且尊重隐私的图片训练。Deepmind Ada [12] 将 FM 引入强化学习(RL),能够通过基于提炼的师生策略和定制化的 Transformer 架构,在几帧情境下推广到新任务。尽管取得了上述进展,FM在农业人工智能中的应用却鲜有关注。
 
1.1 农业领域的挑战
农业在全球经济中的重要性不断提升,伴随着人们对其可持续性的认识提升。Ahirwar等人[13]主张,全球农业食品产量必须至少增加70%,以满足不断增长的世界人口需求。农业中的多种因素阻碍了谷物产量的持续提升,包括(1)由细菌、真菌和病毒等病原体诱发的作物病害;(2)使用未经筛选、低质量的种子,导致作物生长不佳、产量下降以及疾病易感性增加;(3)各种农业操作中的低效,包括除草、播种、灌溉和收获。农业生产正经历显著的经济和产出损失。传统的作物病害检测方法,如针对病原体特定脱氧核糖核酸序列的聚合酶链式反应、基于病原蛋白的酶联免疫吸附测定法以及高光谱成像,受限于操作复杂性和设备繁琐的需求。质量保证项目采用多种方法验证种子质量参数,如发芽率和活力测试,以选择高质量种子。然而,这些方法在时间开销、主观性以及对种子质量的破坏性评估方面存在限制。
 
农业中除草剂用于杂草管理可能带来严重的环境后果,植物毒性反应可能导致作物质量和产量下降[14]。传统的解决方案浪费时间较大,因为有人操作设备反应迟缓。因此,为农业工人制定快速、简便且便捷的应对重点问题的方法至关重要。另一方面,受到健康意识提升的鼓舞,公众长期以来一直关注食品的安全性和质量,这些食品与农产品相关。减少粮食损失和提高食品安全,很大程度上依赖于持续的作物质量监测,特别是在整个作物生长过程中的病害检查。人类文明在历史上很大程度上通过农业建立起来。推动当代农业向技术驱动范式转变的诸多困难中,包括耕地有限、水资源短缺、气候变化、土壤退化、病虫害爆发以及劳动力短缺[15]。解决这些挑战的主要推动力之一是将新技术引入农业。随着农业行业探索数字技术在农业、作物管理及相关运营中的潜力,出现了包括“智能农业”、“精准农业”、“数字农业”、“决策农业”和“农业4.0”在内的新理念。新的农业技术必须出现,尤其是在工业化较少、人口较少、教育水平较低的地区。智能设施和技术可通过减轻农民负担、提升产品质量和市场竞争力,以及提供农业知识和信息的获取,促进更可持续、高效和高效的农业系统。
 
人工智能和物联网(IoT)是最常被讨论和研究的现代技术之一,这些技术有望应用于农业。通过将物理世界的数字数据与物联网和高科技传感器的数字数据结合起来,先进技术使人们能够创建真实世界的物品和环境的数字表现[16]。在农业领域,它带来了改变游戏规则的力量,并为风险分析、资源优化、决策支持、设备监控和精准农业开辟了道路。两种人工智能应用——计算机视觉和预测系统——也极大地改善了农业。得益于更先进的人工智能算法,创意应用在各个领域涌现。
 
1.2 基于大型语言的人工智能解决方案
大型模型常被用作农业中的有效分析工具。大型模型在农业数据分析、病虫害防治、精准农业及其他应用中表现优异。然而,它仍面临诸多挑战,包括获取农业数据困难、模型训练效率低下、分布偏移以及植物盲区[17]。像DALL、GPT和扩散模型这样的大型模型在视觉材料、多模态分析和自然语言方面表现相当不错。这些版本经过改进以满足各行业需求[15]。法律文件,如与植物保护措施相关的文件,可以通过LLM适当描述,LLM也擅长解释特殊区域法规的适用。LLM采用概率分词,通过缩小数据集规模实现这一目标。像GPT-3这样的高级大型语言模型(LLM)已结合了数据净化和强化学习(RL)技术,并有人类参与。该模型通过调整特定参数,产生更易理解的结果。作者等人[9]在查询GPT-3.5时提到了德国的“植物保护应用条例”。这份23页的实施植物保护法的法规具有复杂且相互关联的关系。GPT-3.5 使用项目符号来对特定规则查询提供简明、直接的回答;潜在的相互关系已经被揭示。遗憾的是,法律经常被修改,因此需要重新投入理解LLM的承诺,才能给出准确有效的答案。高质量的模型需要大量的努力和资金。然而,LLMs在农业中有重要应用。从(a)咨询和协助,(b)自动化文档,(c)解释和教育,(d)机器学习结果和预测的解读,(e)为农民提供个性化咨询,(f)项目资格,(g)实时监控农民面临的问题,并主动管理州级问题,(h)个性化农业培训——农业教育内容,(i)优化轮作,(j)市场情报以提升定价, 等等。下图1展示了大型语言模型为农业部门提供的广泛应用。
 
图1
图1这张图片的替代文本可能是用AI生成的。
全尺寸图像
大型语言模型在农业中的应用,如自动报告、技术指南、应用决策支持、文本处理、官方应用协助和咨询
 
农业咨询的概念被纳入咨询和协助中。这有助于确定最佳时间、活动和工具,以优化现场产量。农场管理系统和机器跟踪收集的数据通常可被机器读取;自动化文档描述了这些数据如何被转化为人类可读的语言。教学资源,如指南、教程、电影和书籍,旨在自动创建以便自学。在处理数字技术时,建议从一个较为技术性低、更易理解的引言开始。最后,机器学习结果和预测支持基于上下文的解释或直接决策支持[18]。与该系统的咨询为农民提供情境性帮助,而个性化咨询服务则提供极佳的建议。当农民在作物管理的每个阶段都没有可以沟通的人时,他们面临着重大挑战。补贴分配逐步取代了政府农业官员此前提供的咨询服务。此外,生成式人工智能还能从农民的问题和回答中学习,使其能够实时建设和改进自身。一些具备相应基础设施的印度企业已迅速启动三项试点项目。在奥里萨邦,Samagra推出了试播剧《Ama Krush》。除了DigitalGreen和 Gooey.ai,Apurva.ai 还推出了Farmer-chat和国家数字推广的试点项目[18]。借助基于人工智能的技术,开发抗病、高产且适应气候变化的商品成为可能。基于人工智能的解决方案在农业领域的多样化应用见图。2.
 
图2
图2这张图片的替代文本可能是用AI生成的。
全尺寸图像
基于人工智能的智能与精准农业解决方案
 
符合条件的人可能会发现更多关于政府网站的信息。对利用政府项目数据训练的生成式人工智能有良好的支持。之后,这可能帮助客户找到合适的政府项目。智能农业方法的关键部分是实时关注农民面临的问题并采取措施加以解决[19]。由于农民面临诸多问题,大多数州都会给他们一条电话线,方便他们求助。基于语音的机器学习和通话摘要使得每天的通话号码能够自动跟踪和分类,按农场面临的不同问题类型进行排序。此时,生成式人工智能提供了一个教学代理,能够回答每位农民独特且个性化的问题。专门用于农业的LLM可以利用所有数据源和不同机构的数据。之后,这个虚拟代理可以被改进为农民定制的教师。轮作有两个关键作用:保持土壤健康和预防疾病。LLMs可以通过查看过去的数据来判断最佳的轮作方法。每个农民都需要了解市场价格和趋势的运作方式。对市场数据的LLM研究可以即时提供价格趋势、需求变化和客户口味的信息[20]。
 
我们旨在提供大型模型的全面分析,首先系统总结大型模型的历史(大型语言模型、大型视觉模型、多模态大型语言模型和强化大型语言模型)、其他领域的大型模型,以及大型模型在农业中的重要性。随后,我们介绍了大型模型在农业中的多种应用。因此,本研究旨在探索开发和应用大型语言模型在农业应用中的潜力。更具体地说,我们首先回顾了通用计算机科学(CS)领域的最新大型语言模型,并将其分为四类:农业应用中的大型语言模型(LLM)、农场应用中的大型视觉模型(LVM)、多模态大型语言模型(MLLM)和模型评估,以及农业中的强化学习基础模型(RLFMs)。随后,我们将概述大型农业基础模型(ALFMs)的开发过程,并讨论其在智能农业中的潜在应用。此外,由于大型模型是一种相对较新的技术手段,我们根据其伦理和责任方面提出了一些解决方案。最后,我们总结了大型模型当前面临的挑战和未来方向,并总结了其在农业领域实施的有效性。对农业大型模型的全面研究,将成为新手和有经验研究者在农业领域创新的宝贵资源。文章详细介绍了创建大型语言模型的困难和风险,包括模型训练、验证和部署。无论是新手还是资深研究者,农业LLM扫描都会发现这项深入分析对农业创新极为宝贵。据我们所知,这是智能农业领域中首篇关于大型语言模型的综合综述论文。该贡献的创新要素如下所示。
 
1.3 贡献
为此,本文简要介绍了大型语言模型中架构、应用、评估和安全问题的历史与分析。本文的贡献包括:
 
(a)
我们详细介绍了不同类型的大型语言模型及其通用架构。
 
(b)
关于各类计算机科学领域LLM的综合文献综述。对大型语言模型安全问题的最先进评测、分析与比较。
 
(c)
受ChatGPT等大型预训练语言模型进步的激励,我们进行了农业文本分类的初步研究。
 
(d)
讨论了大型语言模型在智能农业和精准农业中的应用。更具体地说,这些应用分为四类:农业应用中的大型语言模型(LLM)、农业应用中的大型视觉模型(LVM)、多模态大型语言模型(MLLM)及模型评估,以及农业中的强化学习基础模型(RLFMs)。这四个子分类又细分为多个子部分。
 
(e)
我们还提供了医学、教育、科学、数学、法律、金融和编程等其他领域的详细应用场景。
 
(女)
还讨论了LLM的安全需求与挑战、可能的解决方案以及未来研究领域。
 
1.4 报纸版面
剩余的论文被分为六个额外部分,如图所示。下面3个。第二部分从对大型语言模型模型的历史、应用及现状的详细理解开始。本节将详细概述各种多样化的基于大型语言的模型、大型语言模型家族、其架构、分类学及定性分析。第三部分讨论了LLMs在智能与精准农业、医学、教育、科学、数学、法律、金融和编程中的应用。更具体地说,在农业领域,我们将应用进一步分为四个领域,包括农业应用中的大型语言模型、农业应用中的大型视觉模型、多模态大型语言模型与模型评估,以及农业中的强化学习基础模型(RLFMs)。用于评估大型语言模型模型及其详细讨论的各种基准数据集是 Sect 的核心。4. 第5节介绍了大型语言模型在安全深度伪造方面面临的多重挑战和阴暗面,并讨论了可能的解决方案。最后,论文以新研究成果结尾,列为《教派结论》。6。
 
图3
图3这张图片的替代文本可能是用AI生成的。
全尺寸图像
论文完整结构
 
2 理解基于语言的系统:历史视角
本节概述了大型基于语言系统的历史,帮助理解其复杂性、需求、架构、族、类型和应用。自二战后人工智能领域兴起以来,经历了多次发展和放缓。在这些阶段,大学和企业对人工智能研究的资助方式常常会发生变化。
 
2.1 大型语言与大型视觉模型的历史
人工智能的主要目标是制造能够像人类一样学习和思考的机器,类似于人类能看见和说话。目前,自然语言处理(NLP)和计算机视觉(CV)也处于大模型研究的核心。NLP是LLM和大型视觉模型(LVM)灵感来源,我们可以将它们分为四个阶段:
 
统计语言模型(SLM):统计语言模型在训练过程中通过n-gram及其他经典统计方法和特定语言规则学习单词的概率分布。为了提供能够有效竞争既有n-gram语言模型的解决方案,普遍认为数据量和特定估计方法处理大量训练的能力是关键因素[21]。SLM在自然语言处理中广泛应用的一个例子是Raychev等人[21]开发的静态分析,用于修复错误代码,这种方法既简单又可扩展。然而,n-gram模型存在三个问题。首先,计算和计数参数所需的内存量与 n 的值成正比增长。n 的大小可以通过马尔可夫假设进行约束。其次,使用 n-gram 的模型不能交换语义相关的词汇或前缀数据。将文本转换为矢量格式的一种方法是使用词嵌入,但这在数据稀疏情况下也可能带来问题。解决这一问题的一种方法是使用数据平滑、退回和插值[22]。此外,数据稀疏性对神经网络模型来说不是问题。
 
神经语言模型(NLM):为了模拟语言,它们使用多种神经网络,与SLM相比,神经语言模型更为成功[23]。前馈神经网络和循环神经网络(RNN)被用于连续空间语言建模,以解决n-gram模型中的数据稀疏性。这些神经网络使模型能够自动学习特征和连续表示。Bengio 等人[24]提出了第一个前馈神经网络语言模型(FFNNLM)。该模型通过学习单词的分布表示来解决维度问题。Sundermeyer等人[25]通过提出LSTM-RNNLM将长期短期记忆循环神经网络应用于语言模型。通过向LSTM内存单元添加三个门结构,解决了长期依赖语言模型学习的问题。这些门结构包括输入门、输出门和遗忘门。这些门结构的目的是管理信息流。
 
预训练语言模型(PLM):用于分类预训练语言模型的两种不同范式:基于特征的和微调的。基于特征的方法将预训练视为特征提取过程,在大规模语料库上训练模型参数,并将其编码为固定特征,供下游模型在集体任务中使用。例如Peters等人[26]提出的预训练双向LSTM(BiLSTM)ElMo,就是典型例子。由于LSTM建模句子,它只能考虑当前句子之前的上下文信息,无法考虑其后面的上下文信息。此外,BiLSTM采用反向网络,可以同时考虑前后上下文细节,从而提升顺序数据处理。微调范式是目前主流范式,比基于特征的范式更具灵活性,它将整个模型的参数转移到更后期执行的动作中。来自变换器(BERT)的双向编码器表示和生成预训练变换器(GPT)是展示微调过程的模型。2017年,谷歌研究团队发布了一个名为Transformer[27]的模型,其中包含了自我注意力机制。与此同时,OpenAI 开发了基于 Transformer [27] 架构的 GPT;GPT通过对大文本数据集进行初步训练,然后微调参数,几乎实现了完美的训练效果。BERT算法通过对双向语言模型进行预训练,针对大型无标签语料库进行专门定制的预训练任务开发。这些预训练的上下文感知词表示作为通用语义特征的有效性很高,显著提升了自然语言处理任务的性能。此外,由于Transformer提供的模型训练速度极快,它也越来越成为大型语言模型(LLM)的核心架构。
 
大型语言模型(LLM):LLM是一种具有数十亿或更多参数的语言模型。大型模型具备小模型所缺乏的能力,称为大型语言模型的涌现能力。这是LLM与PLM之间的显著区分特征。OpenAI研究人员发现,较大模型相比以往迭代,持续展现出更优的性能和显著提升的采样效率[28]。大量当代研究训练了大规模PLM,发现与较小PLM不同,大型PLM具有独特的行为和显著的能力,能够解决各种复杂问题[28]。这指的是如前所述,LLMs的涌现能力。例如,GPT-3的上下文学习能力可以通过完成输入文本中的词序列,而无需进一步训练或调整梯度,从而为测试样本提供预期输出,这是GPT-2无法实现的成就。因此,研究界将这些具有增强功能的大规模PLMs称为LLMs[29]。
 
而大型视觉模型(LVM)则是与计算机视觉(CV)相关的模型。对视觉模型的研究最初集中于表层图像特征提取算法,如尺度不变特征变换、定向梯度直方图等技术,但遇到了相当大的限制。2012年,AlexNet [30] 在 ImageNet 大规模视觉识别挑战赛中取得了重大突破,催生了卷积神经网络(CNN)用于视觉建模的激增[31,32,33]。深度学习的进步促使了如VGGNet、GoogLeNet和ResNet等深度残差网络的顺序引入,提升了图像分类、对象识别和语义分割的效能。互联网的普及促进了大量图像集用于训练视觉模型的使用。更快的R-CNN[34]、YOLO[35]和掩膜R-CNN[36]是依序开发出来的。近年来,变换器被用于LVM领域,出现了视觉变换器(ViT)[37]和DALL-E [38]。这些模型采用自注意机制和生成对抗网络,展现出图像分类和创建任务中的稳健熟练度。
 
除了上述大型语言模型和LVM外,多模态大型语言模型(MLLM)也是大型语言模型研究的焦点。大型语言模型擅长基于文本的活动;然而,它们在理解和处理其他数据类型时仍然具有挑战性。大型视觉模型在计算机视觉中表现出色,但缺乏分析结果的信息,这给用户带来了一定限制。MLLM[39] 融合了多种数据模态,包括图像、文本、语言和音频。它涵盖了LLM和LVM的优势,并通过融合多种模式来缓解其局限,促进对多样化内容的更全面理解。MLLM的发展为人工智能开辟了新的路径,使二进制计算机能够理解并随后分析多种数据格式。
 
2.2 目前开发的大型模型
多位行业专家发现,大型模型可能带来显著的行业进步。许多企业已开始依次分配人力资源、材料和资金投资,开发适合工业应用的大型模型,能够执行某些专业活动。表1说明,主流大型模型大多是LLM和MLLM,而LVM则占少数。许多大型语言模型被设计用于创建聊天机器人 BLOOM [41]、PaLM2 [42]、ERNIE Bot,或执行其他自然语言处理(NLP)任务,如文本分类、机器翻译和情感分析 OPT [43]。某些研究人员对NLP任务感到不满;因此,他们加入了视觉功能,使模型能够基于图像(如Minipt-4[44])回应询问。这种模型被称为大型视觉语言模型(LVLM)。虽然LVLM满足了某些功能,并显著推动了大型模型向通用人工智能(AGI)迈进,但它仍不足以使机器能够通过迁移学习和多种模态复制人类认知并执行广泛的通用任务,而不达到模型的多模态性[45]。某些广泛的模型包含了多模态,使它们能够评估多种信息形式,如GPT-4[46]、LLaMA[47]、Gemini[48]、ImageBind[49],并与用户互动。
 
表1 当前流行的大型模型
全尺寸表格
然而,由于许多现有模型是通用的,且其训练数据集过于多样化,无法为特定专业领域的问题提供合适的解决方案。根据戈尔策尔的观点,一个系统不需要无限的普遍性、适应性或灵活性才能被归类为AGI[53]。因此,多位研究人员在发布针对特定主题的新大型模型之前,先对现有大型模型进行了完善和修改。BloombergGPT在通用大型语言模型基准测试中表现出色,并在金融职位中优于同类模型。华为的盘古LM气象模型可在一小时至七天内预测重力势、湿度、风速、温度和气压。PaLM-E与机器人的集成可以完成多种任务,包括视觉问答、顺序机器人操作规划和字幕制作。OCEANGPT是多项海洋科学工作的专家[54]。它展现了对海洋研究活动更强的知识能力,并培养了海洋工程所需的初步具象智能技能。PMC-LLaMA 是一个开创性的开源医学语言模型,在多项医学基准测试中以更少参数优于 ChatGPT 和 LLaMA-2。
 
2.3 通往大型语言模型家族的路径
在本小节中,我们将回顾早期预训练的神经语言模型,因为它们是大型语言模型(LLM)的基础。然后,我们将重点讨论三大语言模型家族:GPT、LlaMA和PaLM。表1概述了其中一些模型及其特性。
 
2.3.1 早期预训练神经语言模型
利用神经网络进行语言建模是在大型语言模型研究早期开发阶段的开创性应用。Bengio 等人[64]创建了最早类似于 n-gram 模型的神经语言模型(NLM)。随后,[65] 等人成功地利用 NLM 进行机器翻译。Mikolov引入的RNNLM(开源NLM工具包)[66]极大地促进了NLM的普及。后来,基于循环神经网络(RNN)及其衍生的NLM,如长短期记忆(LSTM)和门控循环单元(GRU)[67],在多种自然语言应用中广受欢迎,包括机器翻译、文本生成和文本分类。随后,变换器架构被发明,标志着NLM发展的又一里程碑。变换器通过自关注并行计算句子中的每个词,或记录“注意力评分”来模拟每个词对其他词的影响,从而实现比RNN更多的并行化,从而在GPU上高效预训练大型语言模型,处理大量数据。这些预训练语言模型(PLM)可能会为未来的活动进行微调。我们根据神经拓扑将早期流行的基于变换器的PLM分为三类:仅编码器、仅解码器和编码器-解码器模型。
 
2.3.1.1 Encoder-only PLMs
仅编码器的类型听起来就像只有编码器网络。这些模型最初是为需要理解语言的工作而创建的,比如文本分类,需要猜测文本属于哪个类别。仅编码器模型的一些例子包括BERT及其版本,如RoBERTa、ALBERTa、DeBERTa、XLM、XLNet和UNILM。
 
它是最受欢迎的仅编码器语言模型之一[68]。其名称来源于它使用了变换器中的双向编码器表示。BERT 由三部分组成:(1) 嵌入模块,将文本转化为一系列嵌入向量;(2)一组变换器编码器,将嵌入向量转换为上下文表示向量;以及(3)一个全连通层,将表示向量在顶层转化为单热向量。BERT已经学会了进行掩蔽语言建模(MLM)并预测以下行。预训练的BERT模型可以通过添加分类器层来改进。这适用于许多语言学习任务,如文本分类、问答和语言推理。图4对BERT结构进行了广泛介绍。BERT发布后,它对许多语言学习任务的技术水平产生了巨大影响。这促使人工智能社区基于BERT创建了类似的仅编码器语言模型。
 
图4
图4这张图片的替代文本可能是用AI生成的。
全尺寸图像
BERT的整体预培训和微调程序
 
通过一系列模型设计决策和训练技术,包括改变一些关键超参数、取消下一句预训练目标,以及使用更大批量的微批次和学习率进行训练,RoBERTa [69] 显著提升了 BERT 的鲁棒性。为了减少内存占用并加快BERT训练速度,ALBERT [70] 采用了两种参数缩减策略:(1)将嵌入矩阵划分为两个较小的矩阵;(2)使用跨组的重复层。DeBERTa(解码增强版BERT和解缠注意力)通过两种创新方法增强了BERT和RoBERTa模型。第一种是解缠注意力机制,其中单词之间的注意力权重分别通过解缠矩阵计算,分别基于它们的相对位置和内容,每个单词由两个向量表示,分别编码其位置和内容。其次,为了预测模型预训练中的掩蔽标记,解码层中包含绝对位置,使用改进的掩码解码器。此外,还采用了一种新的虚拟对抗训练技术进行微调,以增强模型的泛化。UELECTRA [71] 采用了一种新颖的预训练任务,称为替换令牌检测(RTD),实验证明其样本效率优于多层次传染(MLM)。RTD不隐藏输入,而是通过用从微小生成器网络中提取的合理替代替换特定代币来修改输入。然后,不开发预测损坏令牌原始身份的模型,而是训练判别模型来判断样本是否替换了损坏输入中的令牌。RTD比MLM更高效,因为它定义覆盖所有输入代币,而不仅仅是覆盖极小的部分。XLMs[72]通过两种方法将BERT适配到跨语言语言模型:(1)一种专门使用单语数据的无监督技术,以及(2)一种使用并行数据和新的跨语言模型目标的监督方法,如图所示。5。
 
图5
图5这张图片的替代文本可能是用AI生成的。
全尺寸图像
跨语言语言模型预训练。MLM的目标类似于BERT,但采用连续的文本流,而非句子对
 
当XLM首次被提出时,它们在跨语言分类以及无监督和监督机器翻译方面取得了前沿成果。仅编码语言模型在模型训练和推断过程中也利用了自回归(译码器)模型的优势。两个例子是XLNet和UNILM。XLNet[73]基于Transformer-XL构建,后者采用广义自回归技术预训练,通过最大化所有分解顺序排列的期望概率实现双向上下文学习。UNILM(统一预训练语言模型)[74] 基于三种语言建模任务进行训练:单向、双向和序列间预测。这通过使用共享的变换器网络和独特的自我注意力掩码来调节预测所依赖的上下文来实现。预训练模型可以针对自然语言理解和生成任务进行微调。
 
2.3.1.2 仅解码器的PLM
OpenAI开发了两种最广泛使用的仅解码PLM:GPT-1和GPT-2。这些模型成为更强大大型语言模型(如GPT-3和GPT-4)的基础。GPT-1 [75] 首次展示了通过生成预训练(GPT)可以在多种自然语言任务中获得稳定表现。变换器模型通过自监督学习(即预测下一个词/词汇)在多样的无标签文本语料库上训练,随后对每个下游作业进行判别微调(样本量明显减少),如图所示。6. GPT-1为未来GPT模型奠定基础,每次迭代都在完善架构,并在多样化语言任务中获得更高性能。GPT-2 [76] 证明,当语言模型在庞大的网络文本数据集(包括数百万个网站)上训练时,可以学习完成特定的自然语言任务,无需显式监督。GPT-2模型基于GPT-1模型设计,做了一些修改:层规范化移动到每个子块输入,在最终自注意块后添加额外的层规范化,初始化调整以考虑残差路径的累积和残余层权重的缩放,词汇量增加到50.25, 上下文大小从512个增加到1024个。
 
图6
图6这张图片的替代文本可能是用AI生成的。
全尺寸图像
GPT预训练和微调步骤的高级概述。感谢OpenAI
 
2.3.1.3 编码-解码器PLM
Raffle 等人[77]表明,几乎所有自然语言处理任务都可以被归类为序列到序列生成任务。因此,编码器-译码器语言模型在设计上是一个统一模型,能够执行全自然语言的理解和生成任务。T5 [77] 是一种文本到文本传输转换器(T5)模型,通过引入统一框架,将迁移学习有效应用于自然语言处理,所有NLP任务都被定义为文本到文本生成任务。mT5 [78] 是 T5 的多语言变体,预训练于一个基于 Common Crawl 的新数据集,该数据集包含 101 种语言的文本。MASS(MAsked Sequence to Sequence 预训练)[79] 采用编码-解码框架,在句子剩余部分的情况下重建句子片段。编码器输入一个随机掩蔽片段(多个连续的标记),并预测掩蔽片段。通过这种方式,MASS 联合训练编码器和解码器,分别用于语言嵌入和生成。BART [80] 采用标准的序列间转换模型架构。它通过用任意噪声函数破坏文本进行预训练,然后学习重建原文。图7总结了现有的预训练框架,可分为三类:变换器解码器、变换器编码器和变换器解码器-编码器。
 
图7
图7这张图片的替代文本可能是用AI生成的。
全尺寸图像
当前流行的预训练框架示例,其中 x 是原始句子 xt (t = 1,2,...,T)是th标记 T 是序列长度,M(x) 是 x 中掩蔽标记的集合。S 表示序列的起始令牌嵌入。p1、p2、p3 和 p4 表示第一到第四个令牌的位置嵌入。P 是条件概率。I 和 j 分别表示编码器输入令牌的起始和结束索引
 
2.3.2 大型语言模型家族
大型语言模型(LLMs)是基于变换器的PLM,拥有数百亿到数千亿个参数。与上述 PLM 相比,LLM 模型体积显著更大,展现出更强的语言理解、生成能力以及小规模模型所缺乏的涌现技能。本节探讨大型语言模型,简要介绍其结构、训练目标、流程、数据集及微调选项。本节还探讨了其他大型语言模型,简要介绍了它们的结构、训练目标、流程、数据集以及微调选项。我们将这些众多的大型语言模型分为七大类别,从三个LLM家族开始:GPT、LLaMA和PaLM,如图所示。8. 其次是预训练通用LLM、基于编码的预训练LLM、科学知识预培训LLM,最后是LLM的其他代表。
 
图8
图8这张图片的替代文本可能是用AI生成的。
全尺寸图像
流行的大型语言模型家族
 
2.3.2.1 GPT家族
OpenAI 创建了生成预训练变换器(GPT),这是一系列仅基于译码器的变换器语言模型。该家族包括GPT-1、GPT-2、GPT-3、InstrucGPT、ChatGPT、GPT-4、CODEX和WebGPT。尽管早期的GPT模型,如GPT-1和GPT-2是开源的,但更现代的版本,如GPT-3和GPT-4,则为闭源,仅通过API访问。早期的PLM环节涵盖了GPT-1和GPT-2模型。GPT-3 [81] 是一个预训练的自回归语言模型,拥有1750亿参数。GPT-3 通常被认为是首个大型语言模型,因为它比之前的 PLM 大得多,并展现了之前较小的 PLM 中未曾出现的新兴技能。GPT-3 展示了上下文学习的涌现能力,这意味着它可以应用于任何下游任务,无需梯度更新或微调,功能和少量样本演示仅通过与模型的文本交互即可实现。GPT-3在多种NLP任务中表现良好,包括翻译、问答和填空任务,以及需要即时推理或领域适应的任务,如解组单词、句子中新词和三位数算术。它们还展现了更高的语言理解力、生成能力以及涌现技能,这些在小规模模型中并不明显。
 
CODEX [82] 由 OpenAI 于 2023 年 3 月推出,是一种通用编程模型,能够解析自然语言并生成相应的代码。CODEX 是 GPT-3 的后代,经过精细调优,用于使用 GitHub 上的代码语料库编程应用程序。
 
WebGPT [83] 是 GPT-3 的另一个后代,经过微调,能够通过基于文本的网页浏览器回答开放式问题,允许用户搜索和浏览网页。具体来说,WebGPT的训练分为三个阶段。第一步是让WebGPT学习从人类演示数据中模拟人类浏览活动。然后,奖励函数被训练以预测人类偏好。最后,WebGPT通过强化学习和拒绝抽样最大化了奖励函数。InstructGPT [84] 建议通过利用人类输入微调,使语言模型与用户在各项活动中的意图保持一致,从而使大型语言模型能够遵循预期的人类指令。收集了标签器演示所需模型行为的数据集,首先是一组由标签器编写的提示和通过OpenAI API发送的提示。然后对GPT-3进行调整。之后,收集一组人类排名的模型输出,用于应用强化学习和进一步的模型调优。该方法是基于人类反馈的强化学习(RLHF)。虽然现有NLP数据集中性能回归很少,但由此产生的InstructGPT模型显示出鲁棒性提升和危险输出的减少。
[返回]
上一篇:基于图数据库的策略智能问答系统
下一篇:大型语言模型DeepSeek在中国医院的快速部署需要监管应对