欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
博士论文
当前位置:首页 > 博士论文
数据驱动型地球系统科学的深度学习和过程理解
来源:一起赢论文网     日期:2024-03-09     浏览数:70     【 字体:
 
人类一直在努力预测和理解世界,做出更好预测的能力在不同的环境(如天气、疾病或金融市场)中具有竞争优势。然而,随着时间的推移,预测工具发生了重大变化,从古希腊的哲学推理到非科学的中世纪方法,如占卜,再到现代科学话语,其中包括假设检验、理论发展和计算机建模,这些都以统计和物理关系为基础,即定律1.地球科学的一个成功案例是天气预报,通过整合更好的理论、增加的计算能力和建立的观测系统,天气预报得到了极大的改进,这些观测系统允许将大量数据同化到建模系统中2.然而,我们可以在几天而不是几个月的时间尺度上准确预测天气的演变。季节性气象预报、洪水或火灾等极端事件预报以及长期气候预报仍然是主要挑战。对于预测生物圈的动态尤其如此,生物圈由生物介导的过程(如生长或繁殖)主导,并受到火灾和山体滑坡等看似随机的干扰的强烈控制。在过去的几十年里,这种预测问题并没有取得太大进展3.
 
与此同时,大量地球系统数据已经可用,存储量已经远远超过数十PB,传输速率迅速增加,每天超过数百TB4.这些数据来自大量传感器,用于测量状态、通量和密集或时间/空间积分变量,代表 15 个或更多数量级的时间和空间大小。它们包括从地球上空几米到几百公里的遥感,以及地表和地下以及大气中的原位观测(越来越多地来自自主传感器),其中许多正在进一步得到公民科学观测的补充。模型仿真输出加剧了这种泛滥;气候模式比较项目的CMIP-5数据集广泛用于定期气候评估的科学基础工作,其大小超过3 PB,下一代CMIP-6估计可达30 PB5.来自模型的数据共享观测数据的许多挑战和统计特性,包括许多形式的不确定性。总之,地球系统数据是“大数据”的四个“V”的典范:体积、速度、多样性和真实性(见图)。1). 一个关键的挑战是从这些大数据中提取可解释的信息和知识,可能几乎是实时的,并在学科之间进行整合。
 
图1:地球科学背景下的大数据挑战。
图1
数据大小现在超过 100 PB,并且呈准指数级增长(右图的逐渐减少表示数据大小正在减小。变化速度超过每年 5 PB;数据采集频率高达 10 Hz 或更高;重新处理和版本控制是常见的挑战。数据源可以是一维到四维的,在空间上是一维的,从器官层面(如树叶)到全局层面。地球有各种各样的观测系统,从遥感到原位观测。数据的不确定性可能源于观察错误或概念上的不一致。
 
全尺寸图像
总而言之,我们收集和创建数据的能力远远超过了我们明智地吸收数据的能力,更不用说理解它了。在过去的几十年里,预测能力并没有随着数据可用性的提高而迅速提高。为了充分利用地球系统数据的爆炸性增长和多样性,我们在未来几年面临两项主要任务:(1)从数据洪流中提取知识,以及(2)从数据中获取比传统数据同化方法更多的模型,同时仍然尊重我们对自然规律不断发展的理解。
 
前所未有的数据源、增强的计算能力以及统计建模和机器学习的最新进展相结合,为从数据中扩展我们对地球系统的了解提供了令人兴奋的新机会。特别是,机器学习和人工智能领域有许多工具,但它们需要进一步开发并适应地球科学分析。地球系统科学提供了新的机遇、挑战和方法要求,特别是对于最近侧重于时空背景和不确定性的研究方向(插文1;更完整的词汇表见 https://developers.google.com/machine-learning/glossary/ 和 http://www.wildml.com/deep-learning-glossary/)。
 
在以下各节中,我们将回顾机器学习在地球科学背景下的发展,并强调深度学习(即自动提取抽象(时空)特征)如何有可能克服迄今为止阻碍机器学习更广泛采用的许多限制。我们进一步列出了将机器学习与物理建模相结合的最有前途但也最具挑战性的方法。
 
方框1 术语定义
表1
全尺寸桌子
显示更多
最先进的地球科学机器学习
机器学习现在是几个研究驱动和可操作的地球科学处理方案的成功部分,涉及大气、地表和海洋,并且在过去十年中与数据可用性共同发展。大约30年前,由于高分辨率卫星数据的巧合和神经网络的首次复兴,土地覆盖和云分类的早期里程碑出现了6,7.大多数主要的机器学习方法(例如,核方法或“随机森林”)随后被应用于地球科学和遥感问题,通常是在获得适合相关方法的数据时8.因此,机器学习已成为地球科学分类以及变化和异常检测问题的通用方法9、10、11、12.在过去的几年里,地球科学已经开始使用深度学习来更好地利用数据中的空间和时间结构,这些特征通常是传统机器学习难以提取的特征(见表1和下文)。
 
表1 地球科学任务的常规方法和深度学习方法
全尺寸桌子
机器学习成功的另一类问题是回归。一个例子是土壤制图,其中土壤属性和协变量的测量值存在于空间中稀疏分布的点,并且使用“随机森林”(一种流行且有效的机器学习方法)来预测土壤属性或土壤类型的空间密集估计值13,14.在过去十年中,机器学习在局部和全球尺度的遥感反射率生物地球物理参数回归估计方面取得了突出的成果15,16,17.这些方法强调空间预测,即对观测时间段内相对静止的属性进行预测。
 
然而,地球系统有趣的是,它不是静态的,而是动态的。机器学习回归技术也被用于研究这些动态,方法是将时间变化的特征映射到陆地、海洋和大气领域中时间变化的目标变量上。由于不可能在任何地方都观测到陆地-大气或海洋-大气碳吸收等变量,因此一项挑战是通过建立将气候和遥感协变量与目标变量联系起来的模型,从点观测中推断出大陆或全球估计值。在这种情况下,机器学习方法已被证明比以前的机械或半经验建模方法更强大、更灵活。例如,具有一个隐藏层的人工神经网络能够过滤掉噪声,预测二氧化碳(CO2)通量,以及提取物模式,例如根系生长期间春季呼吸作用的增加,这在以前是未量化的,在碳循环模型中没有得到很好的体现18.然后,进一步的发展使我们能够以纯粹的数据驱动方式量化全球陆地光合作用和水的蒸散19,20.这种机器学习预测通量的空间、季节、年际或年代际变化甚至被用作物理地表和气候模型评估的重要基准21、22、23、24.同样,海洋一氧化碳2浓度和通量已经用神经网络在时空上映射,其中分类和回归方法已经结合起来,既可以对数据进行分层,也可以进行预测25.近年来,随机森林法也被用于预测时空变化的降水量26.总的来说,我们得出的结论是,各种有影响力的机器学习方法已经应用于地球系统科学的所有主要子领域,并且越来越多地被整合到操作方案中,并被用于发现模式,提高我们的理解和评估全面的物理模型。
 
尽管机器学习在地球科学领域取得了成功,但重要的警告和限制阻碍了其更广泛的采用和影响。一些陷阱,例如幼稚的外推、抽样或其他数据偏差的风险,对混杂因素的无知,将统计关联解释为因果关系,或多重假设检验(“P-fishing”)中的基本缺陷27,28,29应通过最佳实践和专家干预来避免。更根本的是,目前应用的机器学习方法存在固有的局限性。正是在这个领域,深度学习技术有望取得突破。
 
经典的机器学习方法受益于特定于领域的手工制作特征,以解释时间或空间上的依赖性(例如,从每日时间序列派生的累积降水),但很少详尽地利用时空依赖性。例如,在海洋-大气或陆地-大气 CO 中2通量预测19,25,将瞬时的局部环境条件(如辐射、温度和湿度)映射到瞬时通量。在现实中,某个时间和空间点的过程几乎总是受到系统状态的额外影响,而系统状态通常不能很好地观察到,因此不能作为预测因子。但是,先前的时间步长和相邻的网格像元包含有关系统状态的隐藏信息(例如,长时间没有降雨加上持续的晴天意味着干旱)。空间和时间背景高度相关的一个例子是对火灾发生和特征(如燃烧面积和痕量气体排放)的预测。火灾的发生和蔓延不仅取决于瞬时气候驱动因素和点火源(如人为、闪电或两者兼而有之),还取决于状态变量,如状态和可用燃料量3.火势蔓延,因此燃烧面积不仅取决于每个像素的局部条件,还取决于燃料的空间排列和连通性、水分、地形特性,当然还有风速和风向。同样,将某种大气情况归类为飓风或温带风暴需要了解空间环境,例如由像素构成的风暴几何形状、它们的值和它们的拓扑。例如,检测对称的流出和可见的“眼睛”对于检测飓风和评估其强度非常重要,而这不能仅由局部的单像素值来确定。
 
当然,时间动态属性(“记忆效应”)可以通过机器学习中手工设计和特定于领域的特征来表示。例如,用于预测植被物候阶段的日温度和标准化降水指数的累积总和30,总结了过去几个月的降水异常,作为干旱状态的气象指标。很多时候,这些方法只考虑单个变量中的记忆,而忽略了几个变量的交互效应,尽管存在例外22,31.
 
机器学习还可以使用手工设计的特征(例如地形形状和卫星图像中的地形或纹理特征)来合并空间环境6.这类似于计算机视觉中的早期方法,在计算机视觉中,对象通常以一组描述边缘、纹理、形状和颜色的特征为特征。然后将这些特征输入到标准的机器学习算法中,用于定位、分类或检测图像中的物体。几十年来,在遥感图像分类中一直采用类似的方法8,9,10.手工设计的特征既可以看作是优势(控制解释性驱动因素),也可以看作是劣势(乏味的、临时的过程,可能不是最优的),但可以肯定的是,与使用有限和主观的特征选择而不是广泛和通用的方法有关的担忧仍然是有效和重要的。然而,深度学习的新发展不再局限于这种方法。
 
地球系统科学中的深度学习机会
深度学习在计算机视觉、语音识别和控制系统领域,在对具有空间上下文的有序序列和数据进行建模方面取得了显著的成功32,以及物理学的相关科学领域33,34,35化学36和生物学37(另见参考文献。38).在地球科学问题中的应用还处于起步阶段,但在关键问题(分类、异常检测、回归、空间或时间相关状态预测)中,有一些很有希望的例子(见表1和补充图1)。阿拉伯数字)39,40.最近的两项研究表明,深度学习在极端天气问题中的应用,例如飓风检测41,42——已经提到传统机器学习的执行存在问题。这些研究报告了在应用深度学习架构客观地提取空间特征以定义和分类极端情况(例如,风暴、大气河流)方面的成功,这些情况在数值天气预报模型输出中。这种方法可以快速检测此类事件并预测模拟,而无需使用主观的人工注释或依赖于预定义的风速或其他变量阈值的方法。特别是,这种方法使用事件空间形状的信息,例如典型的飓风螺旋。同样,对于城市地区的分类,从遥感数据中自动提取多尺度特征大大提高了分类精度(几乎总是大于95%)43.
 
虽然深度学习方法通常分为空间学习(例如,用于对象分类的卷积神经网络)和序列学习(例如,语音识别),但人们对融合这两种观点的兴趣越来越大。一个典型的例子是视频和运动预测44,45,这个问题与许多动态地球科学问题有着惊人的相似之处。在这里,我们面临着时间演变的多维结构,例如主导热带降雨模式的有组织降水对流,以及影响碳流动和蒸散的植被状态。研究开始将卷积-循环组合方法应用于地球科学问题,例如降水临近预报(表1)46.对大气和海洋输送、火势蔓延、土壤运动或植被动态进行建模是时空动态很重要的其他问题,但尚未从应用这些新方法的共同努力中受益。
 
简而言之,经典深度学习应用程序处理的数据类型与地球科学数据之间的相似性为将深度学习整合到地球科学中提供了令人信服的论据(图1)。2). 图像类似于包含特定变量的二维数据字段,类似于照片中的颜色三元组(RGB 值),而视频可以链接到一系列图像,从而链接到随时间演变的二维字段。同样,自然语言和语音信号在地球系统变量的动态时间序列中具有相同的多分辨率特征。此外,分类、回归、异常检测和动态建模是计算机视觉和地球科学中的典型问题。
[返回]
上一篇:受自然启发的人工智能对印度智慧城市的空气质量建模
下一篇:分布式自动驾驶实验室的动态知识图谱方法