通过开放和标准化的数据集加强人类流动性研究 |
来源:一起赢论文网 日期:2024-07-09 浏览数:385 【 字体: 大 中 小 大 中 小 大 中 小 】 |
人口流动研究与各个学科交叉,对城市规划、交通工程、公共卫生、灾害管理和经济分析具有深远的影响。在这里,我们讨论了该领域对开放和标准化数据集的迫切需求,包括当前挑战和其他计算科学领域的经验教训,并提出了合作努力,以提高人类流动性研究的有效性和可重复性。 人类流动数据和研究的出现
从移动设备中收集的大规模被动位置数据的激增使研究人员能够获得对各种社会现象的宝贵见解1.特别是,由于人类交通科学在城市规划、交通工程、公共卫生、灾害管理和经济分析等各个领域的跨学科影响,对人类流动科学的研究变得越来越重要2.计算社会科学、复杂系统和行为科学界的研究人员已经使用这种细粒度的移动数据来揭示支配个人和集体人类行为的普遍规律和理论3.此外,计算机科学研究人员一直专注于开发能够预测城市环境中复杂行为模式的计算和机器学习模型。著名的论文包括基于模式和深度学习的下一个位置预测方法,以及受物理启发的流动预测和生成方法4.
无论感兴趣的研究问题如何,人类流动性数据集通常都有很大的局限性。现有的公开数据集通常很小,仅限于特定的交通方式,或者由于隐私问题导致缺乏开源和大规模的人口流动数据集,因此受到地理限制5.真实世界的轨迹数据集的示例包括广泛使用的 GeoLife6、T-Drive轨迹数据集7,纽约市出租车和豪华轿车委员会数据集8和 Gowalla 数据集9,尽管这些数据集对于进行大规模的人类流动性预测实验很有价值,但缺乏大都市规模和纵向的个体开源数据集一直是阻碍人类流动性模型开发进展的主要障碍之一。开放数据的缺乏也使把关长期存在,无法访问独家数据集的研究人员被排除在该研究领域之外,这引发了科学界的公平问题。此外,即使研究人员可以访问处理过的移动数据集,隐私问题也限制了对原始和开放数据源的访问。这意味着即使是公开可用的数据集也经常在不使用标准化程序的情况下进行预处理。只需稍微更改数据预处理管道中的参数,例如,通过更改停靠点位置的空间和时间定义,就可以获得完全不同的数据集。这使得很难对不同方法进行公平的性能比较10.
人类流动性数据和研究的挑战
人类移动数据集是通过一系列预处理步骤从原始地理定位数据中生成的,其细节通常不会透露给进行分析的研究团队以外的人,如图所示。1. 进行预处理步骤 (1) 对数据进行降噪并消除 GPS 漂移,(2) 纠正移动数据中的任何潜在偏差,(3) 丰富数据的语义信息,以及 (4) 遵守隐私标准。位置数据通常最初用于营销和业务目的,而不是出于研究目的而收集,通常包含各种偏见。这些因素包括但不限于人口偏差(如年龄、收入和种族)、地理偏差(如城市与农村地区、发达国家与发展中国家)和行为偏差,在某些活动中,观察结果可能更频繁,例如检查兴趣点 (POI)11.
图1:人类移动数据由原始手机位置数据通过一系列复杂的预处理步骤生成,用于跨学科的下游研究任务。
图1
我们认为需要适合目的和标准化的人类流动性基准数据集,以进行可重复、公平和包容的人类流动性研究。CBG, 人口普查区块组;POI,兴趣点。
全尺寸图像
此外,为了丰富数据的语义信息以供进一步分析,对数据集应用了各种预处理步骤,包括用户截止和选择、停止检测、隐私增强、兴趣点和其他上下文的归属以及传输模式估计。每个步骤都需要数据分析师选择多个参数。例如,为了检测移动轨迹中的停靠点,数据科学家需要定义任意超参数,例如在停靠点花费的最小分钟数和允许从停靠点质心到停止的最大移动距离。由于每个预处理步骤都需要多个超参数,因此这些参数的选择稍有变化可能会导致处理后的人类移动数据集非常不同。
人类移动数据处理的复杂性使得数据用户(包括研究人员和分析师)难以跟踪在预处理步骤中做出的所有决策。此外,由于原始和处理过的人类流动性数据集的专有性质,披露预处理方法的细节可能不足以掌握执行下游任务的人类流动性数据的全部特征。这种对处理后的人类流动性数据集质量缺乏透明度的做法引发了人类流动性研究中的关键问题,包括方法性能缺乏可复制性、可推广性和可比性。研究人员可能会在特定数据集上声称拥有最先进的预测结果,这可能会导致过度拟合和泛化性丧失。为了解决移动数据有效性缺乏透明度的问题,几家数据公司(如Unacast、Safegraph和Cuebiq)以及科学论文12通过与可用的外部数据(例如美国社区调查以及体育场馆和工厂设施的访问模式)进行比较,评估并报告了人类流动性数据集的准确性。
向其他科学领域学习
能够公平地比较不同技术和方法的性能对于设计更高效和有效的方法至关重要。在机器学习和深度学习研究的早期,ImageNet数据集举办了测试计算机视觉算法性能的竞赛,并因推动深度学习研究的创新而得到广泛认可13.近年来,特定领域或特定任务的基准数据集呈爆炸式增长,例如,在计算机视觉、自然语言处理、语音处理、图形机器学习、分子机器学习、大气科学、城市三维点云和多模态机器学习中。这些数据集已被大量研究人员使用,有助于公平和可重复的方法和技术的集体开发。特别是,此类基准数据集通过设计保证所有算法都使用相同的数据设置进行测试,例如使用相同的训练集和测试集,以及预处理程序。
然而,迄今为止,还没有人类流动性的基准数据集来服务于关于人类流动性的最新数据密集型研究。与可以从开放网络上抓取的文本和图像数据相比,人类移动数据集的专有性质一直是开发基准移动数据集的主要障碍。
应对人口流动中的数据挑战
尽管人类流动性研究中没有标准的开放基准数据集,但最近探索的一种克服这一局限性的方法是开发机器学习模型,以生成合成的保护隐私的人类流动性数据集。早期的尝试使用递归神经网络和长短期记忆等模型来模拟人类的移动序列。最近的工作提出了基于扩散模型和基于注意力的建模方法,并显示出这些数据集的仿真准确性和实用性有了实质性的提高14.随着大型语言模型和基础模型的快速创新,我们预计会取得实质性进展。
弥合这一差距的另一种方法是与私人数据公司合作开发隐私安全、匿名的大规模移动数据集。例如,我们与雅虎日本公司(现称为LY公司)合作,根据手机位置数据创建了一个开源和匿名的人类移动轨迹数据集,该数据集专为下一个地点的预测任务量身定制,名为YJMob100K15.为了确保YJMob100K数据集可以广泛用作数据集,为人类流动性研究创建基准,我们最大限度地减少了任意预处理决策的数量,并使数据尽可能接近原始形式。通过这种方式,研究人员将能够灵活地将所需的预处理技术和程序应用于他们的应用和问题设置。数据用户的初步反馈总体上是积极的,但一些用户对当前形式的数据如何混乱和嘈杂表示担忧。例如,个体用户在数据数量和质量方面存在很大异质性,这是人类移动数据固有的典型偏差。这是我们做出的设计决策,旨在提高研究人员在预处理方面的灵活性,也希望 YJMob100K 数据集能够提高人们对移动数据预处理步骤的挑战的认识并引起更多关注。
数据挑战是将研究界聚集在一起并提高对新数据集和可能使用该数据集解决的社会挑战的认识的有效方法。过去,在人类流动性研究领域,与电信公司一起组织了许多数据挑战。例如,Orange在象牙海岸和塞内加尔提供的两项使用手机数据促进发展的挑战,意大利电信的大数据挑战,Foursquare在NetMob 2019上的未来城市挑战,Orange的NetMob 2023数据挑战,以及由Türk Telekom,Bogazici大学和Tübitak与Fondazione Bruno Kessler合作组织的Data4Refugees, 2018 年麻省理工学院媒体实验室、Data-Pop 联盟、联合国难民署、国际移民组织和联合国儿童基金会。在每一个数据挑战中,有 50 到 100 个团队将数据集应用于不同的问题环境。这些早期的努力已经成功地标准化了移动数据集的生成和可访问性。为了进一步推广 YJMob100K 数据集的使用,我们使用 YJMob100K 数据集 (https://connection.mit.edu/humob-challenge-2023) 举办了人类流动性预测数据挑战赛 (HuMob Challenge 2023)。该研讨会与 2023 年 ACM 的 SIGSPATIAL 会议同时举行,吸引了超过 85 个团队参与数据挑战赛。该挑战赛汇集了来自学术界和世界银行等公共机构的 200 多名人类流动性研究人员,他们拥有从城市规划到计算机科学的专业知识。除了数据挑战之外,我们希望 YJMob100K 数据集能够成为促进公平、可重复和可访问的人类流动性研究的工具。YJMob100K 数据集被用作 HuMob 数据挑战赛中下一个位置预测任务的数据集,但下一步应该是为其他与人类移动相关的任务和需要不同考虑的问题构建基准数据集。
开放挑战和行动呼吁
YJMob100K数据集的开发是为移动性预测研究社区创建人类移动性基准数据集的尝试,但我们认识到几个关键挑战。首先,我们需要为“适合目的”的基准数据集定义标准,以促进研究界的共识。必须就预处理的数据规范指标和行业标准达成社区共识,包括但不限于图中概述的步骤。1. 其次,不同的研究任务需要不同类型的数据。例如,YJMob100K 数据集可能适用于人类流动性预测任务,但由于数据不包括有关每个网格单元中特定城市或 POI 的任何信息,因此它可能不太适合调查有关人类流动性的上下文信息的城市科学研究。对于人流预测任务,基准数据集不需要单个级别的数据,并且可以在空间和时间上聚合。相反,拥有更多关于空间的上下文信息(例如,实际的经度和纬度信息)和时间(例如,实际的日期、时间和事件信息)可能对此类任务有益。除了为不同的下游任务开发人类流动性基准数据集外,研究界还可以从地理、社会、经济、时间和背景的多样性中受益。研究表明,模型和方法的性能在很大程度上取决于这些环境的异质性,例如城市与农村地区、高收入与低收入地区以及正常时期与灾害事件期间1,2.因此,我们认为,为特定研究领域、社区和社会时空背景量身定制的“适合目的”的基准数据集的集合是必要的,并且应该通过各自研究社区的自下而上的努力来开发。
我们认为,许多领域的科学和研究将受益于开放和标准化的人类流动性数据集的开发,以补充专有的替代方案。科学家、研究人员和从业人员需要倡导使用开源的人类流动数据。他们应该合作开发针对各种研究需求量身定制的开放获取基准数据集,并作为一个研究社区召集起来,建立和标准化数据规范和预处理协议,确保跨研究数据使用的一致性和可靠性。这种集体努力不仅将提高人类流动性研究的有效性和可重复性,还将使获得高质量数据的途径民主化,为更具包容性和更有效的科学探究铺平道路。 |
[返回] |