欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033
微信:paperwinner
工作时间:9:00-24:00
机械论文
当前位置:首页 > 机械论文
机器学习竞赛增强了步态检测的自动冻结功能并揭示了时间效应
来源:一起赢论文网     日期:2024-09-06     浏览数:275     【 字体:

 机器学习竞赛增强了步态检测的自动冻结功能并揭示了时间效应

 
步态冻结 (FOG) 是一个使人衰弱的问题,它显着损害了 38-65% 的帕金森病患者的活动能力和独立性。在 FOG 发作期间,患者报告说他们的脚突然莫名其妙地“粘”在地板上。缺乏广泛适用、客观的 FOG 检测方法阻碍了研究和治疗。为了解决这个问题,我们组织了一场为期 3 个月的机器学习竞赛,邀请来自世界各地的专家开发基于可穿戴传感器的 FOG 检测算法。来自 83 个国家/地区的 1,379 个团队提交了 24,862 个解决方案。获胜的解决方案在 FOG 检测中表现出高准确度、高特异性和良好的精密度,与金标准参考具有很强的相关性。当应用于连续的 24/7 数据时,这些解决方案揭示了日常生活中以前未观察到的 FOG 发生模式。这项成功的努力突显了机器学习竞赛的潜力,可以快速让 AI 专家参与解决关键的医疗挑战,并为客观的 FOG 量化提供了一种有前途的方法。
 
其他人正在查看类似内容
 
选择临床相关的步态特征对早期帕金森病进行分类:一种全面的机器学习方法
文章 开放获取 21 十一月 2019
 
用于检测帕金森病步态冻结的多模态数据
文章 开放获取 07 10月 2022
 
GaitRec,一个关于健康和受损步态的大规模地面反作用力数据集
文章 开放获取 12 五月 2020
介绍
步态冻结 (FOG) 是一种令人困惑的致残症状,影响了 38-65% 的帕金森病 (PD) 患者1.FOG 表现为突然、不可预测的发作,尽管有意开始或继续行走,但仍无法开始或继续行走。虽然神经机制尚不清楚2,3,4,很明显,FOG 会深刻影响生活质量,并且与高跌倒风险相关5、6、7和非运动症状,例如抑郁、焦虑和认知障碍8、9、10.
 
为了更好地了解 FOG 并推进治疗工作,准确、客观的评估方法至关重要4,11.然而,FOG 的神秘性质使测量具有挑战性。FOG 有多种身体表现,包括原地颤抖、短拖曳步和完全性运动不能12.它可以在各种情况下触发,通常是在试图开始步态(定义为“开始犹豫”)、试图转弯时,甚至在向前行走时2.此外,当 FOG 患者走在临床医生面前时,FOG 通常会消失2,13.运动表现和环境的这种可变性使得识别和量化 FOG 特别困难。
 
目前的方法,例如新步态冻结问卷 (NFOG-Q) 等自我报告问卷和临床医生的视觉观察,存在可靠性和主观性问题14.这导致对 FOG 患病率的估计存在巨大的、几乎 2 倍的差异1.引发 FOG 的压力测试已被用于获得 FOG 严重程度的客观测量15,16 元.但是,它们在反映每日 FOG 发生率和严重性方面存在局限性17、18、19 元.此外,量化这些压力测试期间的冻结时间百分比 (%TF) 是一项新兴标准,需要由两位专家对视频进行费力、耗时的离线逐帧审查4、20、21.此外,压力测试和自我报告的结果在反映每日 FOG 发生率和严重程度方面都有局限性17、18、19 元.因此,尽管经过 30 多年的研究22,例如,FOG 频率在一天中是否以及如何变化仍然未知。因此,准确捕捉多天内每小时 FOG 的日常生活频率和变化是了解药物、日常活动和疲劳对 FOG 的影响并最终推进有效的 FOG 管理的关键。
 
应用可穿戴设备监测步态和活动能力的日益普及23,24,25 元,随着数据科学的重大进步,人们开始追求基于惯性传感器和机器学习方法相结合的自动 FOG 检测25,26 元.自动检测可以节省对视频进行专家、事后审查的时间和成本,支持广泛的测试,改善实时干预13,27,并在日常生活中实现对 FOG 的无人监督持续监测4,28,一种承诺生态有效性和与患者相关性的方法。由于 PD 的监督和无监督评估中的疾病表现不同票价:29、30、31 元,因为 FOG 容易出现白大衣综合症2,13,并且由于焦虑、抑郁和环境等可能易患 FOG 的因素可能会在一天中波动8、9、10,日常生活环境中的测试对于评估 PD 患者的 FOG 特别有价值。
 
最近的研究将自动检测方法应用于 FOG 引发测试和日常生活脚本活动 (ADL) 期间身体运动的惯性记录票价:18,32,33,34,35,36,37,38,39,40,41,42 元,基于各种数据集、检测方法和传感器位置。虽然结果令人鼓舞,但检测性能主要在小样本中得到验证,或者对精确度和召回率(即灵敏度)等指标的报告最少。此外,许多常用的分类指标(如准确率和 ROC 曲线)本身对于评估 FOG 检测来说不太理想,FOG 检测是一个自然不平衡的问题(从机器学习的角度来看),正类(即 FOG)的代表性很低。一些研究利用了来自同时放置在身体上的多个传感器的数据19、32、35 元,这些设置在实践中可能会降低适应性和合规性。此外,只有少数研究试图使用从无人监督的习惯性日常生活活动中捕获的数据自动检测 FOG 发作17、18、19 元,到目前为止,他们只产生了有限且不一致的结果。
 
已采用多种分析方法使用可穿戴传感器自动检测 FOG。最初,引入了简单的基于阈值的方法26,43.传统的机器学习 (ML) 算法,例如支持向量机32、33、39、42、随机森林33,35,39,40,44,45 元和其他33,44,45 元紧随其后,提供了改进的检测能力。最近,深度学习模型,包括卷积神经网络 (CNN)34,36,37,38,39,41,46、递归神经网络 (RNN)47及其组合39,40 元,由于其理论上增强的性能而广受欢迎,与 transformer 一起40和自动编码器48.尽管如此,许多挑战仍然存在,包括泛化性、过度拟合和测试模型的精度有限。
 
为了加快开发一种可靠、经济高效且广泛适用的自动 FOG 检测方法,该方法仅使用单个惯性测量单元(一种相对简单的配置,可能得到广泛使用),我们使用开放访问平台为机器学习社区组织了一次 FOG 检测挑战赛,并提供 100,000 美元的奖金,前 5 名完成者平分。主要目的是促进高级自动化机器学习算法的创建和测试,以减少对引发 FOG 的测试进行耗时的视频分析的需求。更具体地说,我们的目标是在精度和可靠性方面实现出色的准确性和良好的结果。此外,我们还试图向机器学习专家介绍 PD 和 FOG。最后,我们探讨了获胜模型对 7 天内收集的无监督、24/7 真实世界 FOG 数据的应用,以初步调查不同 PD 亚组(报告了 FOG [冰柜] 的患者和没有 [非冰柜] 的患者)中 FOG 发生的每日模式(跨越几天和几天内)。在这里,我们展示了本次比赛的结果,讨论了获得的见解,并探讨了其影响。
 
结果
帕金森氏症冻结步态预测挑战
参加本次比赛的团队开发了一种机器学习算法,用于自动检测和分类三种类型的 FOG 发作(开始犹豫、转弯时 FOG、行走时),基于从单个下背部传感器收集的 3D 加速度数据和由专家手动审查并完全标记的视频。在为期三个月的比赛期间,来自 83 个国家/地区的 1379 个团队共提交了 10,133 份注册,提交了 24,862 份提交。
 
在超过 90 小时的记录数据中,确定了近 5000 个 FOG 事件。在比赛期间,根据随机选择的公共测试集(包含 26 名患者和 945 次 FOG 发作)的表现,提交的内容会自动排名。在比赛期间向团队透露了公共测试集的性能分数,但 FOG 和 FOG 级标签没有。最终排名基于一个隐藏的、随机选择的、私人测试集,该测试集包含 14 名患者,有 391 次经过验证的 FOG 发作。在这两种情况下,平均精度(三个 FOG 类别的平均值)是评分指标。此评估方法不太容易出现类不平衡扭曲,并考虑假阳性预测。补充信息中介绍了排名前五的型号。排名前五的模型的私人平均精度分别为 0.514、0.451、0.436、0.417 和 0.390。有关比赛、评分、规则和最终排行榜的更多详细信息,请在线查看49,50 元.
 
图 1 显示了公共和私有测试集的排行榜分数。在私人排行榜上的前五名分数之后,有一个下降,然后是一个平台期,大多数团队都在这里排名。在这个平台期之后,性能进一步下降,从大约第 950 位开始。此模式类似于 Public leaderboard(公共排行榜)。
 
图 1: 排行榜分数与球队排名的关系。
图 1
私人和公共排行榜(平均精度)分数作为团队绩效排名的函数。A 和 B 显示私有测试集的分数,C 和 D 显示公共测试集的分数。B 和 D 放大排名前 15 的团队。私人排行榜中的前 5 名模型都出现在公共排行榜的前 8 个条目中,顺序上有一些变化,如放大图(右侧面板)中的颜色所示。源数据作为源数据文件提供71.
 
全尺寸图像
赛后分析
前五个模型中每个模型的精度-召回和受试者工作特征 (ROC) 曲线如图 1 所示。2. 查看所有 FOG 案例时,ROC 曲线下面积 (AUC) 通常较高(高于 0.9)(无论类别如何进行 FOG 检测)。在类不平衡的情况下,精度-召回率曲线为 ROC 曲线提供附加信息。在这些情况下,精确率-召回率曲线在类之间明显不同,显示出最常见的类(即轮次期间的 FOG)的性能更好。在成功检测 Walking FOG 事件和 Start Hesitation FOG 事件之间,模型之间似乎存在权衡。由于大多数模型在 Turn FOG 类上表现相当不错,因此第 1 名模型相对于其他模型的主要优势似乎是能够在其他两个类 FOG 之间取得最佳平衡。与所有五个模型中的其他类相比,Walking 类(比 Turn FOG 类少得多,但比开始犹豫更常见)的 ROC 曲线更差。
 
图 2:获胜模型在私有测试数据上的精度-召回率和 ROC 曲线。
图 2
基于私有(隐藏)测试集的排名前五的模型的精度-召回率曲线(左)和 ROC 曲线(右)。曲线颜色表示 FOG 类,如图例所示。源数据作为源数据文件提供71.LB 排行榜、ROC 受试者工作特征、ROC 曲线下的 AUC 面积。
 
全尺寸图像
F1 评分、准确度、精密度、召回率和特异性详见表 1。当一起查看所有 FOG 类别时,这些模型显示出良好的准确性 (0.88–0.92);否则,每个模型仅在 Walking 或 Start Hesitation 中的一个中表现出更强的性能。所有 FOG 的特异性也很高 (>0.9);相比之下,召回率相对较低,但仍然很好 (0.72–0.79)。精度在 0.74 到 0.84 之间,总精度主要由 Turns 类驱动。F1 值显示出更平衡的画面,所有 FOG 分数都在 0.73 到 0.81 之间。如上所述,步行过程中的 FOG 检测对所有模型来说似乎都相当具有挑战性。Start Hesitation 表现通常更好。
[返回]
上一篇:用于全声子预测的虚拟节点图神经网络
下一篇:利用机器学习加速电子-声子耦合强度的计算