基于多模态多粒度图卷积网络的老年人日常行为识别 - SCI期刊论文 - 一起赢论文辅导网--专业代写代发SCI、EI、核心期刊、代写MBA、硕博毕业论文。QQ910330594

欢迎访问一起赢论文辅导网

加入收藏 | 设为主页 | 联系我们

本站动态

联系我们

QQ：3949358033

微信：paperwinner

工作时间：9:00-24:00

成功案例

SCI期刊论文

当前位置：首页 > SCI期刊论文

基于多模态多粒度图卷积网络的老年人日常行为识别

来源：一起赢论文网日期：2023-11-09 浏览数：476 【字体：大中小】

基于多模态多粒度图卷积网络的老年人日常行为识别*丁静, 舒祥波, 黄捧, 姚亚洲, 宋砚(南京理工大学计算机科学与工程学院, 江苏南京 210094)通信作者: 舒祥波, E-mail: shuxb@njust.edu.cn摘　要: 随着人口老龄化问题日益严重, 人们对家庭环境中老年人的安全问题越来越重视. 目前, 国内外一些研究机构正在试图研究通过家用摄像头对老年人的日常行为进行智能化看护, 实现对一些危险行为的预警、报警与报备. 为了助推这些技术的产业化, 主要研究如何自动识别出老年人的日常行为, 如“喝水” “洗手” “读书”“看报”等. 通过对老年人的日常行为视频的调研发现, 老年人的日常行为语义具有非常明显的细粒度特性, 如“喝水”与“吃药”两种行为的语义高度相似, 且只有少量的关键帧能准确体现出其类别语义. 为了有效解决老年人行为识别问题, 提出了一种新的多模态多粒度图卷积网络(multimodal and multi-granularity graph convolutional networks,MM-GCN), 通过利用图卷积网络分别从人体骨骼点(“点”) 和人体骨架(“线”)、关键帧(“面”) 和视频提名段(“段”) 两种模态对老年人行为进行建模, 捕捉“点-线-面-段”这4 种颗粒度对象下的语义信息. 最后, 在目前最大规模的老年人日常行为数据集ETRI-Activity3D (11 万+视频段、50+行为类别) 上进行老年人行为识别性能评测, 相比于当前最好的方法, 提出的MM-GCN 方法取得了最高的识别性能. 此外, 为了验证MM-GCN 方法对常规人体行为识别任务的鲁棒性能, 在业界标准的NTU RGB+D 数据集上进行实验, MM-GCN 方法也表现出了很不错的性能.关键词: 老年人行为识别; 图卷积网络; 多模态; 多粒度中图法分类号: TP183中文引用格式: 丁静, 舒祥波, 黄捧, 姚亚洲, 宋砚. 基于多模态多粒度图卷积网络的老年人日常行为识别. 软件学报.http://www.jos.org.cn/1000-9825/6439.htm英文引用格式: Ding J, Shu XB, Huang P, Yao YZ, Song Y. Multimodal and Multi-granularity Graph Convolutional Networks forElderly Daily Activity Recognition. Ruan Jian Xue Bao/Journal of Software (in Chinese). http://www.jos.org.cn/1000-9825/6439.htmMultimodal and Multi-granularity Graph Convolutional Networks for Elderly Daily ActivityRecognitionDING Jing, SHU Xiang-Bo, HUANG Peng, YAO Ya-Zhou, SONG Yan(School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing 210094, China)Abstract: With the problem of the aging population becomes serious, more attention is payed to the safety of the elderly when they are athome alone. In order to provide early warning, alarm, and report of some dangerous behaviors, several domestic and foreign researchinstitutions are focusing on studying the intelligent monitoring of the daily activities of the elderly in robot-view. For promoting theindustrialization of these technologies, this work mainly studies how to automatically recognize the daily activities of the elderly, such as“drinking water”, “washing hands”, “reading a book”, “reading a newspaper”. Through the investigation of the daily activity videos of theelderly, it is found that the semantics of the daily activities of the elderly are obviously fine-grained. For example, the semantics of“drinking water” and “taking medicine” are highly similar, and only a small number of video frames can accurately reflect their categorysemantics. To effectively address such problem of the elderly behavior recognition, this work proposes a new multimodal multi-granularity* 基金项目: 科技创新2030“新一代人工智能”重大项目课题(2018AAA0102001); 国家自然科学基金(62072245, 61932020, 62102182,61976116)收稿时间: 2021-04-02; 修改时间: 2021-06-06, 2021-08-08; 采用时间: 2021-08-29软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cnJournal of Software [doi: 10.13328/j.cnki.jos.006439] http://www.jos.org.cn©中国科学院软件研究所版权所有. Tel: +86-10-62562563网络首发时间：2022-11-15 11:08:23网络首发地址：https://kns.cnki.net/kcms/detail/11.2560.TP.20221113.1444.053.htmlgraph convolutional network (MM-GCN), by applying the graph convolution network on four modalities, i.e., the skeleton (“point”), bone(“line”), frame (“frame”), and proposal (“segment”), to model the activities of the elderly, and capture the semantics under the fourgranularities of “point-line-frame-proposal”. Finally, the experiments are conducted to validate the activity recognition performance of theproposed method on ETRI-Activity3D (110 000+ videos, 50+ classes), which is the largest daily activities dataset for the elderly.Compared with the state-of-the-art methods, the proposed MM-GCN achieves the highest recognition accuracy. In addition, in order toverify the robustness of MM-GCN for the normal human action recognition tasks, the experiment is also carried out on the benchmarkNTU RGB+D, and the results show that MM-GCN is comparable to the SOTA methods.Key words: elderly activity recognition; graph convolutional network (GCN); multimodal; multi-granularity随着社会的飞速发展, 各个国家都出现了不同程度的人口老龄化问题. 人口老龄化是指一个国家或地区人口中65 岁以上人口占比超过7% 的一种社会现象[1]. 随着老龄化程度的加深, 空巢老年人的占比也在不断上升, 已经成为一个严重的社会问题. 由于老年人行动缓慢, 在发生危险时无法及时应变、无法及时向医护人员求救, 这可能会导致严重后果. 而随着空巢家庭数量的增加, 上述情况正在呈现逐年上升的趋势. 目前, 国内外一些研究机构正在试图研究对老年人日常行为进行智能化看护, 使得老年人在发生意外危险前进行预警或者在发生意外危险时发出求救信号.当前, 受益于人工智能技术和深度学习理论的发展, 解决老年人日常安全看护问题的一个解决方案是利用基于深度学习的识别技术对摄像头下的老年人的日常行为进行监测与识别. 深度学习[2]的出现和发展极大地推动了近十年来机器学习各个领域的进步, 如自然语言处理[3]、计算机视觉[4]等. 而作为计算机视觉领域的研究热点, 基于深度的行为识别算法和各种任务的提出正在不断刷新和完善该领域的理论和技术体系[5]. 老年人日常行为识别是近年来一个新兴的行为识别任务, 通过理解和分析老年人日常行为, 能够为老年人安全看护系统提供关键支持.由于老年人发生危险是突发情况, 因此需要对老年人的日常生活进行监控. 密切了解和监控老年人在日常生活中的实际行为对于老年人行为识别任务至关重要. 世界范围内, 已经有许多类似的研究工作. 如美国佐治亚理工大学开展了Aware Home Research Initiative 项目[6], 旨在帮助人们通过摄像头看护老人的生活情况, 协助老年人完成日常活动, 确保老人独自在家中的安全. Intel 公司也开展了Caregiver’s Assistant 项目的研究, 通过各种微型传感器获取老年人日常活动状态, 判断是否有进食、吃药等行为, 为老年人独自生活提供了巨大帮助. 此外,Jinhyeok 等人[ 7 ]还拜访了50 名老年人的家, 仔细监测并记录了他们从早到晚的日常行为, 建立了ETRIActivity3D数据集. 因此, 深入对老年人日常行为识别的研究, 不仅可以帮助解决独居老人日常看护问题, 还可以降低看护成本、提高生活质量, 具有重要的社会意义和研究价值.通过对老年人的日常行为视频进行调研发现, 老年人行为的语义具有明显的细粒度性, 即多数老年人行为在大部分的视频时长内具有非常高的重合度, 真正区分类别的语义信息比较微妙, 例如图1(a) 所示的“看报纸”(左图) 和“看书”(右图) 两个老年人行为类别, 背景环境和行为轨迹都非常相似. 在图1(b) 中, “吃药”(左图) 和“喝水”(右图) 的行为特征相似度也很高.(a) (b)看报纸看书吃药喝水图 1　老年人日常行为类别示例另一方面, 当前主流的针对行为识别的基准方法大致分为3 类: (1) 基于循环神经网络(recurrent neuralnetwork, RNN)[8]的方法; (2) 基于卷积神经网络(convolutional neural network, CNN)[4]的方法; (3) 基于图卷积神经网络(graph convolutional network, GCN)[9,10]的方法. 其中, 基于RNN 的方法可以利用时序关系处理序列数据, 但是会产生梯度消失问题; 基于CNN 的方法可以处理高维数据并自动进行特征提取, 但是无法处理非欧式空间数2 软件学报 ****年第**卷第*期据. 而基于GCN 的方法可以完整地学习非欧式空间的数据, 聚合空间和时间信息, 相比前两种深度网络模型更有优势.基于以上分析, 针对老年人的日常行为识别任务, 本文提出了一种多模态多粒度图卷积网络(multimodal multigranularitygraph convolutional networks, MM-GCN), 通过注意力[11]图卷积网络对2 种模态、4 种颗粒度的数据进行联合建模来全方位揭示老年人行为的时空演变规律. 其中, 2 种模态指的是: (1) 骨骼序列用于捕捉个体行为的结构信息; (2) RGB 视频用于捕捉个体行为的视觉信息. 4 种颗粒度指的是人体骨骼点(“点”)、人体骨架(“线”)、关键帧(“面”)、提名段(“段”). 在这4 种颗粒度的数据上, 针对特定的数据类型设计合适的注意力图卷积网络结构, 从不同模态、多种粒度刻画发生重点区域的关注程度, 从而捕捉细粒度级别下的类判别信息. 最后, 通过在标准数据集上的实验评测, 本文所提出的方法达到了最高的识别性能.综上所述, 本文提出了一种新的基于GCN 的行为识别模型, 通过融合不同模态多种粒度的高层语义特征来捕捉细粒度的老年人行为信息, 在大规模老年人行为数据集和行业基准数据集上均取得了优秀结果. 本文的贡献主要体现在以下3 个方面.● 提出了一种新的多模态多粒度图卷积网络, 通过注意力图卷积网络对2 类模态、4 种颗粒度的数据同时建模来捕捉人体行为, 解决实际场景下的老年人行为识别问题.● 设计了一种“点-线-面-段” 4 种颗粒度的数据表示策略, 利用多粒度数据的信息互补与整合来精细刻画视频中的细粒度人体行为.● 所提出的方法在业界标准的老年人行为识别数据集ETRI-Activity3D 上进行性能评测, 取得了最好的性能,其识别精度领先现有的所有方法.本文第1 节主要介绍了相关工作, 第2 节详细介绍了新模型MM-GCN 的构建, 第3 节验证实验及结果分析.最后, 第4 节对本文的工作进行了总结与展望.1 相关工作基于机器视觉的人体行为识别是从一个视频或者图像序列中自动分析其中正在进行的行为[5]. 早期的行为识别方法主要是通过手工设计特征的方式来表征行为, 例如方向梯度直方图(histogram of oriented gradient, HOG)[12]、尺度不变特征转换 (scale-invariant feature transform, SIFT)[13]等. 但是手工设计特征的方式不仅表征能力有限, 还需要耗费大量的时间与精力. 得益于深度学习的发展与普及, 各种行为识别任务的性能相比于传统的浅层方法, 都得到了巨大的提升. 本节以下内容主要是对图卷积网络、多模态学习和注意力机制的调研与介绍.1.1 图卷积网络卷积神经网络(convolutional neural network, CNN)[4]是一种经典的行为识别模型, 能够高效地处理欧式空间的特征数据, 因为欧式空间的数据具有平移不变性, 可以共享全局卷积核. 然而, CNN 并不适合非欧式空间数据的表征学习, 因为传统的离散卷积在非欧式空间的数据上无法保持平移不变性. 对于人体骨骼序列这种非欧式空间数据, 传统的CNN 方法通常是将骨骼点坐标转换为规则的特征向量, 但是没有考虑人体骨骼的自然连接关系.图卷积网络(graph convolutional networks, GCN)[9,14]能够学习数据中带有关联信息的特征, 对结构化或时序化数据具有强大的表征能力. 在此基础上, 作为GCN 的改进模型, 时空图卷积网络(spatial temporal GCN, ST-GCN) [15]是第一个将GCN 运用到人体行为识别任务上的工作. 针对骨骼序列, Yan 等人将GCN 拓展到时空图模型上, 从数据中自动地学习时间特征和空间特征, 从而提出了ST-GCN 模型. 其中, 时空图从两个角度构造: (1) 空间角度. 在每一帧中, 骨骼点作为空间图的节点, 骨骼点的物理连接(骨架) 作为空间图的边. (2) 时间角度. 将相邻两帧中相同的空间图节点连接, 构成时序边. 类似地, Li 等人[16]提出了另一种时空图卷积(spatio-temporal graph convolution,STGC) 方法, 通过构建多尺度局部图卷积滤波器和递归学习对动态图进行编码, 并且该方法还可以推广到其他的动态模型中. SlowFast-GCN[17]框架结合了ST-GCN 和SlowFastNet[18]的优势: 利用ST-GCN 对人体骨骼的时空信息进行建模, 同时引入了Slow-Fast 双流框架, 其中Slow 流捕获静态语义, Fast 流捕获细粒度的运动变化. 此外,丁静等: 基于多模态多粒度图卷积网络的老年人日常行为识别3Gao 等人[19]以ST-GCN 为主干网络, 将人体骨骼分为5 个区域来识别单人和双人运动并分析涉及动作的人数.由于骨骼点之间不仅有显式的物理连接关系, 还存在隐式的高阶连通性, 因此, Li 等人[20]引入了动作连接推理模块(a-link inference module, AIM) 来捕获特定动作中存在潜在依赖关系的动作连接, 并且利用动作连接和结构连接构造图结构, 从而提出了动作-结构图卷积网络(actional-structural graph convolution network, AS-GCN). Li等人[21]提出了时空图路由(spatio-temporal graph routing, STGR) 方案来自适应地学习骨骼点之间的高阶依赖关系.此外, 双流自适应图卷积网络 (two-stream adaptive graph convolutional networks, 2s-AGCN) [22]针对不同的图卷积层设计了自适应的GCN 结构, 融合了一阶信息和二阶信息来强化学习能力. Zhang 等人[23]提出了时序推理图(temporal reasoning graph, TRG), 可以在多个时间尺度上同时捕获视频序列之间的外观特征和时间关系, 利用GCN 提取特征中的语义信息. Shi 等人[24]利用双流GCN 分别对坐标特征和方向特征建模, 将双流的结果融合来提升识别性能. Shift-GCN[25]摒弃了普通的图卷积操作, 采用新的移位图卷积, 使得空间图和时间图有更灵活的感受野.1.2 多模态融合多模态学习(multimodal machine learning, MML)[26]是一种利用多个模态信息进行联合学习的机器学习机制,通过挖掘模态间的互补性和一致性来提升模型的泛化能力. 其中, 多模态融合是当前应用最多的方向, 针对不同的下游任务选择不同的融合方式, 以达到最优性能.用于人体行为识别任务的数据主要有3 种模态: RGB、深度图和骨骼点. 现有的研究一般选择一种或将多种模态融合. Wang 等人[27]将RGB 视觉特征和深度特征相结合, 协同训练了一个卷积神经网络. Liu 等人[28]基于RGB 模态和骨骼模态生成了姿态估计图和热图, 利用两种图的互补性来生成分类标签. Hu 等人[29]提出了异质特征学习模型, 将从RGB、深度图和骨骼数据中提取出的特征进行融合, 挖掘不同模态间的异质性. 此后, Hu 等人[30]又提出了深层双线性学习框架, 将RGB 特征、深度特征和骨骼特征组合成一种新的特征, 用于行为识别. 多模态关联表示学习(multimodal correlative representation learning, MCRL)[31]利用不同模态特征来捕获骨骼点周围的局部动态模式, 从而挖掘出多种模态之间的共享特征. SGM-Net (skeleton-guided multimodal network)[32]提出了一个指导模块, 利用骨骼特征来引导RGB 特征, 在语义特征级别上实现互补.1.3 多粒度融合多粒度融合通过融合不同粒度数据的侧重信息进行学习和训练, 能对模型进行更全面的指导. 在基于骨骼的行为识别任务中, ST-GCN[15]首先利用GCN 对骨骼信息进行建模, 但是仅使用了骨骼点信息和固定的图结构, 缺乏对多级语义信息进行学习的能力. 因此2s-AGCN 利用双流网络对多粒度的骨骼信息进行融合, 即对骨骼点和骨架信息建立双流的自适应图卷积网络, 这样增加了模型的通用性以适应训练数据. DGNN[33]为了更好地利用骨骼点和骨架数据, 基于自然人体骨骼点和骨架之间的运动学相关性, 将数据作为有向无环图, 并设计了一种双流的定向图神经网络(directed graph neural networks, DGNN), 用于提取两种粒度数据及其关系的信息. GR-GCN[34]提出了一种基于图回归的图卷积神经网络(graph regression based GCN, GR-GCN) 来表示底层图的稀疏性, 并且对连续帧上的图结构进行了优化, 此外还提供了对骨架的时空建模, 有效地表示了两种粒度的数据. MS-G3D[35]提出了一种简单的多尺度卷积聚合方法和一个统一时空图卷积算子G3D, 通过结合两者开发了一个强大的特征提取器(multiscaleG3D, MS-G3D), 学习了骨骼点和骨架信息的时空信息传播.1.4 注意力机制注意力机制[36]的灵感来源可以归结到人对环境的生理感知上来. 比方说, 人类的视觉系统更倾向于去挑选影像中的部分信息进行集中分析而忽略掉图像中的无关信息. 目前, 注意力机制已经成为深度神经网络中的一个非常重要的嵌入化模块, 被广泛应用到行为识别任务中. Du 等人[37]提出了一个端到端的循环姿态注意力网络(recurrent pose-attention network, RPAN), 向包含语义信息的关节点共享注意力. Baradel 等人[38]基于注意力模型使用Glimpse Clouds 从视频帧中提取局部特征, 指导完成行为识别任务. 最近几年, 注意力与图卷积网络进行结合的工作也有一些. 比较有代表性的方法有: 2s-AGCN[22]引入了一种具有注意力的图适应性模块, 能够灵活地对没有物4 软件学报 ****年第**卷第*期理连通性却有隐式连接的关节进行建模; STGR[21]引入了一种挤压-激发注意力机制(squeeze-and-excitationattention) 来选择信息量最大的图作为代表; 全局上下文感知注意力长短期记忆网络(global context-aware attentionlong short-term memory, GCA-LSTM))[39]引入了一种循环注意力机制(recurrent attention), 能够在全局上下文信息的

[返回]

上一篇：中西方媒体报道各国疫情的对比及情感分析方法研究
下一篇：基于深度残差网络的图像分类与目标检测