基于深度学习的异常行为检测综述

(整期优先)网络出版时间:2020-08-29
/ 3

基于深度学习的异常行为检测综述

王嘉欢 杨家熙 程一波 张坤

江西财经大学 江西南昌 330013

摘 要:人体行为识别和深度学习理论是智能视频分析领域的研究热点,近年来得到学术界的广泛重视,随着人工智能技术的快速发展,逐渐进入人们生活的方方面面。文章对基于深度学习的视频异常行为检测的应用场景、研究现状、技术基础、检测方式来进行了综述,并对深度学习中一些需要进一步研究的问题进行了初步的讨论。

关键词:深度学习;行为识别;视频异常行为检测

1 引言

视频分析技术在安防、智能家居、视频监控、病人监护、诚信考试等领域具有重要应用。随着制造业的不断发展,监控摄像机价格降低,其应用的场景越来越广泛,这些监控摄像机产生了大量的监控视频,为异常检测带来了巨大的工作量。在进行视频异常行为检测的过程中,难点主要在时序信息提取、行为边界不明确和行为跨度大三个方面。正是这些难点使得专家们将注意力从传统的异常行为检测方法转移到深度网络中。

近年来,许多大型科技公司也迅速推动着深度学习的发展,推出了很多相关技术的产品,深度学习已成为一个热门的技术方向。采用卷积神经网络的深度学习技术在图像处理和识别领域取得了巨大成功,但在处理视频文件以及进行人体行为识别方面尚未达到高精度和高速度。因此,卷积神经网络的研究与改进具有重要意义。

2国内外研究现状

2.1国外研究现状

国外对于视频监控技术中的异常行为识别的研究工作起步较早,国外许多大型科研机构和院校都做出了一定的贡献。美国马里兰大学研发的W4系统,能够实现对物体形状的分析、建模功能,并完成对单目标或多目标的跟踪监控任务;由IBM研发的SmartSurveillance System系统,能够实现对人脸及人体行为的识别和分析功能。[1]

此外,目前已有许多快速而准确的算法被国外学者提出。Ke等利用深度卷积神经网络CNN对人体骨骼关节进行空间和时间的信息学习,提出一种多任务学习网络MTLN,并行处理所有提取的特征向量从而识别人体动作,检测异常行为。Sigurdsson等提出一个时间CRF模型,其具有视频中目标意图的潜在节点及帧与帧建的配对关系,用于对目标的动作、场景等进行推测,能较好的预测人体行为。[2]

2.2国内研究现状

国内的智能监控系统的研究与发展相较于国外是比较晚的,但是目前也取得了一定的成果。比较有代表性的是中国科学院自动化研究所开发的CBSR(Center for Biometricsand Security Research)智能视频监控系统,在交通监控领域和人体运动及行为模式的识别方面的研究。

除此之外,目前国内也提出了一些效率较高的目标检测方法,比如基于稀疏编码的视频异常检测算法、背景建模法检测人体、动静结合的混合阈值法提取运动目标等。

3 相关技术基础

3.1卷积神经网络

由Rosenblatt等人首次提出的多层感知机(Multilayer Perceptron,MLP)[3]是深度神经网络的基石。但是多层感知难以处理隐层的权值,直到反向传播算法[4]的发展这个问题才有了解决方法。

卷积网络在本质上是一种从输入到输出的映射,能够学习大量输入与输出之间的映射关系,而不需要任何输入和输出之间的精确数学表达式,只要用已知的模式对卷积网络加以训练,网络就具有输入和输出之间的映射能力。

卷积神经网络主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于卷积神经网络的特征检测层通过训练数据进行学习,所以在使用卷积神经网络时,能够避免显式的特征抽取,而隐式的从训练数据中进行学习;由于同一特征映射上的神经元权值相同,所以网络可以并行学习,这也是卷积网络相对于神经元彼此相连网络的一大优势。

卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性,其网络布局更接近实际的生物神经网络,取值共享降低了网络的复杂性,特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。

3.2长短期记忆网络

传统神经网络的一个缺陷就是不能实现持续记忆,而递归神经网络[5]是具有循环结构的神经网络,其可以在一段时间内保存信息。

从结构角度上来看,递归神经网络可以被视为一个网络的多次拷贝。理论上RNNs有能力处理“长期依赖”的问题。人们可以仔细的挑选哪些参数去解决这些问题的初级形式。而在实践中,RNNs却并不能学习到这些知识。幸运的是,LSTM并没有这些问题。

长短期记忆网络(LSTM)是一种特殊的RNNs,相对于RNNs避免了梯度消失和梯度爆炸的问题,它能够学习长期依赖。它首先是由Hochreiter&Schmidhuber(1997)提出了的,核心思想是通过三个“门”(遗忘门、输入门、输出门)来控制细胞元的状态,从而实现对信息的删除和添加。后来经过许多的科研研究者对它进行了改进和推广。LSTM对于许多的问题都取得了巨大的成功,并且也得到了广泛的使用。

但是LSTM并没有解决全部的问题,因为它使得训练难度加大了。事实上它仍有从过去单元到当前单元的路径,但是路径更加复杂化,使得在训练的时候需要提高对硬件的需求。

3.3生成对抗网络

生成对抗网络(Generative Adversarial Network,GAN)是用对抗方法来生成数据的一种模型。由Lan Goodfellow首先提出,在这两年更是深度学习中最热门的话题。GAN有两个网络,其中一个是生成器网络(generator),另一个是判别器网络(discriminator),它们相互作用以达到最好的生成效果。

GAN强大之处在于能自动学习原始真实样本集的数据分布,不管这个分布多么的复杂,只要训练的足够好就能够学出来。

传统的机器学习方法,一般会先定义一个模型,再让数据去学习。比如知道原始数据属于高斯分布,但不知道高斯分布的参数,这时定义高斯分布,然后利用数据去学习高斯分布的参数,从而得到最终的模型。再如定义一个分类器,然后强行让数据进行各种高维映射,最后变成一个简单的分布。这些方法都是通过直接或间接的告诉数据应该怎样映射,只是不同的映射方法能力不一样。

而GAN的生成模型可以通过噪声生成一个完整的真实数据(比如人脸),说明生成模型掌握了从随机噪声到人脸数据的分布规律。GAN一开始并不知道这个规律是什么,也就是说GAN是通过一次次训练后学习到真实样本集的数据分布。

GAN的另一个强大之处在于可以自动定义潜在损失函数,即判别网络可以自动学习到一个好的判别方法,来比较好或者不好的判别结果。

4 基于深度学习的异常行为检测方法

行为检测属于视频理解研究的热点方向,行为检测比较贴近生活,相比于行为分类,行为检测的难度更高。因为行为检测不仅需要定位视频中可能存在动作的视频段,还需要对其进行正确分类。

视频行为检测任务类似于图像的目标检测,都需要先对目标进行定位,然后再对目标进行识别。目前很多行为检测的方法都借鉴于目标检测。这类方法包含:利用Faster R-CNN框架思路的方法;利用SSD框架思路[6]方法;基于SNN网络的方法;基于C3D做帧分类。然后预测存在行为的视频段并进行分类。

4.1基于3D卷积神经网络的行为检测

3D卷积具有丰富的时空以及空间信息。在二维CNN中,卷积应用于二维特征图,仅从空间维度计算特征。当利用视频数据分析问题的时候,我们期望能够捕获在多个连续帧编码的运动信息。为此提出在CNN的卷积进行3D卷积,以计算空间和时间维度特征,3D卷积是通过堆叠多个连续的帧组成一个立方体,然后在立方体中运用3D卷积核,通过这种结构,卷积层中的特征图都会与上一层中的多个相邻帧相连,从而捕获运动信息。

4.2基于GAN预测的行为检测

预测人类行为的研究可分为两类,预测人与空间相互作用和人与人相互作用两种。前者旨在学习特定场景的运动模式。后者旨在模拟场景的动态内容,即场景中行人之间的交互。而如何学习预测人与人的互动,现有的工作中基于RNN序列预测和生成模型做了很多相关工作。文章[7]提出了一种利用预测未来框架和它的基本事实之间的差异来检测异常事件的工作。采用GAN的对抗思想对行人运动轨迹进行预测。并且引入了多样性的损失来覆盖所有存在可能足够好的解的样本空间。

4.3基于未来帧预测的对偶运动GAN行为检测

人们研究了各种方法来预测未来的运动场和给定图像或视频序列的视觉表示。最近进行了许多视频合成实验。研究[8]关注于开发先进的网络来直接生成像素值。但是,由于很难对自然图像的复杂像素级分布进行建模,常常产生模糊的预测。

文章[9]提出了一种对偶生成对抗网络框架用来对帧进行预测。具体来说,就是分别进行帧预测和流预测。借助生成对抗网络的思想,再帧生成器和帧判别器、流生成器和流判别器之间建立对抗学习,通过彼此的相互审查使得生成结果难以区分。这种机制将帧预测和光流预测进行了结合。

4.4基于条件生成对抗网络帧预测的行为检测

文章[10]提出了一种基于帧预测的异常检测框架。由于正常事件是可以被预测的,而异常事件由于其特殊性不易被预测。因此,帧预测方案用于异常检测效果会更好。文章中视频预测框架,除了在空间上强制预测帧接近真实帧外,还强制预测帧的光流接近真实光流,这种光流约束对于视频帧的预测是非常重要的。

异常行为检测可以从预测方面来考虑,通过比较预测帧和真实帧的区别可以对其是否异常进行判断。当前基于条件生成对抗网络的预测模型已取得较好的发展。

5 总结与展望

人工智能的研究经过了多年的发展,视频检测成为计算机视觉领域的研究热点之一,也取得了很多阶段性的成果。目前基于深度学习的视频行为识别方法已经取得了一定的研究成功,但仍然面临许多挑战。对于一些实际应用,比如异常行为的识别、细微动作的视频等这些更加贴近实际的应用还存在很大的困难,如何建立更简单的网络模型,如何在视频中提取出描述视频判断的强有力的特征等都将是接下来的研究方向。

项目信息:江西财经大学国家级大学生创新创业训练计划项目资助 项目编号: 202010421176

作者单位:江西财经大学 信息管理学院

作者简介:王嘉欢(1999-),女,汉族,江西南昌人,江西财经大学在校本科生,信息管理与信息系统方向。

参考文献:

[1] 雉津津,王燕妮.视频图像中异常行为模型的建立与研究[D].西安:西安建筑科技大学.2018.

[2] 张薇,商闯,武晨静.京津冀协同发展机遇下河北省大学生创业平台构建研究 [J].亚太教育,2015(09):269-270.

[3] Fukushima K., Miyake S. (1982) Neocognitron: A Self-Organizing Neural Network Model for a Mechanism of Visual Pattern Recognition. In: Amari S., Arbib M.A. (eds) Competition and Cooperation in Neural Nets. Lecture Notes in Biomathematics, vol 45. Springer, Berlin, Heidelberg.

[4] Rumelhart DE, Hinton GE, Williams RJ (1986) Learning representations by back-propagating errors. Nature 323: 533–536.

[5] Graves A. Supervised Sequence Labelling with Recurrent Neural Networks[J]. Studies in Computational Intelligence, 2008, 385.

[6] Lin T, Zhao X, Shou Z. Single shot temporal action detection[C]//Proceedings of the 2017 ACM on Multimedia Conference. ACM, 2017: 988-996.

[7] A. Gupta, J. Johnson, L. Fei-Fei, S. Savarese and A. Alahi, "Social GAN: Socially Acceptable Trajectories with Generative Adversarial Networks," 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, 2018, pp. 2255-2264.

[8] C. Vondrick, H. Pirsiavash, and A. Torralba. Generating videos with scene dynamics. In NIPS, pages 613–621, 2016. 2.

[9] X. Liang, L. Lee, W. Dai and E. P. Xing, "Dual Motion GAN for Future-Flow Embedded Video Prediction," 2017 IEEE International Conference on Computer Vision (ICCV), Venice, 2017, pp. 1762-1770.

[10] W. Liu, W. Luo, D. Lian and S. Gao, "Future Frame Prediction for Anomaly Detection - A New Baseline," 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, 2018, pp. 6536-6545.