(山东科技大学 土木工程与建筑学院.山东青岛 266000)
摘要:随着大数据时代的到来和计算机能力的提升,传统的目标检测方法难以处理庞大的图像数据以及无法满足人们对目标检测精度和速度上的要求,而卷积神经网络具有强大的特征学习能力,突破了传统目标检测方法的瓶颈,基于卷积神经网络的图像目标检测技术在诸多领域掀起了新的应用热潮。首先,文中介绍了卷积神经网络在目标检测任务上的优越性;其次,梳理了基于卷积神经网络的图像目标检测在医学、工业、农业领域中的典型应用,并对其中几种典型卷积神经网络的结构进行归纳总结分析;最后,讨论了目标检测的应用方面仍然存在的问题,并对基于卷积神经网络的图像目标检测应用的未来研究发展方向进行展望。
关键词:深度学习;卷积神经网络;图像目标检测
[中图分类号]TU-024 [文献标识码]A
目标检测是对图像中的感兴趣目标进行识别和定位的技术,解决了图像中的物体在哪里以及是什么的问题[1]。随着计算机的快速发展以及计算能力的极大提高,卷积神经网络逐渐步入我们的视野。利用卷积神经网络自动提取图像特征,可以保证图像特征自然且通用性好,对一定程度的扭曲形变有良好的鲁棒性[3]。随着基于卷积神经网络的图像目标检测技术渗透到人们生产和生活的各个领域,一定程度上减轻了人们的负担,改变了人类的生活方式。
1 卷积神经网络
1.1 卷积神经网络
卷积神经网络相较于一般神经网络最突出的特征是增加了卷积层和池化层,其他层级结构仍与一般神经网络一致。
1.2 卷积神经网络经典模型的发展脉络
卷积神经网络模型最早在1943年由Mcculloch与Plitts开创,这也是第一次关于人工神经元模型的提出,并建立了著名的M-P模型。在此后的时间里,神经网络模型的发展跌宕起伏,不停的有科学家提出更加优化的模型,使神经网络模型的功能越来越强大。关于卷积神经网络的最早提出,可以追溯到1998年,由LeCun等人提出的名为LeNet的模型[4],在此模型中卷积运算被引入,不过由于缺少训练数据,导致LeNet面对一些复杂运算时表现不好,但在2006年更高性能的计算平台出现以后,许多卷积神经网络的模型被相继提出,其也成为了研究人员的研究热点。在LeNet被提出之后,许多研究人员在此基础上改进并提出新模型,其中比较有代表性的当属Krizhevsky等人提出的AlexNet模型,该模型使用了当时先进的计算加速技术,因此大大降低了模型的错误率。在其后,He等人在2015年提出的ResNet模型又很大程度上促进了卷积神经网络领域的发展,该模型对其中的学习单元进行了改进,以较低的参数量获得了错误率耕地更低,计算更深的网络,后来比较有代表性模型还有Zeiler等人提出的ZFNet模型,Iandola等人提出的DenseNet模型等,都对模型内部的计算进行了优化,在卷积神经网络领域取得了突出贡献。
2基于卷积神经网络的图像目标检测应用
2.1基于卷积神经网络的图像目标检测的典型应用
卷积神经网络的引入迅速推动了目标检测领域的发展,2014年,Girshick提出了 R-CNN模型,该模型在 PASCA VOC目标检测测试中将平均准确率均值提高到了传统算法的120%,自此涌现了Fast R-CNN、Faster R-CNN、FPN等经典算法,如今每年都会有新的算法出现。深度学习的方法通用性强,可移植性强,其应用更是拓展到各个领域,目前已在工业、医疗、农业等各个领域广泛推广。
2.2 图像目标检测经典卷积神经网络模型
2.2.1医学领域
在现代医学中,许多病症的初步诊断与病情的治疗过程往往需要对一些难以观察的人体位置进行特定检测,这就需要用到目标检测技术,而采用卷积神经网络技术,通过计算机处理图像并自动提取图像特征,从而达到目标检测技术的自动化,这样获取的图像特征更加自然而且通用性好。此技术应用在医学领域会大大提高医生对于病理特征判断的准确性。
1)SPPnet模型
SPPnet模型由何凯明等人提出,在传统的卷积神经模型中,连接层之间存在 限制,其最后一个卷积层要保证输出的特征图像大小一致,否则将无法接入,这就要求目标检测的步骤必须是先将区域固定到要求的尺寸上[1],才能再进行卷积网络计算,这也就使得传统的卷积神经模型花费了许多时间成本。而 SPPnet模型的原理是在最后一个卷积层中设计金字塔池化层,这样就可以固定特征图像到 要求的尺寸[1],在目标检测过程中,该模型只做了一次卷积操作,在优化了结构 模型的同时,又节约了检测的时间成本。
SPPnet 模型在医学中可应用于宫颈癌的医学图像目标检测,CT图像中的宫颈部位增大时宫颈癌的主要特征,如果宫颈径长超过3.5mm,则病人患宫颈癌的概率大大提升,利用卷积神经网络目标检测技术,则可以准确快速的将病理部位 检测出来。便于医生的下一步诊断。
2)Fast-R-CNN模型
Fast-R-CNN模型为R-CNN模型的改进方案,传统的 R-CNN模型使用边框回归算法来实现目标的定位,其在SVM中输出4个参数用来确定目标检测的位置,此边框并不处于卷积神经网络之中,存在着空间开销问题。而R-CNN的提出者之一做出了改进:在损失函数后附加目标定位的损失,这样便可以修正位置信息,这样输出层也被分为了分类层与回归层两部分[1]。由此Fast-R-CNN模型实现了目标检测的所有步骤都有卷积神经网络完成。Fast-R-CNN模型在医学中可以用于异物类骨科疾病的诊断,例如骨性关节炎、骨肉瘤与骨巨细胞瘤等症状,在CT图像中都可以通过卷积神经目标检测技术进行判断,从而解决了骨骼疾病中医生阅片数量大,准确度有差的问题。
2.2.2农业领域
伴随着信息技术的发展,在农业领域对农副产品进行批量化规模化生产成为主流趋势。目前该领域中的已经尝试利用智能检测取代效率低下的人力检测,而 目标检测技术在其中发挥了重大作用。基于卷积神经网络的目标检测技术能够实现多项功能,包含农产品的信息检测、分类与计量等,例如识别农作物与害草、农作物病、农作物病虫害、农作物品质的解析、土壤覆盖式样区分、行为辨别等。目前常用的模型有Faster-R-CNN、YOLO v5等[5]。
1)Faster-R-CNN模型
近年来,基于大规模的数字图像识别方法和基于机器学习算法的对植物果实的三维生物图像特征的识别分析的研究工作已经趋于成熟。传统检测方法在使用过程中存在着滞后性,而采用基于 Faster-R-CNN的果实快速检测模型能够解决这个难题。
Faster-R-CNN模型包括卷积神经网络和区域提议网络两部分。CNN网络首先对目标对象进行卷积和池化操作,将提取目标特征的目标特征转入RPN网络,第二步由RPN选取待选范围,利用网络全连接层数据共享,利用仪器得到多个待定预测框,通过特定方式甄选出其中准确率最高的选项输出,最终完成目标检测。有实验选择桃子、苹果和橙子为目标模型,分别对选取的三种目标果实进行深度网络模型检测[6]。采用迁移式的深度学习方法,使用了已经训练过的预读判知训练网络模型,检测并分析出果实不同布局形态下的检测效果。结果表明,该模型能够很好的完成果实目标检测任务,解决滞后性缺点,达成实时检测的目的。
2)YOLO v5 模型
YOLO 算法在目标检测领域占据重要地位,可以通过对视频或者图像的目标检测 有效识别农作物病虫害。YOLO 模型是一种神经网络自成一体的模型。运行方式是使用单一的卷积神经网络,从目标图像或视频内容中选取多个预测框对多个不 同目标同时进行检测。基于对目标检测算法的深入研究,Ultralytics 开发了 YOLO V5 算法。它能够实现对目标视频和图像快速检测,同样可以解决传统检测方法的 滞后性问题,实现对目标的时实检测[7]。
YOLO v5可略分为五部分,包括输入、主干、头部、颈部和预测五项。第一项为输入,负责将数据录入并在运行时将其增强,增强内容包括对锚框的自动计算、马赛克基础上的数据增强和对目标对象的图像化处理等。第二项为主干,负责采集输入内容中的数据特征,以利于后续头部项进行特征融合。颈部项的工作内容是通过特定的操作和运算,最终形成三种不同尺度的预测特征图。最后一项为预测,模型需要征集此前卷积项输出的尺度不同的特征向量,利用其全连接层实现目标检测任务。
2.2.3工业领域
随着工业向智能制造的发展,工件的质量检验也被要求实现智能化、自动化。但是在诸多目标缺陷检测的实践应用中,由于输入图像的结构复杂,传统的计算 机视觉技术很难提取到合适的特征算子,检测效果不佳。在这种情况下,基于卷积神经网络的图像目标检测技术是一种更好的选择,并且很多已经被应用于工业生产中,对于提升工业领域工件目标检测自动化、智能化、高效化有着重要意义。常见模型有CenterNet模型。
Duan在 2019 年提出CenterNet,该算法是在 CornerNet 算法的基础上改进而来的,他们发现仅通过一对角点来检测对象,角点包含边界信息却缺少了对象信息,算法在匹配角点时很容易出错,会产生一些不正确的边界框。为了解决这个问题,CenterNet将一个对象检测为三个关键点,除了角点外,新增了中心点,通过判断角点生成的候选框区域中是否存在同一类别的中心点,来确定该候选框是否为对象的检测框。目前,CenterNet模型和Faster-R-CNN模型广泛应用于工业领域中基于卷积神经网络的图像目标检测,其中工件表面缺陷检测应用范围极广,这两种经典模型具有检测效率高、人工成本较低和检测结果稳定且错误率低等特点,具有重要的学术和应用价值。
3现阶段问题
目前,基于卷积神经网络的目标检测处于快速发展阶段,在各个领域产生了许多新的方法和应用。但在现阶段的实际应用中仍然面临着不小的困难与挑战,比如获取数据集效率低,小目标难以检测,对变体识别准确性有待提高以及目标检测的速度与精度难以权衡等。
1)构建目标检测数据集效率低。基于卷积神经网络的目标检测算法的精度取决于数据集的规模和质量。但目前所有的目标检测算法都是通过有限的数据集来进行有监督的训练学习,工作量大且成本高昂,因此需要不断探索卷积神经网络在半监督或无监督情况下进行训练的可能性。相信未来半监督和无监督的卷积神经网络在目标检测领域的应用能够大幅降低标注成本[1]。
2)小目标的图像检测精度有待提高。由于小目标图像的像素少、信息量有限,使得小目标检测成为一大挑战,并成为国内外研究热点。目前针对小目标检测已经取得了一些成果,但是小目标的检测精度始终无法达到一个较高的水平。
3)对变体识别准确性有待提高。由于视角光照变化、目标姿态、遮挡、外观变化、图像像素和目标比例尺寸等外部和内部因素的影响,同一目标在不同图像中可能看起来非常不同,而基于卷积神经网络的目标检测技术,目前缺乏对这些变体识别的准确性。
4)卷积神经网络理论有待完善。基于卷积神经网络的目标检测算法虽然实现了较好的实践应用,但将卷积神经网络应用于目标检测任务还缺乏足够的理论支撑;并且现阶段的理论基础落后于实践应用,表现为卷积神经网络模型的研究改进很大程度上依靠设计者的经验,因此卷积神经网络的理论体系有待完善,需要进一步深度学习,为改进模型结构、提高模型训练效率和改善检测效果等提供指导[8]。
4未来展望
一方面,卷积神经网络的应用涉及多个行业,值得在工业、金融、医疗等各个领域深入推进。另一方面,卷积神经网络仍处于初始探索阶段,发展空间广阔,前景可期。基于卷积神经网络的目标检测技术可寻求更深层的发展方向,例 如在生产生活中降低更多能耗,在检测精度与速度间取得较高水准的平衡,或者尽量集成化、定制化的应用到医学、农业等领域等。有理由相信,未来目标检 测技术能够得到更广泛深入的发展和应用。
参考文献
[1] 李柯泉,陈燕,刘佳晨,牟向伟.基于深度学习的目标检测算法综述[J].计算机工程,2022,48(07):1- 12.DOI:10.19678/j.issn.1000-3428.0062725.
[2] 蔡娟,李东新.基于优化 k 均值建模的运动目标检测算法[J].国外电子测量技术,2016, 35(12):20-23.)
[3] 周俊宇,赵艳明.卷积神经网络在图像分类和目标检测应用综述[J].计算机工程与应 用,2017,53(13):34-41.
[4] 张波,黄晓芳.基于 TF-IDF 的卷积神经网络新闻文本分类优化[J].西南科技大学学 报,2020,35(01):64-69.
[5] 石鑫,化晨冰,张凯,王才建,王士勇.基于 SSD 深度神经网络的航拍图像电力目标检测[J].数据采集与 处理,2022,37(01):207-216.DOI:10.16337/j.1004-9037.2022.01.018.
[6] 张磊,姜军生,李昕昱等.基于快速卷积神经网络的果园果实检测试验研究[J].中国农机化学 报,2020,41(10):183-190+210.DOI:10.13733/j.jcam.issn.2095-5553.2020.10.027.
[7] 郭胜娟,刘峰.基于目标检测技术的农业有害昆虫识别方法研究[J].农业开发与装 备,2022,No.249(09):149-153.
[8] 张慧,王坤峰,王飞跃.深度学习在目标视觉检测中的应用进展与展望[J].自动化学 报,2017,43(08):1289-1305.DOI:10.16383/j.aas.2017.c160822.