民航华东空中交通管理局 上海 200335
摘要 机场二次雷达设备的发展极大地保障了民用航空业的运行安全,传统二次雷达运行系统配合地面人力监护的模式,不再能满足日益增长的民航运输业务对航管设备维护的需求。本文从二次雷达状态的无人值守实现出发,设计多设备视频流采集系统同步获取多台地面二次雷达运行状态监视画面,随后借助基于深度学习的光学字符识别技术(OCR),完成当前雷达运行通道、读写状态、故障信息等的识别,统一指导雷达安全运行的维护工作。利用模型压缩技术构建共享编码模块,通过设计端到端的文本框回归和字符识别过程,在实际测试中取得了较高的识别精度,该模型能够完全胜任无人值守的需求。
关键词 二次雷达, 无人值守, 光学字符识别技术
1引言
民航业务的不断发展对航管设备的可靠性、安全性、时效性提出了越来越高的需求。二次雷达作为航空管制和航路监视的主要设备,具有很高的任务可靠性要求,除设备的定期维护外,还需要满足全天候连续不间断工作、终年不停机并实时输出雷达覆盖范围内连续稳定的目标信息[1, 2]。为确保民航机场的安全运行,避免由于二次雷达故障引发的管制信息丢失,民航机场地面人员需要实时保障二次雷达系统运行状态正确。《中国制造2025》[3]提出我国要部署全面推进实施制造强国战略,推进进入工业4.0时代,实现以智能制造为主导的工业系统。因此,航管设备的高度自动化和无人值守也成为了必然的趋势。
二次雷达已经引入双通道热备份体制[4],自动根据设备状态完成工作设备的选择和切换,达到不中断目标信息输出的能力。此时,为避免双通道同时出现故障,及时修复受损通道,需要实时监测主通道激活状态、信号读写状态以及故障报错信息。现有民航机场的二次雷达系统运行状态监测主要依赖系统的图形界面展示的运行状态识别和错误代码指导,由观测员定期收集记录有用信息,无法满足业界对高效自动化无人值守的需求。尽管得益于计算机技术和人工智能的发展,许多智能化软件系统已经落地商用。然而,各雷达厂商的雷达监控由各厂家自行定义,没有统一标准,无法直接对不同厂商的雷达运行状态进行统一上报。鉴于上述原因,通过外部实现二次雷达运行状态无人值守的系统亟待开发。
应用于智能监控终端,基于深度学习的图像处理技术及光学字符识别(OCR)技术[5, 6]得到了大力发展,能够实时、精准地从给定图片中提取核心文字信息。本文首先通过视频采集设备,汇集二次雷达监控界面的视频流信息至数据终端。然后再预处理数据并利用数据训练轻量的OCR深度学习模型,部署在服务器端。同步处理多机输入,达到实时地监测和反馈。该系统有效弥补了现有系统的不足,提高观测人员业务平台的效率,提升民航二次雷达运行稳定性,进而保障民航运行的安全。
2数据库构建
机场二次雷达运行状态监测系统部署在闭源系统内,不具备运行额外定制软件的条件。雷达状态通过UI界面显示在未接入互联网的windows环境下,常规录屏软件无法内置运行,而外置相机抓拍屏幕显示状态则会面临光照不同、姿态角度差异等问题,增加算法处理的难度。因此采用数据采集卡,直接获取屏幕的视频流信号,通过以太网口上传至服务器端。考虑到需要同时监控多台设备,设置多路采集通道,通过模拟开关控制通道的切换[7],对各机器的采样率限制在1帧每秒,既可以满足实时无人值守的需要,又可以最大程度地节省内存开销,完成单一上位机对多设备的监视。由于OCR模型通常运行效率较低,单上位机对应处理的设备不应超过60台,从而可以实现监控周期处于1-2秒范围内。应用于深度学习模型,输入目标的大小对与模型的计算量成正比关系,常规计算机视觉任务对输入图片的尺寸要求较低,一般大小为224224。而采集到的视频流单帧大小一般为1080720。因此在采集卡中设置视频压缩模块,进一步减小信号传输过程中的压力。考虑到数据标注的难度,压缩至380380大小的图片是一个可以兼顾标注难度和模型计算量的尺寸。
雷达状态显示UI界面可能会存在非全屏显示、窗口不规则、显示器不一致等问题,导致训练数据不统一,无法依据相对像素位置,直接获取指定位置的有效信息。因此需要预先标注关键位置的坐标和所对应的字符或状态,如CHANNEL A和B是否激活、通道对应背景色,主用通道是CHANNEL A或B,当前采集时刻状态栏输出字符内容(如图2所示)。标注如图红框标识位置的左下和右上二维坐标(Rx,Ry),以及其对应的字符,区域主要背景色。
图1 二次雷达状态无人值守系统示意图
Fig.1 The unattended system of secondary radar running status.
图2 监视状态关键区域示意图
Fig.2 The schematic diagram of key areas in monitoring interface.
3算法设计
OCR技术从基于传统的图像处理和机器学习转到了以深度学习为主,主要包含两个步骤,一是文字检测部分,用于获取图像中的文字位置。随着目标检测算法和图像实例分割算法的发展,文字检测技术也从检测单行、规则的模式发展到现如今的不规则任意形式的文本,典型算法包括:CTPN[8]、EAST[9]、RRD[10]、PMTD[11]等方法。
二是文字识别,输入为上一阶段或得的文本行图像,旨在通过算法设计,获得图像中的文本内容。传统的文字识别方法可以分为字符分割和单字符识别两个步骤,但是割裂的过程使得中间字符无法结合上下文信息,增大了误识别的概率。因此现在的文本是识别算法都是基于循环神经网络,同时进行字符分割和识别,有效减少了数据的标注量[12]。同时,分割和识别算法可以互相促进,使性能得到大幅提升。
此外,端到端的OCR方法避免了两个模型级联造成的参数量增多、推理速度变慢等问题,一次训练完成文本检测和文本识别过程,模型共享特征提取网络[13]。训练阶段模型输入图像标签内容包括文本框位置、文本字符,损失函数定义为两部分误差的加权和。但是,由于检测和识别的特性不同,整个端到端的算法训练收敛难度很大,不容易调优。
本文集成了级联型网络方便训练和端到端模型推理速度快的优点,设计了包括共享编码器结构、文本检测解码器1和文本识别解码器2的端到端结构。为了进一步增强
图 3 模型整体框架
Fig.3 The architecture of overall model.
共享编码器的性能,我们利用模型压缩方法,
将目标检测部分和字符识别部分压缩至同一个骨架网络,既可以保证两部分的性能,同时也不会增加模型推理过程中造成的额外资源损耗。模型整体框架如图3所示。
3.1共享编码器
共享编码器,也即特征提取框架,作为检测和识别模块共享的部分,需要保证轻量化的同时尽可能多的获取不同分辨率信息。采用ResNet18[14]作为基础的主干网络,如图4中的上半部分。同时,受FPN (Feature Pyramid Network)模型[15]的启发,我们连接了低级特征映射和高级语义特征映射。解码器1使用上述编码后产生的特征来输出密集的文本位置预测。文本检测解码器产生的定向文本区域候选框内容同时作为文本识别解码器的输入,利用卷积神经网络CNN(Convolutional Neural Network)和长短时期记忆网络LSTM(Long-short Term Memory)[16]的文本序列信息进行重新编码,然后利用CTC(Connectionist Temporal Classification)[17]解码器输出。
图4 共享编码器网络结构(Resnet18)
Fig.4 The architecture of shared encoder (Resnet18)
3.2文本检测模块
文本检测模块沿用East算法[9]的全卷积网络。由于通常检测场景中文本框大小、角度不一致,给定输入图片,共享编码器(图3)的下半部分将模型输出部分反卷积至大小的特征图。特征编码完成以后,应用一个卷积层输出像素级别的单词预测。第一个通道输出每个像素为正样本的概率,后面4个通道输出正样本坐标到4个方向边界框的距离。
检测模块需要完成正样本分类和文本框的回归。分类过程为像素层面的对比,为逐像素偏差的累加和。定义正样本区域为,则分类损失函数可表示为:
其中,是一个集合中元素的个数,和分别输出预测值和真实的二值标签,表示当前像素是否为文本区域。为交叉熵损失函数。框回归过程中,我们使用IoU损失函数:
其中分别代表预测回归框和真实文本框的坐标。整体损失函数定义为:
为超参数,用于平衡两部分的损失,实验中设置为1。
3.3文本识别模块
文本识别模块旨在使用由共享编码器提取并由文本检测模块转换的区域特征来预测文本标签。考虑到文本区域中标签序列的长度,LSTM的输入特征沿着维度降维至原始图像的,否则过小的文本区域将会导致微小的字符被漏识别。文本识别模块包括顺序卷积模块,双向LSTM层和一层全连接层,最后接一个CTC解码器模块。
具体实施过程,空间维度的特征首先沿着高度轴输入到顺序卷积模型中,逐步通过池化缩小特征图的尺寸,获取深层语义特征。为简单起见,卷积网络采用了基础的卷积层叠加,没有添加特殊的连接模块。输出的高级语义特征图为,以时间维度将该特征划分为一个二维序列,作为LSTM网络的输入。定义双向LSTM每个方向的输出通道,以充分捕捉文本序列的前后依赖性。LSTM输出为:
最终输出为:
其中为全连接层,为当前预测字符对所有可能字符集合的置信度。CTC解码器将逐帧分类置信度转换为一个序列标签。对于每个给定对应在全字符集上的概率分布和真实标签序列,标签的条件概率为所有路径的概率之和:
其中,定义了从具有空白和重复标签到的所有可能标记集合中的多对一映射。训练即求
条件分布的最大似然估计。因此损失函数定义为:
其中为输入待检测文本框中字符的数量,为真实字符。
模型总体损失函数定义为检测和识别损失之和:
为加权超参数,平衡检测和识别过程的损失,实验中设置为1。
3.4模型压缩
上述文本检测和文本识别阶段,由于任务相差较远,用损失函数叠加的方法不利于模型收敛,且训练得到的共享编码器模块提取特征较模糊。因此,本节内容利用基于权重的模型剪枝方法,将两部分编码器参数融合至同一个编码器骨干网络,即ResNet18[18]。压缩时先训练文本检测任务,后训练文本识别任务。由于文本检测任务是基于像素的识别,所以可以认为训练的模型具有较好的像素级别的特征提取能力,从而
图5 模型压缩示意图
Fig.5 The procedure of model compression.
作为部分参数,帮助文本识别模型达到更高的精度和更快的收敛速度。整体框架见图5,具体实施细节如下文所述。
对于任务,我们预先训练一个初始检测模型,然后对其中每一层的参数,依据绝对值大小排序,利用一个二值掩码移除后50%的权重(置0)。注意,直接移除50%的参数会导致模型性能急剧下降,因此需要重新在检测数据上训练模型。这里采用逐步剪枝的方式,每一轮移除4%的参数,训练20轮。移除达到50%以后就不再剪枝,直至重新训练结束。剩余参数接下来保持不变,令为,而被移除的参数记为。此时剩余的参数就可以达到原始模型的性能。
对于任务,此时我们拥有一个稀疏模型和一部分被释放的参数。训练过程中仍然利用以上所有参数,其中不参与后向传播过程,作为新任务的初始化参数,需要在后向传播过程中逐渐拟合至适用于新任务的分布。最终,保存模型参数为,一个二值掩码(),其中为当前卷积核的维度。
4实验
本节中,我们主要描述数据的处理和模型的训练过程,并给出实际数据上的测试结果。
4.1数据介绍
训练数据库为日常采集并标注的真实二次雷达状态界面数据库,借助Paddle OCR[19]标注平台,共有1,000张标注后的图片,尺寸为。每张图片包括2个字符区域框和对应字符,2个通道框及其背景色的RGB标签,2个通道对应的读写状态目标区域坐标。训练数据进行了随机裁剪、翻转、模糊、扰动、加噪等增强手段,提升模型的鲁棒性和泛化性。
4.2实验过程
所有实验内容均是基于开源深度学习框架Pytorch完成。共享编码器模块利用ImageNet上预训练好的ResNet18模型。优化器为随机梯度下降法(SGD),权重衰减因子设置为0.0001,动量设置为0.9,训练轮次为50,初始学习率设置为0.01,每训练10轮后减小至10倍。模型剪枝再训练过程中学习率设置为0.0001,训练20轮。训练批次大小为32,在单张RTX 2080Ti显卡上完成训练。为了保证测试的准确性,采用十折交叉验证法,将所有数据均匀分为10份,每次随机从中选取一份作为测试集,最后报告平均测试精度。
4.3实验结果
表1 测试精度和运行速度
Table 1 The test accuracy and inference speed.
测试内容 | 结果 | ||
精度 | 召回 | F1量度 | |
通道预测 | 100% | 100% | 100% |
读写状态 | 100% | 100% | 100% |
字符识别 | 98.92% | 97.88% | 99.13% |
速度 | 38.2 帧/秒 |
从表1中可以看出,由于大部分图像窗口很规整,对A/B通道的预测和读写状态的识别较为容易,均可以达到绝对准确的判断。对于报错字符,由于训练样本量较小,存在一定的模型泛化性能不足的可能,但总体还是达到了实际可信的程度。而得益于该设计模型的端到端结构和模型压缩算法,实际在RTX 2080Ti显卡上测试速度可以达到38.2帧每秒,具有很高的运算能力。
5结论
本文针对现有二次雷达设备状态监护仍需要大量人力投入,无法适应自动化保证航管设备运行安全的问题,设计了基于OCR识别技术的远程自动值守系统。该系统同步采样多台二次雷达监控设备的显示界面,实时传输至服务器端,利用深度学习模型,判断当前设备运行状态,返回并存储有效监测信息。深度学习模型利用模型压缩方法,成功实现了将传统的文本检测和文本识别双阶段模型集成到单一框架中,有效提高了模型的工作效率。相较于传统模型,可将推理时间缩短一半,或者增加接近一倍的监测目标雷达数量。实验验证了本方案的可行性,具有较大的实际应用价值。
参考文献
1.王丹, 二次雷达系统效能评估方法研究. 2018, 电子科技大学.
2.陈永照, 孙中路, and 李雪锋, INDRA 二次雷达典型故障分析与维修. 电子世界, 2021.
3.周济, 智能制造——“中国制造2025”的主攻方向. 中国机械工程, 2015. 26(17): p. 2273-2284.
4.张虹 and 颜红, 二次雷达系统故障软化方法.
5.朱国栋, et al., 基于OCR技术的机场气象观测业务监控平台设计与实现. 民航学报, 2022.
6(02): pp. 74-77.
6.Smith, R. An overview of the Tesseract OCR engine. in Ninth international conference on document analysis and recognition (ICDAR 2007). 2007. IEEE.
7.肖萍, et al., 一种视频多模态数据自适应采集策略. 小型微型计算机系统: pp. 1-11.
8.Tian, Z., et al. Detecting text in natural image with connectionist text proposal network. in European conference on computer vision. 2016. Springer.
9.Zhou, X., et al. East: an efficient and accurate scene text detector. in Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2017.
10.Liao, M., et al. Rotation-sensitive regression for oriented scene text detection. in Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.
11.Liu, J., et al., Pyramid mask text detector. arXiv preprint arXiv:1903.11800, 2019.
12.Shi, B., X. Bai, and C. Yao, An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. IEEE transactions on pattern analysis and machine intelligence, 2016. 39(11): p. 2298-2304.
13.Liu, X., et al. Fots: Fast oriented text spotting with a unified network. in Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.
14.He, K., et al. Deep residual learning for image recognition. in Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.
15.Lin, T.-Y., et al. Feature pyramid networks for object detection. in Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.
16.Sundermeyer, M., R. Schlüter, and H. Ney. LSTM neural networks for language modeling. in Thirteenth annual conference of the international speech communication association. 2012.
17.Graves, A., et al. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. in Proceedings of the 23rd international conference on Machine learning. 2006.
18.Gao, H., et al. Deep Balanced Learning for Long-tailed Facial Expressions Recognition. in 2021 IEEE International Conference on Robotics and Automation (ICRA)
. 2021. IEEE.
19.Du, Y., et al., Pp-ocr: A practical ultra lightweight ocr system. arXiv preprint arXiv:2009.09941, 2020.