中国人民解放军 31401部队
场景分类覆盖调研是遥感探测中的关键任务,是土地利用监测的重要内容。本文研究基于度量学习的遥感图像场景分类方法,介绍了对比度量和三体度量两种经典度量学习方法,将三元组约束与卷积神经网络结合,并推广到多元组约束,将其与卷积神经网络结合,进行遥感图像场景分类实验。经过以上实验本文发现在加入度量学习规范后,卷积神经网络在遥感图像场景分类任务中精度有较大提升,并且多元组约束的加入使网络训练效率更高。
Equation Chapter (Next) Section 11 绪论
随着卫星和航空遥感图像的不断发展,遥感图像在有了广泛的运用,人们可以从中获取到更多有用的数据和信息。遥感图像的分类尤为重要。运用深度学习的知识来进行遥感图像的分类不光可以大大减少人力,而且可以增加准确率,有很高的研究价值。
三体度量的样本组为三个,其意义便是缩短同类图像特征间的距离的同时增大异类图像特征的距离。但是三体法在一个选取同类样本的同时,也只选取了一个异类样本,所以在每个批次优化过程中,只能保证规范其中一个异类样本间的距离,而不能规范其与所有异类的距离都远。在实验中,经过足够多次的迭代,Triplet Loss是可以将每一类之间的距离平衡度量的,但是可以寻找一种方法,在每一批次中对每一类之间的距离进行规范。
所以本文尝试了一种新的数据组合方式,在一个批次的优化中,将所有的类别考虑进来进行度量规范。与三体法数据三元 相比,若考虑所有异类,则每次考虑的数据元组为 ,其中N为类别数目,所以一次考虑的样本数为N+1。而对于一个批次来说,考虑每一类的度量规范时,三体法所需的样本数目为3N,而(N+1)元组需要(N+1)×N个样本,样本数量大大增加,一个批次需要的计算以及数据存储力大大提升。
所以本论文中换了一种批次输入的思路,每一批次每一类输入2个样本,在组成(N+1)元祖时,选择一类的一个样本作为 ,然后以该类的另一个样本作为 剩余类的一个样本作为 ,这样,考虑到所有类别时,所需的样本数为2N。大大减小了计算能力的需求。
由上一节的Triplet Loss,论文中使用了 “最大距离的同类和最小距离的异类” 的提取方式。这种方法对于三元组来说是十分有必要的。但是(N+1)元祖已经考虑了所有的类别间距,所以不必做此种方式的处理。
(1) 数据预处理
UC Merced数据集、AID数据集以及NWPU-RESISC45数据集三个数据集都缩小为64×64像素的三通道图像。然后将图像RGB三通道值归一化到负一到正一,并且所有图像作减均值处理。为了更契合TensorFlow的运算结构,将数据保存为TFRecord格式。
(2) 数据批次输入方法
UC Merced数据集、AID数据集以及NWPU-RESISC45数据集三个数据集,按照80%,50%,50%以及50%,20%,20%的训练率分为训练集与测试集。本实验的批次样本数目与数据集有关,本文设定每批次样本数目为2N,N为类别数量,则三个数据集的批次样本数依次为41、60、90。并且保证了每一个批次存在所有的类别。
(3) 损失函数
由以上的介绍,本篇论文使用的损失函数为:
(3.1)
但是在实际操作时,计算 与 距离时,将其与选取异类的所有(2N-2)个样本计算 。具体的计算方法如下。
一个批次数据经过网络之后,首先计算该批次中每个样本两两间的欧氏距离,构成一个尺寸为(2N,2N)的张量D,D张量即为距离字典,其中N为批次样本数目。又因为该批次所有的类别有两个样本,所以张量D中,每一行有唯一一个同类样本距离 ,其余全部为异类样本距离,这样,简化计算,可以得到论文实验中所用的损失函数为:
(3.2)
(4)评价方式
依然使用三项评价参数总准确度、平均分类精度、以及Kappa系数对分类结果进行讨论,并结合损失函数随训练迭代次数下降曲线来说明训练过程,并纪录迭代时间来说明时间效率。为了实验的严谨性,所有参数结果为重复5次取平均值。
本文采用了三个较为常用的公开遥感图像数据集来对本文的实验进行评判,分别是UC Merced数据集、AID数据集以及NWPU-RESISC45数据集。接下来详细介绍这三个数据集。
本部分对N Pair Loss优化第一层至第二层(conv1_1到conv2_2)卷积层的网络参数,学习率为0.0001,对交叉熵优化剩余层的分类器参数,学习率设置为0.001。UC Merced数据集、AID数据集、NWPU-RESISC45数据集训练率分别为50%、20%时,由结果可以看出,在训练集样本数量减小时,除UC Merced数据集外, AID数据集、NWPU-RESISC45数据集在较小样本数供给训练时,出现了过拟合现象。收敛迭代次数方面,依然是UC Merced数据集、AID数据集、NWPU-RESISC45数据集收敛时的迭代次数依次增多。
当训练量较多时,三个数据集的分类准曲率都比较高, N Pair Loss规范的网络准确率大于加Triplet Loss规范的网络,并且两者都大于无度量学习规范下的分类效果。当训练量较少时,准确率相比原来均有下降,加N Pair Loss规范的网络准确率与加Triplet Loss规范的网络准确率近似,均略高于不加度量学习规范的网络。可见,加度量学习规范后,可以对分类效果起到一定的效果。
在迭代收敛方面, N Pair Loss收敛较快的原因,是因为在每一轮中的每一个样本其所有的分类都进行了考虑,所以可以尽快的找到平衡,而Triplet Loss仅仅对每个样本考虑了距离最近的那个样本,在整体性上还是有欠缺,所以在迭代次数较多时才找到平衡。
由次可以看出,相对比不加度量学习规范,加Triplet Loss以及加N Pair Loss的规范三种情况,N Pair Loss的精确度要略高于另外两者,并且收敛较快,说明加N Pair Loss规范的网络在进行遥感图形分类任务时表现最好。
[1] CHENG G, HAN J, LU X. Remote Sensing Image Scene Classification: Benchmark and State of the Art[J]. Proceedings of the IEEE, 2017,105(10): 1865-1883.
[2] 焦李成,赵进,杨淑媛,刘芳,等.深度学习、优化与识别[M].北京:清华大学出版社,2017.
[3] CHAIB S, GU Y, YAO H. An Informative Feature Selection Method Based on Sparse PCA for VHR Scene Classification[J]. IEEE Geoscience & Remote Sensing Letters, 2016, 13(2):147-151..
- 1 -