-
摘要:
变化检测(CD)是遥感的一项重要任务,通常面临许多伪变化和较大的尺度变化。目前的方法主要侧重于对差异特征的建模,忽略了从原始图像中提取足够的信息,影响了特征的识别能力,难以稳定地区分出变化区域。针对以上问题,提出了一种全尺度特征聚合网络(FFANet)来更充分地利用原始图像特征,促使生成的特征表示在语义上更丰富、在空间上更准确,从而提高了网络对小目标和目标边缘的检测性能。同时,拓展了深监督来结合多尺度的预测图,以促使不同对象在更合适的尺度上进行检测,从而提升了网络对对象尺度变化的鲁棒性。在CDD数据集上,相比于基线网络,所提方法仅增加了1.01×106的参数量,就将
F 1分数提升了0.034。Abstract:Change detection (CD) is an important task of remote sensing, always facing many pseudo changes and large scale variations. However, existing methods mainly focus on modeling difference features and neglect extracting sufficient information from the original images, which affects feature discrimination and makes it difficult to distinguish change regions stably. To address these problems, a full-scale feature aggregation network (FFANet) is proposed to make fuller use of the original image features, which drives the generated feature representations to be semantically richer and spatially more precise, thus improving the network's detection performance for small targets and target edges. Deep supervision is also extended to combine multi-scale prediction maps to drive the detection of different objects at more appropriate scales, thus improving the robustness of the network to object scale variations. On the CDD dataset, our proposed method improves the
F 1-score by 0.034 compared to the baseline network by increasing the number of parameters by only 1.01×106. -
变化检测(change detection, CD)的目的是识别不同时间采集的同一区域的多时相遥感图像间的差异,在城市扩张[1]、农田制图[2]、灾害监测[3]等诸多领域有着广泛的应用。作为一项特殊的遥感任务,变化检测很容易受到外界环境因素的干扰,如光照变化、季节变化[4]、噪声干扰[5]等,会导致具有相同语义概念的物体在不同的时间和空间位置可能表现出不同的光谱行为。此外,由于感兴趣的对象可能存在较大的尺度变化,要求所提方法能够鲁棒地检测出不同尺度的物体。
传统的变化检测方法主要关注遥感图像的光谱值、纹理和形状,而忽略了对空间上下文的利用。例如,变化向量分析(CVA)[6]先计算图像间的变化向量,再结合变化方向和幅度来判断变化类型。主成分分析(PCA)[7]常被用来减少冗余数据,而缨帽变换(KT)可产生稳定的光谱成分,为长期研究提供基础的光谱信息。此外,人工神经网络(ANN)和支持向量机(SVM)[8]等机器学习方法能够处理更大的数据集,可避免维度爆炸。
近年来,深度学习算法,尤其是卷积神经网络(CNN)在变化检测领域取得了很好的效果。FC-EF[9]、FC-Siam-conc[9]、FC-Siam-diff[9]是早期的3种全卷积神经网络,实现了端到端的训练。其中,后2种网络应用了孪生架构,对目前问题进行了深入研究。IFN[10]通过深监督和注意力机制提高了输出变化图中对象边界的完整性和内部的紧凑性。进一步地,SNUNet[11]采用孪生的子网络作为编码器,并将NestedUNet[12]作为解码器,通过在编码器和解码器间及解码器和解码器间进行密集的信息传输来更充分地利用低层次细节特征,确保深层特征定位准确。为了生成更具辨识性的特征图,STANet[13]、DASNet[14]引入了自注意力机制来捕获远程依赖。
基于深度特征的方法能够提取到图像的深层语义,因此对伪变化的鲁棒性较高。然而,这些方法大多是基于U-Net[15]或FCN[16]架构实现的,其利用普通的编码器来提取原始图像的特征存在2方面的问题:①低层次特征图缺乏足够的语义,当特征由编码器传向解码器时存在较大的语义鸿沟;②随着逐层的进行下采样,深层特征的空间定位变得不太准确,影响了对小目标和目标边缘的检测。
许多研究[15-20]表明,不同尺度的特征图发挥着不同的作用。低层次的小尺度特征图探索了丰富的空间信息,能够突出物体的边界;而高层次的大尺度特征图提取了物体的深层语义,能更鲁棒地识别出伪变化。因此,不同尺度的特征图之间存在一定的互补性。本文提出了一种全尺度特征聚合的编码器来最大限度地发挥不同尺度特征图的优势,以确保编码器生成的所有尺度的特征图都语义丰富且定位准确。此外,为了适应目标的多尺度变化,本文拓展了深监督以在解码器的每个尺度上都生成相应的预测图,结合这些具有不同尺度表示的预测图来生成最终的预测结果。
1. 网络结构
1.1 网络主体架构
本文设计的全尺度特征聚合网络(FFANet)包括双流编码器、解码器和分类器3部分。如图 1所示,编码器由共享权值的双流分支组成,用以独立地编码双时相图像的全尺度特征,这些特征被传向解码器以进一步提取差异信息。分类器结合解码器生成的所有尺度的特征图来生成最终的预测结果。
1.2 编码器
编码器是共享权值的双流结构, 每一条流都包含自上而下和自下而上2条分支,如图 2所示,2条分支相加以合并为每条流的输出。
1.2.1 自上而下的分支
作为网络的主干,自上而下的分支被用来提取双时相图像的有效特征。由于低层次特征图包含了丰富的空间信息,突出了对象边界,通过密集的跳跃连接使深层能直接接收所有较浅层的特征图以确保深层特征具有准确的位置表示。{Ri(N)|i=1, 2, 3, 4, 5;N=1, 2}表示自上而下的分支所生成的特征图的集合,i为层索引,N代表编码器的2个流,Ri(N)可表示为
(1) 式中:R0(N)为原始图像;C3×3(·)为3×3卷积;CR(·)为残差单元;D(·)为下采样操作;[·]为特征图的串联。
1.2.2 自下而上的分支
深层特征包含了更丰富的语义,有利于困难样本的识别。如图 2所示,自下而上的连接将深层特征的高层次语义传递到了浅层,显著提高了浅层特征的识别能力,从而缓解了编码器和解码器特征图间的语义鸿沟。相比于FPN[17],本文方法通过密集的跳跃连接,避免了深层特征逐层进行上采样时语义信息可能会发生的衰减问题。
为避免网络参数量显著增长,在实验中,本文先通过1×1卷积减少深层特征图的通道数,再利用双线性插值法来上采样该大尺度特征图,最终将映射到同一层的特征图串联起来,并用一个额外的1×1卷积再次减少自下而上的分支特征图数量,以使2个分支对应的特征图的通道数相同。{Si(N)|i=1, 2, 3, 4;N=1, 2}表示自下而上的分支所生成的特征图的集合,i为层索引,N为编码器的2个流,Si(N)可表示为
(2) 式中:C(·)为1×1卷积;U(·)为上采样操作(双线性插值)。
如图 3所示,以S3(N)为例来描述如何构建自下而上的分支。首先,通过1×1卷积减少R5(N)的通道数量,再对其进行上采样得到S4(N)。然后,S4(N)和R5(N)都通过1×1卷积进行降维,再上采样到与R3(N)相同的尺度并进行串联。最后,串联后的特征图通过1×1卷积再次降维,使S3(N)的通道数量与对应的R3(N)相同。
1.2.3 横向连接
自上而下的分支提取了原始图像空间定位准确的特征,自下而上的分支则将高层次的语义传递到了浅层。为了融合这2个分支,本文将其对应的特征图逐元素的进行相加来作为编码器的每一条流的输出。{Ei(N)|i=1, 2, 3, 4, 5;N=1, 2}表示编码器的每一条流所输出的特征图的集合,i为层索引,N为编码器的2个流,Ei(N)可表示为
(3) 式中:Ri(N)和Si(N)分别为这2个分支所生成的对应的特征图。
通过横向连接,本文在所有尺度上都构建了具有精确位置表示的高层次语义特征图,从而促进了网络对小目标和目标边缘的检测,也提高了网络对伪变化的检测性能。
1.3 解码器
借鉴于孪生网络[9-11, 18], 本文将编码器的2个流中尺度相同的特征图串联在一起来提取差异信息。{E1, E2, E3, E4, E5}表示串联后的特征图集合,则Ei可表示为
(4) 式中:Ei(1)和Ei(2)分别为编码器的2个流生成的特征图;i为层索引;C(·)为1×1卷积,用来减少串联后特征图的通道数量(实验中,本文将串联后特征图的通道数减少为原来的一半)。
解码器如图 4所示,通过卷积操作,网络提取到了双时相图像间的差异信息,而上采样(反卷积)则逐层恢复了语义特征图的分辨率。G1、G2、G3、G4、G5分别表示解码器生成的不同尺度的特征图,其具有差异信息的多层次表示。
1.4 分类器
不同对象适合被检测的尺度并不是完全相同的,小尺度特征图中包含了更多的细节信息,有利于道路、车辆等小块地物的检测;而大尺度特征图虽然边缘纹理等细节信息损失的比较严重,但有利于抑制对象内部的白斑和空洞现象,更适合于检测大片的农田或建筑物等目标。
为了提高网络对对象尺度变化的鲁棒性,本文设计了多尺度预测方法。如图 5所示,解码器的每一层特征(G1, G2, G3, G4, G5)都通过1×1卷积降到二维(变化或不变化)以生成不同尺度的预测图,再利用双线性插值法将所有大尺度的预测图上采样到跟原始图像相同(G1不进行上采样),并通过真值图进行有监督的训练。最终这些预测图被串联在一起,再额外利用一个3×3卷积压缩到二维,并利用真值图监督生成最终的预测图。受深监督的影响,分类器还加速了网络收敛,并促使解码器生成的特征图更具辨识性。获取预测图Map的流程为
(5) 式中:Sup(·)表示将特征图压缩至二维并上采样(双线性插值)到与原始图像相同的尺度,通过真值图进行有监督的训练。
2. 实验与分析
为了合理评价FFANet,本文在2个公开的大尺度数据集上评估了其性能增益和参数量、计算量的额外开销,并将FFANet与其他先进方法作了对比。
2.1 实验数据
1) CDD[21]。通过裁剪和旋转7对随季节变化的图像生成了10 000对训练样本和3 000对验证及测试样本。分割后的图像大小均为256×256像素,空间分辨率为3~100 cm/像素。
2) LEVIR[11]。共包含637对超高分辨率(50 cm/像素)的遥感图像,大小为1 024×1 024像素。受GPU内存容量限制,将每张图像不重叠地切分成16张256×256像素的小图块。
2.2 实验参数和评价指标
为了验证网络性能,FFANet未经过预训练,并使用普通的交叉熵损失函数。具体参数为:学习率为0.05,优化器Adam,批大小为16。在NVIDIA Tesla v100上训练了100轮,并最终使模型达到收敛。本文使用3个评价指标:精确率P、回归率R和F1分数,表达式分别为
(6) (7) (8) 式中: TP为真阳性的样本数量;FP为假阳性的样本数量;FN为假阴性的样本数量。
2.3 对比实验
本文与其他先进的变化检测方法作了对比,FC-EF[9]、FC-Siam-conc[9]、FC-Siam-diff[9]是3种U型的全卷积神经网络,其中后2种是U-Net的孪生拓展。IFN[10]在U型结构的基础上引入了注意力机制和多层次深监督来促进编码器和解码器的特征图更好的融合。SNUNet[11]结合了孪生网络和UNet++,并通过在编码器和解码器间及解码器和解码器间进行更紧凑的信息传输来增强深层特征的空间定位。DASNet[14]采用了孪生网络加对比损失的架构,并利用双重自注意力机制来提升特征辨识性,以更鲁棒性的区分出变化。
在表 1中,对比了FFANet与上述方法在CDD和LEVIR数据集上的参数量、计算量和性能指标。其中在CDD数据集上,FFANet的精确率P、回归率R和F1分数分别为0.962、0.957和0.960,相比于SNUNet分别提升了0.006、0.008、0.007。在LEVIR数据集上,FFANet的这3个指标分别为0.925、0.892和0.908,同样取得了最先进的效果。
表 1 CDD和LEVIR数据集上FFANet与其他方法的对比Table 1. Comparison of FFANet with other methods on CDD and LEVIR datasets方法 参数量/106 计算量/GFLOPs CDD LEVIR P R F1 P R F1 FC-EF 1.35 7.14 0.749 0.494 0.595 0.754 0.730 0.742 FC-Siam-conc 1.55 10.64 0.779 0.622 0.692 0.852 0.736 0.790 FC-Siam-diff 1.35 9.44 0.786 0.588 0.673 0.861 0.687 0.764 IFN 35.72 164.53 0.950 0.861 0.903 0.903 0.876 0.889 DASNet 16.25 113.09 0.914 0.925 0.919 0.811 0.788 0.799 SNUNet 12.03 109.62 0.956 0.949 0.953 0.889 0.874 0.881 FFANet 8.64 28.81 0.962 0.957 0.960 0.925 0.892 0.908 注:GFLOPs指109次浮点运算。 此外,FFANet的参数量和浮点运算次数分别为8.64×106和28.81 GFLOPs,低于大部分的变化检测网络,有3方面的原因:①通过大量的1×1卷积严格控制参数数量;②减少了网络整体的通道数量;③FFANet基于U型架构,要比基于UNet++ 的SNUNet更轻量。
为了更直观地评估FFANet,在图 6中可视化了FFANet、FC-Siam-conc、FC-Siam-diff、IFN、DASNet和SNUNet在CDD测试集上的结果。可以观察到,FFANet能更完整地分割出小目标和目标边缘,这是因为本文所提出的编码器和分类器提高了网络性能。编码器通过全尺度的特征聚合确保生成的所有尺度的特征图都语义丰富又定位准确,从而促进了对小目标和目标边缘的检测。分类器则通过结合不同尺度的预测图,进一步提高了网络对对象尺度变化的鲁棒性。
2.4 模块间的消融实验
本节对所提出的编码器和分类器作了消融实验,所有实验的超参数设置完全相同。如表 2所示,表中编码器和分类器指本文所提出的编码器和分类器。当编码器所在列没有“√”时,使用普通编码器(见图 7)代替全尺度特征聚合的编码器。当分类器所在列没有“√”时,只对解码器特征G1进行有监督的训练来获取最终的预测图。
表 2 CDD数据集上的消融实验Table 2. Ablation experiments on CDD data set序号 编码器 分类器 参数量/106 P R F1 ① × × 7.63 0.955 0.900 0.926 ② √ × 8.64 0.960 0.942 0.951 ③ × √ 7.63 0.957 0.943 0.950 ④ √ √ 8.64 0.962 0.957 0.960 从表 2可以看出,本文所提的编码器仅增加了1.01×106参数量,就将F1分数提升了0.025,这说明充分利用原始图像特征能显著提升网络性能。此外,本文所提出的分类器在几乎不增加参数量的情况下,将F1分数提升了0.024。这可归结于2个因素:①多层次的深监督促使解码器生成了更具辨识性的特征表示;②多尺度预测图的结合提高了网络对对象尺度变化的鲁棒性。
图 8可视化了表 2所对应的测试集的实验结果。可以观察到,全尺度特征聚合的编码器和多尺度预测的分类器都有利于生成更清晰的边缘,并促进了对小目标的检测。然而,从图 8中第1列和第3列可看出,尽管全尺度聚合的编码器整体上提升了检测性能,但预测结果中多出了一些“假阳性”样本。经过比对发现,这些虚假变化主要出现在变化区域边缘或在图像边缘,这可能是由于变化区域和非变化区域相邻像素的特征在深层中被混合到了一起,编码器自下而上的分支将这些特征传递向浅层时,变化像素为非变化像素贡献了一些描述错误的语义信息。
在图 8中,错误的分类用圆圈作了标记。从第2列、第3列中可以观察到,所提出的编码器和分类器在结合使用后,一些彼此预测错误的目标能同时被纠正回来,说明这2个模块在网络中所补充的信息并不是完全相同的,两者间存在着很强的互补性,因此建议这2个模块结合在一起来使用。
3. 结论
1) 提出了一个全尺度特征聚合网络,仅用8.64×106的参数量和28.81 GFLOPs浮点运算次数就在CDD和LEVIR数据集上取得了最先进的性能,相比于其他方法有较大优势。
2) 所提网络通过对特征图的充分利用,显著提高了对小目标和目标边缘的检测性能,并通过结合多尺度预测图提升了对对象尺度变化的鲁棒性。
3) 单独使用改进的编码器会产生了一些“假阳性”样本,影响网络的精确率,但将改进的编码器和分类器结合在一起使用将有利于消除这一负面影响。
-
表 1 CDD和LEVIR数据集上FFANet与其他方法的对比
Table 1. Comparison of FFANet with other methods on CDD and LEVIR datasets
方法 参数量/106 计算量/GFLOPs CDD LEVIR P R F1 P R F1 FC-EF 1.35 7.14 0.749 0.494 0.595 0.754 0.730 0.742 FC-Siam-conc 1.55 10.64 0.779 0.622 0.692 0.852 0.736 0.790 FC-Siam-diff 1.35 9.44 0.786 0.588 0.673 0.861 0.687 0.764 IFN 35.72 164.53 0.950 0.861 0.903 0.903 0.876 0.889 DASNet 16.25 113.09 0.914 0.925 0.919 0.811 0.788 0.799 SNUNet 12.03 109.62 0.956 0.949 0.953 0.889 0.874 0.881 FFANet 8.64 28.81 0.962 0.957 0.960 0.925 0.892 0.908 注:GFLOPs指109次浮点运算。 表 2 CDD数据集上的消融实验
Table 2. Ablation experiments on CDD data set
序号 编码器 分类器 参数量/106 P R F1 ① × × 7.63 0.955 0.900 0.926 ② √ × 8.64 0.960 0.942 0.951 ③ × √ 7.63 0.957 0.943 0.950 ④ √ √ 8.64 0.962 0.957 0.960 -
[1] LEICHTLE T, GEIß C, LAKES T, et al. Class imbalance in unsupervised change detection-A diagnostic analysis from urban remote sensing[J]. International Journal of Applied Earth Observation and Geoinformation, 2017, 60: 83-98. doi: 10.1016/j.jag.2017.04.002 [2] USEYA J, CHEN S B, MUREFU M. Cropland mapping and change detection: Toward zimbabwean cropland inventory[J]. IEEE Access, 2019, 7: 53603-53620. doi: 10.1109/ACCESS.2019.2912807 [3] QIAO H J, WAN X, WAN Y C, et al. A novel change detection method for natural disaster detection and segmentation from video sequence[J]. Sensors (Basel), 2020, 20(18): 5076. doi: 10.3390/s20185076 [4] RONG K, FANG B, CHEN G, et al. Progressive domain adaptation for change detection using season-varying remote sensing images[J]. Remote Sensing, 2020, 12(22): 3815. doi: 10.3390/rs12223815 [5] VU V T, PETTERSSON M I, MACHADO R, et al. False alarm reduction in wavelength-resolution SAR change detection using adaptive noise canceler[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(1): 591-599. doi: 10.1109/TGRS.2016.2611684 [6] BOVOLO F, BRUZZONE L. A novel theoretical framework for unsupervised change detection based on CVA in polar domain[C]//2006 IEEE International Symposium on Geoscience and Remote Sensing. Piscataway: IEEE Press, 2006: 379-382. [7] DENG J S, WANG K, DENG Y H, et al. PCA-based land-use change detection and analysis using multitemporal and multisensor satellite data[J]. International Journal of Remote Sensing, 2008, 29(15-16): 4823-4838. [8] LI W, LU M, CHEN X W. Automatic change detection of urban land-cover based on SVM classification[C]//2015 IEEE International Symposium on Geoscience and Remote Sensing. Piscataway: IEEE Press, 2015: 1686-1689. [9] DAUDT R C, SAUX B L, BOULCH A. Fully convolutional Siamese networks for change detection[C]//IEEE International Conference on Image Processing (ICIP). Piscataway: IEEE Press, 2018: 4063-4067. [10] ZHANG C Z, PENG Y, TAPETE D, et al. A deeply supervised image fusion network for change detection in high resolution bi-temporal remote sensing images[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 166: 183-200. doi: 10.1016/j.isprsjprs.2020.06.003 [11] FANG S, LI K Y, SHAO J Y, et al. SNUNet-CD: A densely connected Siamese network for change detection of VHR images[J]. IEEE Geoscience and Remote Sensing Letters, 2021, 19: 1-5. [12] ZHOU Z, SIDDIQUEE M, TAJBAKHSH N, et al. UNet++: A nested U-Net architecture for medical image segmentation[C]// Deep Learning in Medical Image Analysis (DLMIA) Workshop, 2018: 3-11. [13] CHEN H, SHI Z W. A spatial-temporal attention-based method and a new dataset for remote sensing image change detection[J]. Remote Sensing, 2020, 12(10): 1662. doi: 10.3390/rs12101662 [14] CHEN J, YUAN Z Y, PENG J, et al. DASNet: Dual attentive fully convolutional siamese networks for change detection of high resolution satellite images[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 14: 1194-1206. [15] RONNEBERGER O, FISCHER P, BROX T. U-Net: Convolutional networks for biomedical image segmentation[C]//Medical Image Computing and Compwter-Assisted Intervertion-MICCAI 2015, 2015. [16] SHELHAMER E, LONG J, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 640-651. doi: 10.1109/TPAMI.2016.2572683 [17] LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2017: 936-944. [18] BAO T E, FU C Q, FANG T, et al. PPCNET: A combined patch-level and pixel-level end-to-end deep network for high-resolution remote sensing image change detection[J]. IEEE Geoscience and Remote Sensing Letters, 2020, 17(10): 1797-1801. doi: 10.1109/LGRS.2019.2955309 [19] HUAN R, ZHOU M, XING Y, et al. Change detection with various combinations of fluid pyramid integration networks[J]. Neurocomputing, 2021, 437: 84-94. doi: 10.1016/j.neucom.2021.01.030 [20] YANG K, LIU Z, LU Q, et al. Multi-scale weighted branch network for remote sensing image classification[C]//2010 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2019. [21] LEBEDEV M A, VIZILTER Y V, VYGOLOV OLEG, et al. Change detection in remote sensing images using conditional adversarial networks[J]. The International Archives of the photogrammetry, Rewote Sensing and Spatial Information Sciences, 2018, 48(2): 565-571. 期刊类型引用(4)
1. 李普庆,丁海勇,于加东. 融合金字塔差分特征的新增建筑物检测网络. 遥感信息. 2023(01): 146-154 . 百度学术
2. 闫利,李希. 用于高分辨率遥感影像度量变化检测的多路径非对称融合网络. 电子学报. 2023(07): 1781-1790 . 百度学术
3. 韦春桃,龚成,周永绪. 一种联合空间约束与差异特征聚合的变化检测网络. 测绘学报. 2023(09): 1538-1547 . 百度学术
4. 李鹏举,孙英,吕建兵,吴维俊,刘锋,陈贡发. 基于无人机和迁移学习的涵洞图像识别及GPS定位. 公路. 2022(06): 278-282 . 百度学术
其他类型引用(3)
-