
Citation: | Huang Long, Guo Yufu, Wu Ji, et al. Design and implementation of model repository testing based on metamodel and JUnit[J]. Journal of Beijing University of Aeronautics and Astronautics, 2007, 33(04): 481-485. (in Chinese) |
目标跟踪是基本的视觉任务。在仅提供任意目标第1帧位置的情况下,推断视频序列后续帧中的对应目标位置。目标跟踪在军用、民用和安全等领域都有广泛应用,如视频监控、智慧医疗、人机交互、自动驾驶、精确制导、巡飞弹追踪等。
目标跟踪算法可分为传统方法、基于相关滤波的方法、基于深度学习的方法。深度学习算法中,基于孪生网络的目标跟踪算法在保证实时性与准确度平衡的同时,还能实现较高的准确度,因而受到了研究者的广泛关注。SINT[1]使用孪生网络进行目标跟踪,跟踪过程中不对模板进行更新。SiamFC[2]使用一种全卷积孪生网络,利用孪生网络学习目标对象与候选图像之间的相似度,将跟踪问题转化为完整图像上的目标搜索问题。因孪生网络的结构简单且跟踪性能较好,大量孪生系列跟踪器被提出,实现了令人满意的性能。其中,SiamRPN[3]的孪生区域候选网络是具有代表性的,其引入的区域候选网络由一个用于前后景估计的分类网络和一个用于回归的锚框微调网络组成。SiamRPN++[4]在SiamRPN基础上引入了更深层的ResNet50[5]网络,替换了SiamRPN中的AlexNet[6]网络,使用均匀分布的中心采样方式,缓解了因破坏严格平移不变性所带来的影响。SiamCAR[7]、Ocean[8]等算法将无锚框方法用于目标跟踪中,取代了区域候选的方法。无锚框方法降低了网络的计算量,也提高了回归精度。本文算法使用修改后的ResNet50作为骨干网络来提取特征,同时使用无锚框方法进行逐像素地端到端分类与回归。
本文算法基于视觉,视觉对应的图像特征中,2个重要性质是不变性和等变性。目标跟踪中,目标分类需要不变特征,任务目标是学习语义信息;目标定位需要等变特征,任务目标是确定位置和目标尺度变化。对跟踪器来说,同时学习不变性和等变性至关重要。随着卷积神经网络(convolutional neural network,CNN)的加深,物体会逐渐丢失部分和整体的关系,因此,深层网络得到的主要是语义特征(不变性特征),浅层网络得到的主要是空间特征(等变性特征)。研究者将特征融合应用在目标跟踪领域,通过特征融合充分利用CNN的深浅层特征。
目标跟踪领域中,SiamRPN++[4]将ResNet50中的3层网络特征进行层间聚合,利用深浅层特征的融合来提高跟踪器性能。SiamCAR利用后3层的特征,按1∶1∶1的通道数比例进行特征拼接,从而得到融合特征。蒲磊等[9]提出基于高层语义嵌入的孪生网络跟踪算法,有效融合了深层特征和浅层特征,达到了优化浅层特征的目的。以上算法均简单利用了深浅层特征的融合,忽略了分类与回归的不同任务属性。分类与回归对融合特征所涵盖的空间特征与语义特征的要求不同,因此,本文通过调整输入分类与回归分支的融合特征来优化网络结构。
特征融合的方法分为早融合与晚融合。使用早融合的有FCN[10]、Inside-Outside Net[11]、HyperNet[12]等,使用晚融合的有FPN[13]、DenseNet[14]等。早融合中的基本融合方法有逐点相加和拼接[15],晚融合中包含各种复杂的特征融合方式。逐点相加属于拼接的特殊形式,其他特殊融合方式相较于拼接更为复杂。为在结构简单的情况下验证本文算法的有效性,选取拼接的特征融合方式。
随着质量评估分支在检测器中不断取得良好的增益效果,跟踪器的研究者也开始从中借鉴经验,来提高目标跟踪的定位精度,同时减弱分类分支与回归分支在训练和推理阶段的弱相关性产生的消极影响。FCOS[16]中,检测器通过添加额外的质量评估分支(IoU分支[17]、中心度分支)显著提升了检测精度。SiamCAR选择中心度分支作为质量评估分支,以提高跟踪器的定位精度。Li等[18]提出了分类与IoU联合训练的分类分支,与IoU分支和中心度分支进行比较,验证得到分类与IoU联合训练分支更具有优越性,并根据分支特点,设计了广义焦点损失(generalized focal loss, GFL)函数(含质量焦点损失(quality focal loss, QFL)函数和分布焦点损失(distribution focal loss, DFL)函数)。本文将用于目标检测的分类与IoU联合训练的分类分支进行微调后,迁移到目标跟踪框架中,进一步提高目标跟踪的性能。
本文的主要贡献如下:
1) 提出了一种新的特征融合方法,该方法根据分类与回归的特性,对不同特征层的通道进行调整,利用深度互相关和特征拼接的方式进行特征融合,更充分地利用了深浅层特征所涵盖的空间特征与语义特征。
2) 将目标检测领域中提出的分类与IoU联合训练的分类分支迁移到目标跟踪领域,进一步提升了目标跟踪的性能。
3) 提出了一个基于深浅层特征融合的无锚框全卷积孪生网络框架,该框架相对简单且有较高的性能,同时有较好的跟踪实时性。
因为本文工作基于CNN,所以主要介绍CNN方面的相关工作。
跟踪器的研究人员致力于从不同方面提高跟踪精度与实时速度,如特征提取[19]、模板更新[20]、分类器设计[21]、边界框回归[22]等。其中,模板更新提高了跟踪器精度,但严重破坏了跟踪实时性。实际应用中,模板更新不能真正实现实时更新,因此,本文工作中未引入模板更新的方法。
得益于深度学习的发展,深度卷积特征被广泛应用。研究表明,基于孪生网络的在线训练与离线跟踪方法实现了准确度和实时性之间的平衡。作为相关工作,SiamFC首次使用一种全卷积孪生网络架构,利用孪生网络学习目标对象与候选图像之间的相似度,将跟踪问题视为在完整图像上搜索目标的问题。DSiam[23]提出了一个动态孪生网络,在损害速度的情况下,实现了较好的跟踪准确度。SA-Siam[24]建立了一个双支路孪生网络,包括外观分支与语义分支2个分支,分别训练,用来保证特征的异质性,从而得到较高的跟踪准确度。为解决尺度变化问题,这些孪生网络都采用了多尺度搜索,并且导致了耗时的问题,破坏了实时性。
受目标检测中的区域候选网络[25]所启发,SiamRPN在孪生网络输出结果上进行候选区域提取,为候选区域联合训练一个分类分支与回归分支。SiamRPN++使用ResNet50作为骨干网络来优化网络架构,在进行模型训练时,在搜索区域上随机移动训练目标的位置来消除中心偏置的消极影响。
为了提取候选区域,锚框被引入到基于区域候选网络的跟踪器中。锚框不仅充分利用了深度特征,也避免了重复计算,可以加快跟踪进程。但跟踪器对锚框的相关超参数非常敏感,需要仔细地调参和丰富的经验来获得理想性能。此外,锚框的尺寸和比例是固定的,还有启发式调参,相关跟踪器在大的形状改变和姿态变化下会遇到跟踪困难。为解决锚框问题,一系列无锚框的跟踪器框架被提出,如ECO[26]、SiamCAR、Ocean等。这些无锚框跟踪器在避免上述问题的情况下,以更简单的结构和更快的速度逐渐实现了比锚框跟踪器更好的性能。
随着CNN的不断发展,逐渐产生了很多深层CNN结构,如ResNet、GoogleNet[27]、VGG[28]、Inception[29]、MobileNetV2[30]等。网络越深,不同层之间的特征差异越大。不同特征层所含的空间特征与语义特征区别较大,多层特征的融合变得有意义。深浅层特征的融合结合空间特征与语义特征的优点,因此,衍生了大量基于特征融合的网络架构,如FCN、Inside-outside net、FPN、DenseNet、SiamRPN、SiamCAR等。本文根据分类分支与回归分支的特性,在调整通道数比例的基础上,采用拼接的方法进行深浅层特征层融合。
为提高定位精度,NMS[31]、IoU-Net[32]、MSR-CNN[33]、FCOS、IoU-aware[17]等利用IoU分支或中心度分支作为单独分支来进行定位质量估计。这种额外的分支引入会导致训练和测试之间的不平衡,产生不可靠的定位质量估计。PISA[34]和IoU-balance[35]等基于定位质量估计,给予分类损失不同的权重,然而权重策略是隐性和有限的,并未改变目标的分类损失最优值。为解决定位质量估计的问题,Li等[18]提出了分类与IoU联合训练的分类分支,与IoU分支、中心度分支及IoU权重、中心度权重进行比较,验证得到分类与IoU联合训练的分类分支更具有优越性,同时设计了分类分支对应的QFL函数。Li等[18]优化了回归分支的损失函数,针对回归分支提出了DFL函数,同时结合IoU损失函数,将分类分支与回归分支对应的损失函数相结合,得到GFL函数。本文引入了分类与IoU联合训练的分类分支,同时采用GFL函数来消除削弱训练阶段和推断阶段不平衡所导致的消极影响,提高跟踪准确度和实时性。
本文将跟踪任务分为分类与回归2个子问题,以逐像素的无锚框方式解决问题。如图1所示,框架由3部分组成:特征提取子网络、特征融合模块、分类-回归子网络。特征提取子网络包括模板分支和搜索分支,使用修改后的ResNet50作为骨干网络来提取特征,分别对模板图像和搜索图像进行卷积,得到对应特征层。通过1×1卷积和深度互相关操作得到不同通道数的特征层,将所得用于分类和回归的第5个和第6个融合特征层,输入后续的特征融合模块。特征融合模块采用特征拼接的方式进行特征融合,分别得到用于分类分支与回归分支的2个融合特征层,分别输入后一模块的分类分支与回归分支。分类-回归子网络由分类与IoU联合训练的分类分支和回归分支组成。
利用修改后的ResNet50构建特征提取子网络。子网络包括2个分支:模板分支将模板图像Z作为输入,搜索分支将搜索图像X作为输入。2个分支共享同一CNN作为骨干网络,输出特征图φ(z)和φ(x)。将φ(z)作为φ(x)的卷积核来执行互相关操作,以此融合2个分支的信息,得到响应图R。在后续的子网络中,通过解码响应图R来获得目标的定位信息和尺度信息,响应图R应包含丰富的信息内容。
传统互相关操作只能形成单通道的压缩响应图,缺乏有用特征和重要信息,受SiamRPN++所启发,本文使用深度互相关操作来生成多通道响应图:
R=φ(x)⋆φ(z) |
(1) |
式中:“⋆”表示深度互相关操作,属于一种变型的轻量化互相关操作。
生成的响应图R与φ(x)、φ(z)有相同的通道数,包含大量的空间信息与语义信息,深度互相关操作如图2所示。
浅层网络生成的浅层特征包含边缘、棱角、颜色、形状等信息,富含空间信息,更适合目标定位,但因经过的卷积少,所以语义性低,噪声多。深层网络提取的特征距离输出较近,含有更多抽象信息,即语义信息,更擅长目标分类,但因其分辨率低,细节感知差,缺乏空间感知力。随着深层CNN的出现与应用,本文可通过深浅层特征融合优化特征图,获得更好的跟踪准确度。
目标跟踪领域中,多框架利用深浅层特征融合,但用于分类和回归分支的融合特征相同,没有根据任务要求来细化区分融合特征。分类分支需要更多语义信息,回归分支需要更多空间信息,因此,本文不再使用相同的融合特征用于分类和回归分支。根据分类与回归分支的特点,分别生成适合分类分支与回归分支的不同融合特征。
本文选用修改后ResNet50的后3个残差块的最后一层特征图来进行深浅层特征融合,将其记为F3、F4、F5,模板分支对应F3(z)、F4(z)、F5(z),搜索分支对应F3(x)、F4(x)、F5(x)。分类分支需要更多语义特征,回归分支需要更多空间特征。用于分类分支的3个特征图,其通道数比例由少到多。用于回归分支的3个特征图,其通道数比例由多到少。本文使用1×1卷积来调整F3(z)、F4(z)、F5(z)与F3(x)、F4(x)、F5(x)的通道数,得到用于分类分支的F3(z)cls、F4(z)cls、F5(z)cls及F3(x)cls、F4(x)cls、F5(x)cls ,同时得到用于回归分支的F3(z)reg、F4(z)reg、F5(z)reg及F3(x)reg、F4(x)reg、F5(x)reg。
深浅层特征图通道数比例调参过程中,本文选取1∶2∶4(分类)与4∶2∶1(回归),1∶3∶9(分类)与9∶3∶1(回归),1∶1∶2(分类)与2∶1∶1(回归)这3组参数与1∶1∶1(分类、回归)的特征融合方式进行比较。根据跟踪效果,最终选取1∶2∶4(分类)与4∶2∶1(回归)作为通道数比例参数。将模板分支对应的F3(z)cls、F4(z)cls、F5(z)cls、F3(z)reg、F4(z)reg、F5(z)reg与回归分支对应的F3(x)cls、F4(x)cls、F5(x)cls、F3(x)reg、F4(x)reg、F5(x)reg进行深度互相关,得到F3_cls、F3_reg、F4_cls、F4_reg、F5_cls、F5_reg这6个特征图。具体的函数表达式如式(2)~式(7)所示:
F3−cls=F3(x)cls⋆F3(z)cls |
(2) |
F4_cls=F4(x)cls⋆F4(z)cls |
(3) |
F5_cls=F5(x)cls⋆F5(z)cls |
(4) |
F3_reg=F3(x)reg⋆F3(z)reg |
(5) |
F4_reg=F4(x)reg⋆F4(z)reg |
(6) |
F5_reg=F5(x)reg⋆F5(z)reg |
(7) |
式中:F3_cls、F4_cls、F5_cls、F3_reg、F4_reg、F5_reg为框架特征提取子网络得到的6个用于后续特征融合的特征图。
特征融合模块将所得的分类分支对应的3个特征图F3_cls、F4_cls、F5_cls和回归分支对应的3个特征图F3_reg、F4_reg、F5_reg 进行融合。本文使用特征拼接的方式将特征图三三融合,分别得到用于分类分支和回归分支的融合特征图Fcls与Freg。
分类-回归子网络包括分类与IoU联合训练的分类分支和回归分支,共同作用完成目标边界框的位置预测,进行目标跟踪。
每个在融合特征图Fcls与Freg上的位置点(i,j)都可以映射回输入的搜索区域上,标记为(x,y)。基于区域候选网络的跟踪器将搜索区域上的对应位置当做多尺度锚框的中心,将这些锚框作为回归目标边界框的参考依据。本文算法采用无锚框方法,在每个位置精准地分类与回归目标边界框。通过全卷积操作,以端到端的方式进行相关训练,避免调参过程,减少人类干预。
跟踪任务被分为2个子任务:预测每个位置类别的分类任务和计算目标边界框的回归任务。将特征融合所得的Fcls输入分类分支,得到用于目标分类的分类特征图Aclsw×h×2,其中,w和h分别为图像的高度和宽度。将特征融合所得的Freg输入分类分支,得到用于目标定位的回归特征图Aregw×h×4。Aclsw×h×2上的每个点(i,j)都包括一个二维向量,代表搜索图像区域上对应位置的前景与后景的分数。类似地,Aregw×h×4上的每个点(i,j)都包括一个四维向量(l, t, r, b),代表搜索图像区域上对应位置到边界框4个边的距离。
为提高目标的定位精度,本文引入了质量评估部分。NMS、IoU-Net、MSR-CNN、FCOS、IoU-aware等为了提高定位精度,利用IoU分支或中心度分支作为单独分支来进行定位质量估计,这种额外的分支引入会导致训练和测试之间的不平衡,产生不可靠的定位质量估计。PISA、IoU-balance等基于定位质量估计,给予分类损失不同的权重,然而权重策略是隐性和有限的,并未改变目标的分类损失最优值。
为解决上述定位质量估计的问题,Li等[18]提出了分类与IoU联合训练的分类分支,与多种分支方法进行比较,验证得到分类与IoU联合训练的分类分支更具优越性,同时设计了分类分支对应的QFL函数。受QFL函数启发,本文选择分类与IoU联合训练的分类分支代替原分类分支。周丽芳等[36]将QFL函数应用在其提出的IoU质量评估分支上,并验证了可行性。
Li等[18]在引入分类与IoU联合训练分支和与之对应的QFL函数的同时,也优化了回归分支的损失函数。针对回归分支提出了DFL函数,同时结合IoU损失函数IoUloss来训练回归分支。DFL函数可以在任意灵活的分布情况下,使网络快速聚焦学习目标边界框连续性分布的概率值,从而更好地模拟目标边界框灵活的实际分布,提供更加准确的边界框位置。Li等[18]将分类分支与回归分支对应的损失函数(QFL、DFL、IoUloss)相结合,得到分支结构的GFL函数。本文受Li等[18]提出的DFL函数所启发,引入DFL函数来训练回归分支。
在本文提出的框架基础上,将中心度分支、IoU分支、中心度权重、IoU权重的质量评估方法和分类与IoU联合训练的方法进行性能对比,进一步确定分类与IoU联合训练方法的优越性。
1) 分类分支损失函数。本文采用Li等[18]提出的QFL函数来训练分类分支,具体的函数表达式如下:
QFL(σ)=−|y−σ|β[(1−y)ln(1−σ)+ylnσ] |
(8) |
式中: y为质量评估分支标签;σ为质量评估分支预测结果;β为控制比例常数。
2) 回归分支损失函数。回归分支所用的损失函数一般为IoU损失函数,受到Li等[18]所提GFL函数的启发,本文引入DFL函数来优化IoU损失函数。
遵循Tian 等[16]所提方法,将对应位置到边界框4条边的偏置距离作为回归目标。传统的边界框回归模型将回归标签作为狄拉克分布δ(x−y),其满足∫+∞−∞δ(x−y)xdx=1,恢复y的积分形式如下:
y=∫+∞−∞δ(x−y)xdx |
(9) |
根据分析,Li等[18]直接学习没有引入任何其他先验条件的、基本的一般分布P(x),来替代狄拉克分布[37]和高斯分布[38]。给定标签y的范围,最小值为y0,最大值为yn (y0≤y≤yn, n∈N+),可以从模型中得到估计值y*(y*也满足y0≤y*≤yn):
y∗=∫+∞−∞P(x)xdx=∫yny0P(x)xdx |
(10) |
为与CNN相对应,引入间隔Δ,将连续的区域分为散点表征,用间隔Δ将范围(y0,yn)转换成集合{y0,y1,⋯,yn−1,yn},Δ=yi+1−yi,∀i∈[0,n−1]。离散分布的性质n∑i=0P(yi)=1,则估计回归值y*可以表示为
y∗=n∑i=0P(yi)yi |
(11) |
因为边界框的学习仅适用于正样本,无类不平衡的危险,所以,Li等[18]简单地将QFL函数中完整的交叉熵部分应用到DFL函数的定义中:
DFL(Si,Si+1)=−(yi+1−y)lnSi+(y−yi)ln(Si+1) |
(12) |
式中:Si=yi+1−yyi+1−yi,Si+1=y−yiyi+1−yi,且有关系y=n∑i=0P(yi)yi=Siyi+Si+1yi+1=yi+1−yyi+1−yiyi+y−yiyi+1−yiyi+1=y。
回归分支中采用的IoU损失函数表达式为
IIoUloss=−ln(Intersection(A,B)Union(A,B)) |
(13) |
式中:Intersection(A,B) 为预测框A与目标真实框B的交集;Union(A,B) 为预测框A与目标真实框B的并集。
分支结构的总损失函数为QFL函数、DFL函数、IoU损失函数的权重和:
L=1Npos∑ZLQ+1Npos∑Z1{c∗z>0}(λ0LB+λ1LD) |
(14) |
式中:LQ对应QFL函数;LD对应DFL函数;LB对应IoU损失函数;Npos为正样本的数量;λ0取为2,λ1取为1/4,λ0和λ1分别为用来平衡LB和LD的权重;1{c∗z>0}为指示函数,如果c∗z>0,则为1,否则为0。
在训练过程中,通过上述总损失函数来优化对应网络框架的参数,得到高性能的跟踪器。
本文实验使用Ubuntu 20.04系统,CPU型号为i7-10700,GPU为2张RTX2080Ti,深度学习框架为Pytorch1.12.1,Python版本为3.9。
本文将修改后的ResNet50网络在ImageNet数据集上进行预训练,将预训练后的ResNet50在ImageNetVID、ImageNetDET、COCO、GOT-10k上进行30个Epoch的迭代训练。将批量大小设置为32,模板图像大小设置为127×127,搜索图像大小设置为255×255。选用随机梯度下降的方法来优化模型,初始学习率设置为0.001。前10轮,在训练分类分支与回归分支时,特征提取子网络的参数被冻结。10轮之后,解冻ResNet-50的后3个残差块加入训练。整个训练过程约为68 h。为公平起见,在GOT-10k、LaSOT数据集上所进行的测试,使用官方网站提供的训练集来单独训练本文的网络框架。
在测试期间,本文使用离线跟踪策略,仅提供模板分支上初始帧的目标位置。在整个跟踪过程中,特征提取子网络的模板分支被预先计算且固定。当前帧的搜索图像被当做搜索分支的输入。将训练得到的网络框架在OTB-100[39]、UAV123、GOT-10k[40]、LaSOT[41]4个数据集上进行测试。本文算法在4个数据集上进行测试时的运行速率大约为75帧/s,实时运行速率良好。
OTB-100数据集是目标跟踪领域中比较经典的测试集,本文使用精度和成功率这2个评价指标来测试本文框架。OTB-100数据集包含11个属性:光照变化、遮挡、运动模糊、平面内旋转、平面外旋转、低像素、背景干扰、出视野、尺度变化、形变、快速运动。
本文算法与CGACD[42]、DaSiamRPN[43]、Ocean[8]、SiamCAR[7]、SiamFC[2]、SiamFC++[44]、SiamRPN++[4]、SiamDW[45]、SiamBAN[46]等9个先进的跟踪器做了对比。如图3所示,本文框架的成功率得分为0.708,排名第2,精度为0.921,排名第2,成功率与精度均比SiamCAR高,证明了本文算法的有效性。排名靠前的性能也体现了本文框架的优越性。
GOT-10k数据集是大型目标跟踪数据集,覆盖560类常见移动目标,包含10 000多个视频序列。由于训练过程都由官方提供的数据集进行,保证了测试的公平性。数据集提供的评价指标包括平均重叠率和成功率。平均重叠率表示估计边界框和真实框之间的平均重叠率,SR0.5表示重叠率超过0.5的成功跟踪帧的比例。
本文在GOT-10k数据集上进行测试,与ECO[26]、SiamFC[2]、DSiam[23]、SPM[47]、SiamRPN++[4]、ATOM[22]、SiamCAR[7]、Ocean[8]、DiMP[48]等9个跟踪器的结果进行比较。如表1所示,本文算法在平均重叠率、SR0.5上的分数表现很好,使用中心度分支的本文算法(Ourscenterness)与SiamCAR只有深浅层特征融合方式不同,却比SiamCAR分别提高了0.015与0.021,证明了本文特征融合方式的有效性,优于传统的深浅层特征融合方式。本文算法作为完整的跟踪算法,精度和成功率的性能相比Ourscenterness提高了1%,证明了分类与IoU联合训练分支替换分类分支与中心度分支的有效性,也表明了本文算法可以兼容其他可提高框架性能的模块。本文算法在表1的跟踪器性能中,平均重叠率排名第2,SR0.5排名第2,实现了优秀的跟踪性能。因为在GOT-10k数据集上,跟踪器使用相同的训练集和测试集,所以,跟踪结果比在其他基准上的结果更具说服力。
跟踪器 | 平均重叠率 | SR0.5 |
ECO | 0.299 | 0.303 |
SiamFC | 0.325 | 0.328 |
DSiam | 0.417 | 0.461 |
SPM | 0.513 | 0.593 |
SiamRPN++ | 0.517 | 0.616 |
ATOM | 0.556 | 0.634 |
SiamCAR | 0.569 | 0.670 |
Ocean | 0.592 | 0.695 |
DiMP | 0.611 | 0.712 |
Ourscenterness | 0.584 | 0.691 |
本文算法 | 0.593 | 0.698 |
LaSOT数据集是一个用于单目标跟踪的数据集,数据集包括352万以上的注释帧和1 400以上的视频序列,其包含70个类别,每个类别包括20个跟踪序列。如此庞大的测试集对于跟踪算法是一个巨大挑战。评估指标采用归一化精确度、精确度、一次性评估成功率。
将测试结果与ECO[26]、SiamFC[2]、SiamRPN++[4]、SiamCAR[7]、ATOM[22]、DiMP-18、DiMP-50、Ocean[8]这8个跟踪器进行比较。结果如表2所示,Ourscenternes与SiamCAR相比,一次性评估成功率和精确度分别提高了0.025和0.032,进一步论证了本文特征融合方式的有效性,优于传统的深浅层特征融合方式。本文算法作为完整的跟踪框架,一次性评估成功率和精确度分别比Ourscenterness进一步提高了0.012和0.011,证明了本文算法框架的兼容性,可以方便地修改添加框架结构。本文算法在表2中的跟踪器中排名靠前,均排名第3,表明了本文算法框架对于视觉跟踪有很好的泛化性。
跟踪器 | 一次性评估成功率 | 精确度 |
ECO | 0.324 | 0.301 |
SiamFC | 0.336 | 0.339 |
SiamRPN++ | 0.496 | 0.491 |
SiamCAR | 0.507 | 0.510 |
ATOM | 0.514 | 0.505 |
DiMP-18 | 0.537 | 0.541 |
DiMP-50 | 0.558 | 0.564 |
Ocean | 0.555 | 0.566 |
Ourscenterness | 0.532 | 0.542 |
本文算法 | 0.544 | 0.553 |
UAV123数据集是从低航空视角捕获的视频数据,其包括123个视频序列,有超过11万帧的图片,适合于无人机任务类型的数据测试。数据集中主要面对的挑战有快速移动、大尺度变化、大光照变化、遮挡等,有较强的挑战性。评估指标为一次性评估的精确度和成功率。
将本文框架在UAV123数据集上进行测试,并与SiamAttn[49]、SiamCAR[7]、CGACD[42]、SiamRPN++[4]、SiamBAN[46]、SiamTPN[50]、SiamRPN[3]、SiamDW[45]这8个跟踪器进行比较。如图4所示,基于中心度分支的本文算法框架(Ourcenterness),比SiamCAR的指标分数分别高了0.006和0.019,表明了本文提出的特征融合方法的有效性和优越性。用分类与IoU联合训练的分类分支替代分类分支与中心度分支后,本文算法的指标分数分别提高了0.9%和1%,证明了分类与IoU联合训练分支对于本文框架的有效性,表明本文框架结构的兼容性,可以通过加入其他模块来进一步提升算法性能。
本文以UAV123数据集为基础进行了消融实验。①第1个消融实验。通过改变特征融合时的3个特征图通道比例数来选取一组合适的参数。本文共选取了3组参数:1∶2∶4(分类)、4∶2∶1(回归); 1∶3∶9(分类)、9∶3∶1(回归); 1∶1∶2(分类)、2∶1∶1(回归)。如表3所示,第1组参数所得结果优于其他组参数,所以本文选择第1组参数来作为特征融合时的通道比例。②第2个消融实验。以本文框架为基础,分别修改分类-回归子网络的分支结构,判断哪种分支结构更加适合本框架。本文共有5组结构:①分类分支、回归分支、中心度分支;②分类分支、回归分支、IoU分支;③分类分支、回归分支、中心度权重;④分类分支、回归分支、IoU权重;⑤分类与IoU联合训练的分支、回归分支。根据表4结果可知, Li等[18]提出的分类与IoU联合训练的分类分支更适合于本框架结构。因此,本文框架的分支结构依据第5组结构进行设计。
通道比例 | 一次性评估成功率 | 一次性评估精确度 |
1∶2∶4(分类),4∶2∶1(回归) | 0.640 | 0.835 |
1∶3∶9(分类),9∶3∶1(回归) | 0.617 | 0.819 |
1∶1∶2(分类),2∶1∶1(回归) | 0.629 | 0.824 |
分支结构 | 一次性评估 成功率 |
一次性评估 精确度 |
分类分支、回归分支、中心度分支 | 0.621 | 0.823 |
分类分支、回归分支、IoU分支 | 0.633 | 0.830 |
分类分支、回归分支、中心度权重 | 0.612 | 0.813 |
分类分支、回归分支、IoU权重 | 0.616 | 0.819 |
分类与IoU联合训练分支、回归分支 | 0.640 | 0.835 |
根据LaSOT、GOT-10k、UAV123数据集上的各自性能指标,对本文算法进行综合性分析。将含中心度分支的框架与SiamCAR的数据指标进行相比,发现性能均有所提升,综合证明了本文的深浅层特征融合方式优于目标跟踪领域中传统直接的深浅层特征融合方式。使用分类与IoU联合训练分支的本文最终框架与含中心度分支的本文框架相比,性能指标均得到了进一步提升,证明了Li等[18]提出的分类与IoU联合训练分支对于本文算法框架的有效性和本文框架对于其他模块的兼容性。
本文选择SiamCAR作为对比模板进行了性能验证,但该方法不仅限于SiamCAR,其还具有良好的迁移性和普适性,也可以用于其他目标跟踪算法。可以置换其他算法的深浅层特征融合部分,在不牺牲跟踪速度的情况下提升相应跟踪算法的性能;也可以在不使用深浅层特征融合方法的目标跟踪算法框架中引入该融合方法,在牺牲一定跟踪速度的情况下来进一步提升跟踪性能。
实验结果中,性能优于本文算法的都有着更低的实时跟踪速度,且架构更加复杂,引入其他模块的难度更高。跟踪领域会不断出现优化各类算法性能且可迁移的模块方法,但较复杂的算法框架很难兼容这些模块。而本文算法架构相对简单,性能较高且跟踪速率高,有较大的性能提升空间容量,可以作为基础框架来加入其他复杂模块,在保证实时跟踪速率的情况下来继续提升性能。本文算法在相对简单的框架结构下,实现了良好的跟踪性能和跟踪速率,可通过引入特征合并模块、注意力模块等来进一步提升跟踪性能。
为对比本文算法与其他算法的性能差异,选择OTB-100数据集的测试结果进行定性分析。测试结果如图5所示,4个视频序列包括形变、遮挡、快速移动、相似物干扰、尺度变化、平面外旋转、运动模糊、分辨率低等挑战。对此算法为SRDCF[51]、SiamRPN[3]、SiamRPN++[4]、SiamDW[45]、Ocean[8]、SiamCAR[7]算法。
在Basketball测试序列中,存在相似物干扰、遮挡等挑战,在发生相似物干扰的情况之后,可以在第500帧中发现,大部分算法跟丢,只有SiamDW、SRDCF及本文算法还在继续跟踪目标。在Bird1测试序列中,由第212帧可知,在经过遮挡之后,只有Siam DW、SRDCF及本文算法在继续跟踪目标,从第283帧中可知,SRDCF也跟丢目标,SiamDW将要跟丢目标,经过一系列形变和快速移动之后,只有本文算法还在继续跟踪目标。在BlurCar1测试序列中,面对运动模糊和分辨率低的挑战,包括本文算法在内的孪生系列算法都成功跟踪目标,只有非孪生系列的SRDCF算法跟丢目标,说明了孪生系列算法面对此类挑战的优越性。在Biker测试序列中,面对姿态变化、尺度变化、平面外旋转、快速移动等挑战,SRDCF、Ocean、SiamRPN都跟丢过目标,通过系列帧图像可知,成功跟踪的算法中,SiamDW和本文算法的效果最好,但是SiamDW算法利用了掩码,实时帧率不高。
本文提出了一种基于深浅层特征融合的全卷积孪生网络目标跟踪算法。
1) 通过1×1卷积微调通道数,同时采用深度互相关和特征拼接的方法,结合分类分支与回归分支的特性,得到一种新的特征融合方法,并验证了方法的有效性,该方法可以迁移到其他跟踪算法框架中。
2) 本文的分类分支引入了分类与IoU联合训练的方式,削弱了分类分支与回归分支的低相关性所造成的影响。
3) 本文算法以75帧/s的帧率,在OTB-100、GOT-10k、LaSOT、UAV123这4个数据集上取得了较为先进的性能,证明了本文算法的有效性、实时性和泛化性。本框架较为简单,可以加入其他模块来进一步提升跟踪性能。
[1] Hawai IBM Haifa Research Laboratory. Model driven testing tools .AGEDIS 1999-20218.Release 4.0.0, 2003[2] Yoonsik Cheon,Gary T Leavens. A simple and practical approach to unit testing:the JML and JUnitway Boris Magnusson. ECOOP 2002 Object-Oriented Programming, 16th European Conference. Spain:Springer-Verlag,2002:231-255[3] Andrew Patterson,Michael Kolling,John Rosenberg.Introducing unit testing with blueJ Proceedings of the 8th Annual Conference on Innovation and Technology in Computer Science Education.Thessaloniki:ITiCSE,2003:11-15[4] 余波,王树林,张大方.基于JUnit自动生成类测试案例框架的实现[J].计算机工程与应用,2006(1):89-91 Yu Bo, Wang Shulin, Zhang Dafang. The implementation of class test case framework automatically generated based on JUnit[J].Journal of the Computer Engineering and Application, 2006(1):89-91 (in Chinese)[5] Aidan Delaney,Thomas J, Naughton. Emulation of an unconventional model of computation in Java Proceedings of the Inaugural Conference on the Principles and Practice of Programming. Ireland: ACM International Conference Proceeding, 2002:1-6[6] 谢煜涛, 左雪梅.用JFCunit对GUI 图形界面进行单元测试[J].中国测试技术,2005,31(3):78-80 Xie Yutao,Zuo Xuemei.How to use JFCunit to unit test[J]. Journal of China Measurement Technology,2005, 31(3):78-80(in Chinese)[7] 罗婧婷,赵轶群,郑小军.开放源Web 应用开发中的一种测试解决方案[J].计算机与现代化,2005(1):25-28 Luo Jingting,Zhao Yiqun,Zheng Xiaojun. Test solution for open2source web application development[J]. Computer and Modernization, 2005(1):25-28(in Chinese)[8] 何成万,余秋惠.用JUnit实现Java程序的自动测试[J].计算机应用, 2002, 22(3):93-94 He Chengwan, Yu Qiuhui. Automatically Java program testing by JUnit[J]. Journal of Computer Applications, 2002, 22(3):93-94(in Chinese)[9] Huang Chenghui, Chen Huoyan.A semi-automatic generator for unit testing code files based on JUnit IEEE International Conference on Systems, Man and Cybernetics. Hawaii:IEEE,2005:140-145[10] Lin Yuehua, Zhang Jing, Gray Jeff. Model comparison:a key challenge for transformation testing and version control in model driven software development . Vancouver:Addison Wesley Press, 2004.
|
[1] | LI Kunkun, LI Kebo, CAO Rui, LIU Yuanhe, HU Shuang. Extended low-altitude aircraft tracking via navigation-assisted radar measurement augmentations[J]. Journal of Beijing University of Aeronautics and Astronautics. doi: 10.13700/j.bh.1001-5965.2025.0267 |
[2] | WENG Xuehui, WANG Xiaofeng, YING Peng, LIU Zhongan, ZHOU Fang, QUAN Daying. Multi-level radar signal open-set recognition based on SVM and K-means[J]. Journal of Beijing University of Aeronautics and Astronautics. doi: 10.13700/j.bh.1001-5965.2024.0369 |
[3] | QI C,XIE J W,FEI T Y,et al. Research on target detection performance of PA-MIMO radar based on channel reciprocity[J]. Journal of Beijing University of Aeronautics and Astronautics,2025,51(1):214-221 (in Chinese). doi: 10.13700/j.bh.1001-5965.2022.1014. |
[4] | JI L B,ZHU Y,CUI T S,et al. LPI radar signal recognition based on time-frequency reassignment algorithm[J]. Journal of Beijing University of Aeronautics and Astronautics,2025,51(4):1324-1331 (in Chinese). doi: 10.13700/j.bh.1001-5965.2023.0218. |
[5] | LI S T,JIN X P,SUN J,et al. LPI radar signal recognition based on high-order time-frequency spectrum features[J]. Journal of Beijing University of Aeronautics and Astronautics,2025,51(1):314-320 (in Chinese). doi: 10.13700/j.bh.1001-5965.2022.0993. |
[6] | HOU J H,HE K F,GAO F,et al. Shore-based BDS-R sea surface altimetry and weighting method of its observed values[J]. Journal of Beijing University of Aeronautics and Astronautics,2024,50(3):1015-1026 (in Chinese). doi: 10.13700/j.bh.1001-5965.2022.0360. |
[7] | SONG Yuan, HUANG Zhi-gang, LI Rui, WANG Yue-chen, SHEN Jun, WANG Yong-chao, NIE Xin. An RTK integrity evaluation method based on risk probability decomposition[J]. Journal of Beijing University of Aeronautics and Astronautics. doi: 10.13700/j.bh.1001-5965.2024-0134 |
[8] | YANG B,LIU C F,YU H,et al. A method for analyzing angle measurement error of radar on hypersonic vehicle[J]. Journal of Beijing University of Aeronautics and Astronautics,2024,50(12):3666-3676 (in Chinese). doi: 10.13700/j.bh.1001-5965.2022.0879. |
[9] | GENG Xueyin, WANG Jun, YANG Bin, SUN Jinping. Space-Time Spectral Entropy based Synchronization Error Estimation for Distributed Array Radar[J]. Journal of Beijing University of Aeronautics and Astronautics. doi: 10.13700/j.bh.1001-5965.2024.0177 |
[10] | LIU W,LIU C Y,GUO X K,et al. Deployment optimization method for missile early warning radar under complex and multi-directional missile threats[J]. Journal of Beijing University of Aeronautics and Astronautics,2024,50(4):1392-1404 (in Chinese). doi: 10.13700/j.bh.1001-5965.2022.0486. |
[11] | XING H X,XING Q H. An optimal scheduling model for scintillation detection of netted radars[J]. Journal of Beijing University of Aeronautics and Astronautics,2024,50(12):3884-3893 (in Chinese). doi: 10.13700/j.bh.1001-5965.2022.0924. |
[12] | WANG Ruizheng, LI Shiqiang. Radar coherent integration method for high-speed maneuvering targets based on sequence reversal[J]. Journal of Beijing University of Aeronautics and Astronautics. doi: 10.13700/j.bh.1001-5965.2024.0268 |
[13] | WANG Xiaoliang, WANG Congsheng, SHI Yuxiang, HE Weikun. The Classification Method of Multirotor Drones and Flying Birds under Low Signal-to-Noise Ratio for Radar[J]. Journal of Beijing University of Aeronautics and Astronautics. doi: 10.13700/j.bh.1001-5965.2024.0585 |
[14] | WANG J D,WANG X,TIAN Y R,et al. Threat assessment of radar radiation sources based on behavioral characteristics[J]. Journal of Beijing University of Aeronautics and Astronautics,2024,50(10):3196-3207 (in Chinese). doi: 10.13700/j.bh.1001-5965.2022.0848. |
[15] | ZHU Qi-tao, LI Hong-shuang. A mixed reliability analysis method based on direct probability integral[J]. Journal of Beijing University of Aeronautics and Astronautics. doi: 10.13700/j.bh.1001-5965.2023.0498 |
[16] | ZHOU B L,LI R F,ZENG L,et al. A sparse estimation method for radar target direction with sliding-window subarray configuration in mainlobe jamming[J]. Journal of Beijing University of Aeronautics and Astronautics,2023,49(7):1623-1629 (in Chinese). doi: 10.13700/j.bh.1001-5965.2021.0552. |
[17] | SONG L P,CHEN D F,TIAN T,et al. A real-time correlation algorithm for GEO targets based on radar ranging and velocity measurement[J]. Journal of Beijing University of Aeronautics and Astronautics,2023,49(8):2167-2175 (in Chinese). doi: 10.13700/j.bh.1001-5965.2021.0615. |
[18] | QI Jiayi, LI Qiao, XIONG Huagang, YAN Ruowen. Airborne PLC channel modeling by transfer function and its probabilistic guarantee analysis[J]. Journal of Beijing University of Aeronautics and Astronautics, 2022, 48(12): 2548-2555. doi: 10.13700/j.bh.1001-5965.2021.0153 |
[19] | Zhu Weigang, Zhou Yinqing, Xu Huaping, Li Chunsheng. Remote sensing image fusion assessment based on SVD[J]. Journal of Beijing University of Aeronautics and Astronautics, 2008, 34(12): 1448-1451. |
[20] | Li Jianli, Fang Jiancheng, Sheng Wei. Error analysis and integrated compensation of scale factor for MEMS gyroscope[J]. Journal of Beijing University of Aeronautics and Astronautics, 2007, 33(09): 1064-1067. |
跟踪器 | 平均重叠率 | SR0.5 |
ECO | 0.299 | 0.303 |
SiamFC | 0.325 | 0.328 |
DSiam | 0.417 | 0.461 |
SPM | 0.513 | 0.593 |
SiamRPN++ | 0.517 | 0.616 |
ATOM | 0.556 | 0.634 |
SiamCAR | 0.569 | 0.670 |
Ocean | 0.592 | 0.695 |
DiMP | 0.611 | 0.712 |
Ourscenterness | 0.584 | 0.691 |
本文算法 | 0.593 | 0.698 |
跟踪器 | 一次性评估成功率 | 精确度 |
ECO | 0.324 | 0.301 |
SiamFC | 0.336 | 0.339 |
SiamRPN++ | 0.496 | 0.491 |
SiamCAR | 0.507 | 0.510 |
ATOM | 0.514 | 0.505 |
DiMP-18 | 0.537 | 0.541 |
DiMP-50 | 0.558 | 0.564 |
Ocean | 0.555 | 0.566 |
Ourscenterness | 0.532 | 0.542 |
本文算法 | 0.544 | 0.553 |
通道比例 | 一次性评估成功率 | 一次性评估精确度 |
1∶2∶4(分类),4∶2∶1(回归) | 0.640 | 0.835 |
1∶3∶9(分类),9∶3∶1(回归) | 0.617 | 0.819 |
1∶1∶2(分类),2∶1∶1(回归) | 0.629 | 0.824 |
分支结构 | 一次性评估 成功率 |
一次性评估 精确度 |
分类分支、回归分支、中心度分支 | 0.621 | 0.823 |
分类分支、回归分支、IoU分支 | 0.633 | 0.830 |
分类分支、回归分支、中心度权重 | 0.612 | 0.813 |
分类分支、回归分支、IoU权重 | 0.616 | 0.819 |
分类与IoU联合训练分支、回归分支 | 0.640 | 0.835 |
跟踪器 | 平均重叠率 | SR0.5 |
ECO | 0.299 | 0.303 |
SiamFC | 0.325 | 0.328 |
DSiam | 0.417 | 0.461 |
SPM | 0.513 | 0.593 |
SiamRPN++ | 0.517 | 0.616 |
ATOM | 0.556 | 0.634 |
SiamCAR | 0.569 | 0.670 |
Ocean | 0.592 | 0.695 |
DiMP | 0.611 | 0.712 |
Ourscenterness | 0.584 | 0.691 |
本文算法 | 0.593 | 0.698 |
跟踪器 | 一次性评估成功率 | 精确度 |
ECO | 0.324 | 0.301 |
SiamFC | 0.336 | 0.339 |
SiamRPN++ | 0.496 | 0.491 |
SiamCAR | 0.507 | 0.510 |
ATOM | 0.514 | 0.505 |
DiMP-18 | 0.537 | 0.541 |
DiMP-50 | 0.558 | 0.564 |
Ocean | 0.555 | 0.566 |
Ourscenterness | 0.532 | 0.542 |
本文算法 | 0.544 | 0.553 |
通道比例 | 一次性评估成功率 | 一次性评估精确度 |
1∶2∶4(分类),4∶2∶1(回归) | 0.640 | 0.835 |
1∶3∶9(分类),9∶3∶1(回归) | 0.617 | 0.819 |
1∶1∶2(分类),2∶1∶1(回归) | 0.629 | 0.824 |
分支结构 | 一次性评估 成功率 |
一次性评估 精确度 |
分类分支、回归分支、中心度分支 | 0.621 | 0.823 |
分类分支、回归分支、IoU分支 | 0.633 | 0.830 |
分类分支、回归分支、中心度权重 | 0.612 | 0.813 |
分类分支、回归分支、IoU权重 | 0.616 | 0.819 |
分类与IoU联合训练分支、回归分支 | 0.640 | 0.835 |