留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

2022年  第48卷  第8期

显示方式:
2022年, 第48卷, 第8期
icon下载 (90388) 1473 icon预览
论文
面向目标检测的双驱自适应遥感图像超分重建方法
成科扬, 荣兰, 蒋森林, 詹永照
2022, 48(8): 1343-1352. doi: 10.13700/j.bh.1001-5965.2021.0517
摘要:

有光学遥感图像超分重建方法主要是生成视觉上令人满意的图像,并未考虑后续目标检测任务的特殊性,不能有效地应用到目标检测中。基于此,提出了面向目标检测的双驱动自适应多尺度光学遥感图像超分重建方法,将超分重建网络和目标检测网络结合起来,进行联合优化。针对光学遥感图像的特点设计了自适应多尺度遥感图像超分重建网络,集成选择性内核网络和自适应特征门控单元来特征提取和融合,重建出初步遥感图像。通过提出的双驱动模块,将特征先验驱动损失和任务驱动损失传到超分重建网络中,提高目标检测的性能。在UCAS-AOD和NWPU VHR-10数据集上进行实验,并与5种主流方法进行比较,所提方法的峰值信噪比和平均准确率相较于FDSR方法分别提高了1.86 dB和3.73%。实验结果表明,所提方法和光学遥感图像目标检测结合可以取得更好的效果,综合性能更佳。

基于深度强化学习与扩展卡尔曼滤波相结合的交通信号灯配时方法
吴兰, 吴元明, 孔凡士, 李斌全
2022, 48(8): 1353-1363. doi: 10.13700/j.bh.1001-5965.2021.0529
摘要:

深度Q学习网络(DQN)因具有强大的感知能力和决策能力而成为解决交通信号灯配时问题的有效方法,然而外部环境扰动和内部参数波动等原因导致的参数不确定性问题限制了其在交通信号灯配时系统领域的进一步发展。基于此,提出了一种DQN与扩展卡尔曼滤波(EKF)相结合(DQN-EKF)的交通信号灯配时方法。以估计网络的不确定性参数值作为状态变量,包含不确定性参数的目标网络值作为观测变量,结合过程噪声、包含不确定性参数的估计网络值和系统观测噪声构造EKF系统方程,通过EKF的迭代更新求解,得到DQN模型中的最优真实参数估计值,解决DQN模型中的参数不确定性问题。实验结果表明:DQN-EKF配时方法适用于不同的交通环境,并能够有效提高车辆的通行效率。

基于改进大气散射模型的单幅图像去雾方法
杨勇, 邱根莹, 黄淑英, 万伟国, 胡威
2022, 48(8): 1364-1375. doi: 10.13700/j.bh.1001-5965.2021.0532
摘要:

雾天情况下获得的图像通常会出现对比度低、色彩丢失及噪声等问题,传统的去雾方法主要着眼于解决对比度低、色彩损失等问题,而没有考虑空气中灰尘颗粒散射隐藏的噪声光,导致去雾结果中易出现大量的噪声。针对该问题,提出了一种基于改进大气散射模型的单幅图像去雾方法。结合雾霾天气的特点,通过增加空气中介质散射的噪声光对传统雾天成像的大气散射模型进行改进;针对暗通道先验计算透射率不准确的问题,根据改进的模型构建一种透射率精细化的求取方法;结合全变分模型保边抑噪的思想,构造一种新的目标函数,迭代求解获得去雾图像。实验结果和对比分析表明:所提方法能有效去除图像中的雾,减少去雾结果中的噪声,同时也能保留图像中丰富的纹理信息。

面向量化分块压缩感知的区域层次化预测编码
刘浩, 郑浩然, 黄荣
2022, 48(8): 1376-1382. doi: 10.13700/j.bh.1001-5965.2021.0511
摘要:

在量化分块压缩感知的预测编码中,低参考价值的候选者将导致较差的率失真性能。为了高效地降低编码失真,提出了一种基于螺旋逐块扫描的区域层次化预测编码方法。在以同一采样率进行观测后,各块按由内向外的扫描次序进行预测与量化。当前观测矢量从上下文感知候选集中选取与之具有最小误差的反量化矢量,作为其预测矢量;根据层次相关性,所有块被划分到3种区域之一,通过块编码模型为不同区域设定自适应的质量因子,关键区域被赋予较大的质量因子。与现有的预测编码方法相比,所提方法综合利用了矢量之间的空域相关性和层次相关性,实验结果获得了至少0.12 dB的率失真增益。

HEVC对偶编码单元划分优化算法
刘美琴, 徐晨铭, 姚超, 林春雨, 赵耀
2022, 48(8): 1383-1389. doi: 10.13700/j.bh.1001-5965.2021.0528
摘要:

为了解决视频数据量日益增长与用户享受高质量视频体验需求之间的矛盾,HEVC在H.264/AVC标准的基础上通过引入新型的编码结构和算法进一步将编码效率提升了50%,但是也极大地提升了编码复杂度。基于此,提出对偶编码单元(CU)划分网络DualNet,来降低HEVC中帧内编码复杂度。该网络由预测网络和目标网络2个部分组成,其中,预测网络通过分析图像统计特征实现编码单元划分决策,从而跳过四叉树的遍历搜索,提高编码单元划分决策的时间效率;目标网络基于率失真代价评价和优化决策模型提升编码单元划分性能,实现模型互补和最优率失真估计。实验结果表明:与HEVC标准对比,所提算法在实现相近的压缩效果的前提下能够节省64.06%的编码时间。

基于IoU约束的孪生网络目标跟踪方法
周丽芳, 刘金兰, 李伟生, 雷帮军, 何宇, 王一涵
2022, 48(8): 1390-1398. doi: 10.13700/j.bh.1001-5965.2021.0533
摘要:

基于孪生网络的跟踪方法通过离线训练跟踪模型,不需要对跟踪模型进行在线更新,兼顾了跟踪精度和速度。现有孪生网络目标跟踪方法使用固定阈值选择正负训练样本易造成训练样本漏选问题,且训练时分类分支和回归分支之间存在低相关性问题,不利于训练出高精度的跟踪模型。为此,提出了一种基于交并比(IoU)约束的孪生网络目标跟踪方法。通过使用动态阈值策略根据预定义锚框与目标真实框的相关统计特征,动态调整正负训练样本的界定阈值,提升跟踪精度。所提方法使用IoU质量评估分支代替分类分支,通过锚框与目标真实框之间的IoU反映目标位置,提升跟踪精度,降低模型的参数量。在数据集VOT2016、OTB-100、VOT2019、UAV123上进行了对比实验,所提方法均有较好的表现。在VOT2016数据集上,所提方法的跟踪精度比SiamRPN方法高0.017,期望平均重叠率为0.463,与SiamRPN++相比仅差0.001,实时运行速度可达220帧/s。

基于动态语义记忆网络的长尾图像描述生成
刘昊, 杨小汕, 徐常胜
2022, 48(8): 1399-1408. doi: 10.13700/j.bh.1001-5965.2021.0518
摘要:

图像描述生成任务旨在基于输入图像生成对应的自然语言描述。现有任务数据集中大部分图像的描述语句通常包含少量常见词和大量罕见词,呈现出长尾分布。已有研究专注于提升模型在整个数据集上的描述语句准确性,忽视了对大量罕见词的准确描述,限制了在实际场景中的应用。针对这一问题,提出了基于动态语义记忆网络(DSMN)的长尾图像描述生成模型,旨在保证模型对常见名词准确描述的同时,提升模型对罕见名词的描述效果。DSMN模型能够动态挖掘罕见词与常见词的全局语义关系,实现从常见词到罕见词的语义知识迁移,通过协同考虑全局单词语义关系信息及当前输入图像和已生成单词的局部语义信息提升罕见词的语义特征表示能力和预测性能。为了有效评价长尾图像描述生成方法,基于MS COCO Captioning数据集定义了长尾图像描述生成任务专用测试集Few-COCO。在MS COCO Captioning和Few-COCO数据集上的多个量化实验表明,DSMN模型在Few-COCO数据集上的罕见词描述准确率为0.602 8%,召回率为0.323 4%,F-1值为0.356 7%,相较于基准方法提升明显。

结合多层特征及空间信息蒸馏的医学影像分割
郑宇祥, 郝鹏翼, 吴冬恩, 白琮
2022, 48(8): 1409-1417. doi: 10.13700/j.bh.1001-5965.2021.0504
摘要:

U-Net在医学影像分割领域是目前应用最广泛的分割模型,其“编码-解码”结构也成为了构建医学影像分割模型最常用的结构。尽管U-Net在许多领域实现了非常高的分割准确度,但是存在着计算复杂度高、推理速度慢、运行消耗内存大等问题,导致其难以在移动应用平台部署。为解决这一问题,提出了一种结合多层特征及空间信息蒸馏的医学影像分割方法TinyUnet。该方法使用轻量化的U-Net作为学生网络。考虑到小模型没有足够的学习能力,通过选择合适的蒸馏位置,对多层教师特征图进行蒸馏; 同时加强教师网络深层特征图的边缘,并构建边缘关键点图结构,采用图卷积网络对学生网络进行空间信息蒸馏,从而补充重要的边缘信息和空间信息。实验表明:在3个医学影像数据集上,TinyUnet能够达到U-Net 98.3%~99.7%的分割准确度,但是将U-Net的参数量平均降低了99.6%,运算速度提高了约110倍; 同时,与其他轻量化医学影像分割模型相比,TinyUnet不仅具有较高的分割准确度,而且占用内存更少,运行速度更快。

基于彩色三要素的无参考对比度失真图像质量评价方法
丁盈秋, 杨杨, 成茗, 张卫明
2022, 48(8): 1418-1427. doi: 10.13700/j.bh.1001-5965.2021.0509
摘要:

图像质量评价是图像处理领域中基本且具有挑战性的问题。对比度失真对图像质量的感知影响较大,目前针对对比度失真图像的无参考图像质量评价研究相对较少。基于此,提出了基于彩色三要素的无参考对比度失真图像质量评价方法,利用彩色三要素的亮度、色调和饱和度3个参数实现了对比度失真图像的质量评价方法。在亮度方面,提取矩特征及图像直方图与均匀分布之间的Kullback-Leibler散度特征。在色调和饱和度方面,分别在HSV空间的H和S通道中提取颜色加权局部二值模式(LBP)直方图特征。利用AdaBoosting BP神经网络训练预测模型。在5个标准图像数据库中进行广泛的实验分析和交叉验证,结果表明,所提方法与现有的对比度失真图像质量评价方法相比,性能有明显的提升。

基于图对比注意力网络的知识图谱补全
刘丹阳, 方全, 张晓伟, 胡骏, 钱胜胜, 徐常胜
2022, 48(8): 1428-1435. doi: 10.13700/j.bh.1001-5965.2021.0523
摘要:

知识图谱(KG)补全旨在通过知识库中已知三元组来预测缺失的链接。由于大多数方法都是独立地处理三元组,而忽略了知识图谱所具有的异质结构和相邻节点中固有的丰富的信息,导致不能充分挖掘三元组的特征。考虑基于端到端的知识图谱补全任务,提出了一种图对比注意力网络(GCAT),通过注意力机制同时捕获局部邻域内实体和关系的特征,并封装实体邻域上下文信息。为了有效封装三元组特征,引入一个子图级别的对比训练对象用于增强生成的实体嵌入的质量。为了验证GCAT的有效性,在链接预测任务上评估了所提方法,实验结果表明,在数据集FB15k-237中,MRR比InteractE提高0.005,比A2N模型提高0.042;在数据集WN18RR中,MRR比InteractE提高0.019,比A2N模型提高0.032。实验证明提出的GCAT模型能够有效预测知识图谱中缺失的链接。

文本信息辅助图像差异描述生成
陈玮婧, 王维莹, 金琴
2022, 48(8): 1436-1444. doi: 10.13700/j.bh.1001-5965.2021.0526
摘要:

图像描述生成任务要求机器自动生成自然语言文本来描述图像所呈现的语义内容,从而将视觉信息转化为文本描述,便于对图像进行管理、检索、分类等工作。图像差异描述生成是图像描述生成任务的延伸,其难点在于如何确定2张图像之间的视觉语义差别,并将视觉差异信息转换成对应的文本描述。基于此,提出了一种引入文本信息辅助训练的模型框架TA-IDC。采取多任务学习的方法,在传统的编码器-解码器结构上增加文本编码器,在训练阶段通过文本辅助解码和混合解码2种方法引入文本信息,建模视觉和文本2个模态间的语义关联,以获得高质量的图像差别描述。实验证明,TA-IDC模型在3个图像差异描述数据集上的主要指标分别超越已有模型最佳结果12%、2%和3%。

一种傅里叶域海量数据高速谱聚类方法
张熳, 徐兆瑞, 沈项军
2022, 48(8): 1445-1454. doi: 10.13700/j.bh.1001-5965.2021.0537
摘要:

谱聚类方法广泛应用于数据挖掘和模式识别等领域,但大规模数据上高计算代价的特征向量求解及大数据带来的巨大内存需求,使得其应用于大规模数据时受到了极大的限制。为此,研究了基于傅里叶域的海量数据高速谱聚类方法。利用数据模式的重复性特点在傅里叶域建模,将耗时的特征向量计算转化为对预先确定的傅里叶域判别基进行选择来确定最终的特征向量,计算过程只需进行简单的乘法和加法运算,计算量得到极大的约减; 分批次训练样本,使用部分样本即可估计出整体数据的特征向量分布,确定最终的特征向量,压缩了计算时间和内存需求。在Ijcnn1、RCV1、Covtype-mult、Poker及MNIST-8M等大规模数据上的实验结果表明,所提方法在聚类精度等各项指标基本保持的前提下,训练时间相比FastESC、LSSHC、SC_RB、SSEIGS及USPEC等方法最高快了810.58倍,证明了所提方法在处理大规模聚类数据方面具有显著优势。

面向鱼眼图像的人群密度估计
杨家林, 林春雨, 聂浪, 刘美琴, 赵耀
2022, 48(8): 1455-1463. doi: 10.13700/j.bh.1001-5965.2021.0520
摘要:

针对传统人群密度估计方法在鱼眼图像畸变下不适用的问题,提出了一个面向鱼眼图像的人群密度估计方法,实现了在鱼眼镜头场景下对人流量的监控。在模型结构方面,引入了可变形卷积,提高了模型对鱼眼畸变的适应能力。在生成目标数据方面,利用鱼眼图像的畸变特点,基于高斯变换,对人群标注转换的密度图进行符合鱼眼畸变的分布匹配。在训练方面,对损失函数的计算进行了优化,避免了模型在训练中陷入局部最优解的问题。由于鱼眼人群计数的数据集比较匮乏,采集并标注了相应的数据集。通过主客观实验与经典方法进行了对比,所提方法在测试集中的平均绝对误差达3.78,低于对比方法,证明了面向鱼眼图像的人群密度估计方法的优越性。

用于遥感图像变化检测的全尺度特征聚合网络
刘国强, 房胜, 李哲
2022, 48(8): 1464-1470. doi: 10.13700/j.bh.1001-5965.2021.0522
摘要:

变化检测(CD)是遥感的一项重要任务,通常面临许多伪变化和较大的尺度变化。目前的方法主要侧重于对差异特征的建模,忽略了从原始图像中提取足够的信息,影响了特征的识别能力,难以稳定地区分出变化区域。针对以上问题,提出了一种全尺度特征聚合网络(FFANet)来更充分地利用原始图像特征,促使生成的特征表示在语义上更丰富、在空间上更准确,从而提高了网络对小目标和目标边缘的检测性能。同时,拓展了深监督来结合多尺度的预测图,以促使不同对象在更合适的尺度上进行检测,从而提升了网络对对象尺度变化的鲁棒性。在CDD数据集上,相比于基线网络,所提方法仅增加了1.01×106的参数量,就将F1分数提升了0.034。

基于改进空间通道信息的全局烟雾注意网络
董泽舒, 袁非牛, 夏雪
2022, 48(8): 1471-1479. doi: 10.13700/j.bh.1001-5965.2021.0549
摘要:

针对烟雾因半透明、形状不规则和边界模糊造成分割困难的问题,提出了基于注意力机制的长距离信息建模方法,以提取长距离像素间的依赖和连续性关系。通过注意力机制作用原理,解决孤立小块区域误分类问题,减少非连续区域的烟雾误判。为避免注意力网络大尺寸矩阵运算造成的内存和计算负担,对空间和通道2种注意力方式进行改进,分别设计了双向定位空间注意力(BDA)模块和多尺度通道注意力(MSCA)融合模块,弥补现有注意力全局池化操作导致的大量空间信息丢失。将所提注意力模块和残差深度网络合并,构建面向图像烟雾分割的全局烟雾注意网络,在尽可能不丢失全局信息相关性的同时减少内存消耗。实验结果表明:所提网络在DS01、DS02、DS03合成烟雾测试集上,取得的平均交并比分别为73.13%、73.81%、74.25%,总体上优于对比算法。

基于图对比的上下位关系检测
张雅丽, 方全, 王允鑫, 胡骏, 钱胜胜, 徐常胜
2022, 48(8): 1480-1486. doi: 10.13700/j.bh.1001-5965.2021.0524
摘要:

上下位关系是自然语言处理(NLP)下游任务的基础,因此上下位关系检测是自然语言处理领域备受关注的问题。针对现有词嵌入方法采用随机初始化词向量,不能很好地捕获上下位关系不对称和可传递的特性,且现有模型没有充分利用预测向量与真实投影之间关系的局限性,提出了一种基于图对比学习的上下位关系检测(HyperCL)方法。引入图对比学习进行数据增强,基于最大化局部和全局表示的互信息,学习具有鲁棒性的词特征表示。所提方法学习了将下位词的词向量投影到上位词和非上位词,同时能够更好地区分嵌入空间中的上位词和非上位词,从而提高了检测精度。在2个基准数据集上的实验结果表明,所提模型比现有方法在准确率上提升了0.03以上。

基于立体图像的多路径特征金字塔网络3D目标检测
苏凯祺, 阎维青, 徐金东
2022, 48(8): 1487-1494. doi: 10.13700/j.bh.1001-5965.2021.0525
摘要:

3D目标检测是计算机视觉和自动驾驶中一项重要的场景理解任务。当前基于立体图像的3D目标检测方法大多没有充分考虑多个目标之间的尺度存在较大差异,从而尺度小的物体容易被忽略,导致检测精度低。针对这一问题,提出了一种基于立体图像的多路径特征金字塔网络(MpFPN)3D目标检测方法。MpFPN对特征金字塔网络进行了扩展,增加了自底向上的路径、由上至下的路径及输入特征图到输出特征图之间的连接,为联合区域提议网络提供了更高语义信息和更细粒度空间信息的多尺度特征信息。实验结果表明:在3D目标检测KITTI数据集上,无论在场景简单、中等、复杂情况下,所提方法获得的结果都优于比较方法的结果。

基于时空注意力机制的新冠肺炎疫情预测模型
鲍昕, 谭智一, 鲍秉坤, 徐常胜
2022, 48(8): 1495-1504. doi: 10.13700/j.bh.1001-5965.2021.0535
摘要:

新冠肺炎疫情持续蔓延给人类社会带来深远影响,准确预测各地区的病毒传播趋势对防控疫情而言至关重要。现有研究主要基于传统的时序预测模型和传染病模型,鲜有考虑疫情地区关联复杂和时序依赖性强的特点,限制了其疫情预测的性能。为此,针对新冠肺炎疫情的预测任务,提出了一种时空注意力驱动的自编码器框架。通过引入空间注意力机制捕捉病毒感染序列间的动态空间关联性,利用时间注意力机制挖掘病毒感染序列中复杂的时序依赖性,以此实现对不同地区的新冠肺炎病毒传播趋势的准确预测。在模型的编码器端,融合空间注意力机制的长短期记忆(LSTM)网络,关联目标地区与其他地区的病毒感染序列,提取该区域近期新冠肺炎疫情的时序特征。在模型的解码器端,将时间注意力机制引入基于LSTM网络的解码器中,通过捕捉病毒感染序列的时序依赖性推测未来的新冠肺炎疫情趋势变化。在多个公开的新冠肺炎疫情数据集上对所提模型进行验证,实验结果表明:所提模型的预测性能超越了LSTM等模型;在公开的欧洲部分国家新冠肺炎疫情数据集上,预测误差指标RMSE和MAE分别降低了22.3%和25.0%,在中国部分省级单位新冠肺炎疫情数据集上,RMSE和MAE分别降低了10.1%和10.4%。

基于三维Saab变换的高光谱图像压缩方法
徐艾明, 黄宇星, 沈秋
2022, 48(8): 1505-1514. doi: 10.13700/j.bh.1001-5965.2021.0521
摘要:

高光谱图像中存储了丰富的光谱信息,具有极大的应用价值,但现有大部分高光谱图像压缩方法难以同时兼顾图像中的空间冗余与谱间冗余,导致压缩性能受到局限。针对该问题,提出了一种基于三维修正偏置的子空间(Saab)变换的高光谱图像压缩方法。采用三维Saab变换对高光谱图像的分块进行空间光谱信息融合的降维操作,同时去除谱间冗余和局部空间冗余;利用高效率视频编码(HEVC)中的帧内编码模块进一步去除空间冗余和统计冗余;实现低失真、高比率的高光谱图像压缩。在多个高光谱图像数据集上的实验结果表明,所提方法在同码率下重建图像的信噪比(SNR)比采用主成分分析(PCA)降维的方法至少提高0.62 dB,在高码率的情况下性能优于张量分解的压缩方法。同时,验证了不同降维方法对分类任务的性能影响,结果表明,所提方法更好地保留了图像中的重要特征,在低码率的情况下仍可以保持较高的分类精度。

真实场景水下语义分割方法及数据集
马志伟, 李豪杰, 樊鑫, 罗钟铉, 李建军, 王智慧
2022, 48(8): 1515-1524. doi: 10.13700/j.bh.1001-5965.2021.0527
摘要:

随着水下生物抓取技术的不断发展,高精度的水下物体识别与分割成为了挑战。已有的水下目标检测技术仅能给出物体的大体位置,无法提供物体轮廓等更加细致的信息,严重影响了抓取效率。为了解决这一问题,标注并建立了真实场景水下语义分割数据集DUT-USEG,该数据集包含6 617张图像,其中1 487张具有语义分割和实例分割标注,剩余5 130张图像具有目标检测框标注。基于该数据集,提出了一个关注边界的半监督水下语义分割网络(US-Net),该网络通过设计伪标签生成器和边界检测子网络,实现了对水下物体与背景之间边界的精细学习,提升了边界区域的分割效果。实验表明:所提方法在DUT-USEG数据集的海参、海胆和海星3个类别上相较于对比方法提升了6.7%,达到了目前最好的分割精度。

外观动作自适应目标跟踪方法
熊珺瑶, 王蓉, 孙义博
2022, 48(8): 1525-1533. doi: 10.13700/j.bh.1001-5965.2021.0597
摘要:

为降低目标运动时产生的外观形变对目标跟踪的影响,在DaSiamese-RPN基础上进行改进,提出了一种外观动作自适应的目标跟踪方法。在孪生网络的子网络中引入外观动作自适应更新模块,融合目标的时空信息和动作特征;利用2种欧氏距离分别度量真实图和预测图之间的全局和局部差异,并对二者加权融合构建损失函数,加强预测目标特征图与真实目标特征图之间全局和局部信息的关联性。在VOT2016、VOT2018、VOT2019和OTB100数据集上进行测试,实验结果表明:在VOT2016和VOT2018数据集上,预测平均重叠率分别提高4.5%和6.1%;在VOT2019数据集上,准确度提高0.4%,预测平均重叠率降低1%;在OTB100数据集上,跟踪成功率提高0.3%,精确度提高0.2%。

基于多标签协同学习的跨域行人重识别
李慧, 张晓伟, 赵新鹏, 路昕雨
2022, 48(8): 1534-1542. doi: 10.13700/j.bh.1001-5965.2021.0600
摘要:

跨域是行人重识别的重要应用场景,但是源域与目标域行人图像在光照条件、拍摄视角、成像背景与风格等方面的表观特征差异性是导致行人重识别模型泛化能力下降的关键因素。针对该问题,提出了基于多标签协同学习的跨域行人重识别方法。利用语义解析模型构造了基于语义对齐的多标签数据表示,以引导构建更关注行人前景区域的局部特征,达到语义对齐的目的,减少背景对跨域重识别的影响。基于行人图像全局特征和语义对齐后的行人局部特征,利用协同学习平均模型生成行人重识别模型的多标签表示,减少跨域场景下噪声硬标签的干扰。利用协同学习网络框架联合多标签的语义对齐模型,提高行人重识别模型的识别能力。实验结果表明:在Market-1501→ DukeMTMC-reID、DukeMTMC-reID→Market-1501、Market-1501→MSMT17、DukeMTMC-reID→MSMT17跨域行人重识别数据集上,与NRMT方法相比,平均精度均值分别提高了8.3%、8.9%、7.6%、7.9%,多标签协同学习方法具有显著的优越性。

基于球场重建的球员运动数据分析
吉晓琪, 宋子恺, 于俊清
2022, 48(8): 1543-1552. doi: 10.13700/j.bh.1001-5965.2022.0131
摘要:

足球比赛中球员运动数据分析对增加观众的观看体验和辅助教练进行球员评估有着重要意义。球员运动数据分析的难点在于如何定位球员在球场上的坐标,即如何确定足球视频中单帧画面出现的缺损球场与标准二维球场之间的映射关系。针对如何在足球比赛中克服相机的高速移动和视角剧烈变化,设计并提出了利用球场重建与球员跟踪来进行球员运动数据分析的方法。球场重建方面,将足球视频中的球场分组为左中右3部分,每组通过球场分割、球场直线检测、球场直线分组、球场中圈点集合识别和球场关键点匹配来实现缺损球场到标准球场的映射;球员跟踪采用核相关滤波(KCF)跟踪算法,得到了球员运动数据统计的可视化结果。结合球场重建和球员跟踪算法定位球员的标准坐标,统计球员的一系列运动数据并进行可视化分析。提出的球员运动数据分析方法能够准确而快速地统计出球员的运动数据,包括球员坐标、运动轨迹、奔跑速度、活动范围和球员间距。球场重建方面采用图像交并进行评估,交并比达到87%,相比于传统的基于字典查询的方法(交并比为83.3%)准确度提升了3.7%。实验结果表明:所提出的球场重建方法能够更准确地表示球场映射关系,为球员运动数据分析统计提供更好的支持。

常见问答