留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

2021年  第47卷  第3期

显示方式:
2021年, 第47卷, 第3期
icon下载 (80967) 848 icon预览
论文
基于依存句法的图像描述文本生成
毕健旗, 刘茂福, 胡慧君, 代建华
2021, 47(3): 431-440. doi: 10.13700/j.bh.1001-5965.2020.0443
摘要:

现有图像描述文本生成模型能够应用词性序列和句法树使生成的文本更符合语法规则,但文本多为简单句,在语言模型促进深度学习模型的可解释性方面研究甚少。将依存句法信息融合到深度学习模型以监督图像描述文本生成的同时,可使深度学习模型更具可解释性。图像结构注意力机制基于依存句法和图像视觉信息,用于计算图像区域间关系并得到图像区域关系特征;融合图像区域关系特征和图像区域特征,与文本词向量通过长短期记忆网络(LSTM),用于生成图像描述文本。在测试阶段,通过测试图像与训练图像集的内容关键词,计算2幅图像的内容重合度,间接提取与测试图像对应的依存句法模板;模型基于依存句法模板,生成多样的图像描述文本。实验结果验证了模型在改善图像描述文本多样性和句法复杂度方面的能力,表明模型中的依存句法信息增强了深度学习模型的可解释性。

基于多特征图像视觉显著性的视频摘要化生成
金海燕, 曹甜, 肖聪, 肖照林
2021, 47(3): 441-450. doi: 10.13700/j.bh.1001-5965.2020.0479
摘要:

如何高效提取视频内容即视频摘要化,一直是计算机视觉领域研究的热点。简单通过图像颜色、纹理等特征进行检测已无法有效、完整地获取视频摘要。基于视觉注意力金字塔模型,提出了一种改进的可变比例及双对比度计算的中心-环绕视频摘要化方法。首先,以超像素方法对视频图像序列进行像素块划分以加速图像计算;然后,检测不同颜色背景下的图像对比度特征差异并进行融合;最后,结合光流运动信息,合并静态图像与动态图像显著性结果提取视频关键帧,在提取关键帧时,利用感知哈希函数进行相似性判断完成视频摘要化生成。在Segtrack V2、ViSal及OVP数据集上进行仿真实验,结果表明:所提方法可以有效提取图像感兴趣区域,得到以关键帧图像序列表示的视频摘要。

基于混合网络的异源遥感图像变化检测
周圆, 李祥瑞, 杨晶
2021, 47(3): 451-460. doi: 10.13700/j.bh.1001-5965.2020.0455
摘要:

为了更加准确地进行异源遥感图像的变化检测任务,提出了一种基于混合网络的异源遥感图像变化检测算法。利用伪孪生网络提取异源遥感图像块间空间维度的变化特征,利用早期融合网络提取异源遥感图像块间光谱维度的变化特征,将2支网络提取的特征进行融合,并将融合后的变化特征输入到sigmoid层进行二分类检测。同时,在伪孪生网络中加入对比损失函数,通过优化对比损失函数,使得在特征空间中,未变化图像对的空间特征差异更小,变化图像对的空间特征差异更大,以提升网络的区分能力和收敛速度。

融合深度特征的输电线路金具缺陷因果分类方法
赵振兵, 张薇, 戚银城, 翟永杰, 赵文清
2021, 47(3): 461-468. doi: 10.13700/j.bh.1001-5965.2020.0456
摘要:

针对输电线路金具缺陷样本不足和缺陷目标形态多样化,仅仅利用深度学习模型导致金具缺陷分类准确率较低的问题,提出了一种结合深度网络和逻辑回归模型的因果分类方法。首先,通过样本扩充方法获得数量丰富化和角度多样化的数据集;然后,基于微调后的VGG16模型提取深度特征并进行特征处理,以构建符合因果关系学习的输入特征集;最后,通过全局混杂平衡进行金具缺陷特征与标签之间的因果关系学习,构建符合金具特点的因果逻辑回归模型,完成金具缺陷分类。为了证明所提方法的有效性,利用无人机实际采集的4类金具缺陷图片分别进行了实验,所使用的训练样本和测试样本数量较原始数据集提升了5倍左右。实验结果表明:所提方法可以实现对输电线路金具缺陷的精准分类,其中,防震锤相交和变形分类准确率分别达到了0.929 9和0.911 8,屏蔽环锈蚀和均压环损坏分类准确率分别达到了0.956 7和0.966 9。

基于语义相关的多模态社交情感分析
胡慧君, 冯梦媛, 曹梦丽, 刘茂福
2021, 47(3): 469-477. doi: 10.13700/j.bh.1001-5965.2020.0451
摘要:

社交平台允许用户采用多种信息模态发表意见与观点,多模态语义信息融合能够更有效地预测用户所表达的情感倾向。因此,多模态情感分析近年来受到了广泛关注。然而,多模态情感分析中视觉与文本存在的语义无关问题,导致情感分析效果不佳。针对这一问题,提出了基于语义相关的多模态社交情感分析(MSSA-SC)方法。采用图文语义相关性分类模型,对图文社交信息进行语义相关性识别,若图文语义相关,则对图文社交信息使用图文语义对齐多模态模型进行图文特征融合的情感分析;若图文语义无关,则仅对文本模态进行情感分析。在真实社交媒体数据集上进行了实验,由实验结果可知,所提方法能够有效降低图文语义无关情况对多模态社交媒体情感分析的影响。与此同时,所提方法的Accuracy和Macro-F1指标分别为75.23%和70.18%,均高于基准模型。

基于深度多模态特征融合的短视频分类
张丽娟, 崔天舒, 井佩光, 苏育挺
2021, 47(3): 478-485. doi: 10.13700/j.bh.1001-5965.2020.0457
摘要:

目前,短视频已经成为新媒体时代极具有代表性的产物之一,其天然的具有时短、强编辑等特点,使得传统视频分类模型不再适合于短视频分类任务。针对综合短视频分类问题的特点,提出了一种基于深度多模态特征融合的短视频分类算法。所提算法将视觉模态信息和音频模态信息输入到域分离网络中,将整个特征空间划分为所有模态共享的公有域部分及由音频模态和视觉模态分别独有的私有域部分,借助优化域分离网络,最大程度地保留了不同模态特征间的差异性和相似性。在公开的短视频分类数据集上进行实验,证明了所提算法可以有效减少特征融合时的冗余性,并将分类的平均精度提高到0.813。

基于FPGA无人机影像快速低功耗高精度三维重建
李杰, 李一轩, 吴天生, 王昊榕, 梁敏
2021, 47(3): 486-499. doi: 10.13700/j.bh.1001-5965.2020.0452
摘要:

现有无人机(UAV)影像三维重建方法在功耗、时效等方面无法满足移动终端对低功耗、高时效的需求。为此,在有限资源FPGA平台下,结合指令优化策略和软硬件协同优化方法,提出一种基于FPGA高吞吐量硬件优化架构的无人机航拍影像快速低功耗高精度三维重建方法。首先,构建多尺度深度图融合算法架构,增强传统FPGA相位相关算法对不可信区域的鲁棒性,如低纹理、河流等区域。其次,结合高并行指令优化策略,提出高性能软硬件协同优化方案,实现多尺度深度图融合算法架构在有限资源FPGA平台的高效运行。最后,将现有CPU方法、GPU方法与FPGA方法进行综合实验比较,实验结果表明:FPGA方法在重建时间消耗上与GPU方法接近,比CPU方法快近20倍,但功耗仅为GPU方法的2.23%。

融合句嵌入的VAACGAN多对多语音转换
李燕萍, 曹盼, 石杨, 张燕
2021, 47(3): 500-508. doi: 10.13700/j.bh.1001-5965.2020.0475
摘要:

针对非平行文本条件下语音转换质量不理想、说话人个性相似度不高的问题,提出一种融合句嵌入的变分自编码辅助分类器生成对抗网络(VAACGAN)语音转换方法,在非平行文本条件下,有效实现了高质量的多对多语音转换。辅助分类器生成对抗网络的鉴别器中包含辅助解码器网络,能够在预测频谱特征真假的同时输出训练数据所属的说话人类别,使得生成对抗网络的训练更为稳定且加快其收敛速度。通过训练文本编码器获得句嵌入,将其作为一种语义内容约束融合到模型中,利用句嵌入包含的语义信息增强隐变量表征语音内容的能力,解决隐变量存在的过度正则化效应的问题,有效改善语音合成质量。实验结果表明:所提方法的转换语音平均MCD值较基准模型降低6.67%,平均MOS值提升8.33%,平均ABX值提升11.56%,证明该方法在语音音质和说话人个性相似度方面均有显著提升,实现了高质量的语音转换。

一种时空特征聚合的水下珊瑚礁鱼检测方法
陈智能, 史存存, 李轩涯, 贾彩燕, 黄磊
2021, 47(3): 509-519. doi: 10.13700/j.bh.1001-5965.2020.0444
摘要:

水下监控视频中的珊瑚礁鱼检测面临着视频成像质量不高、水下环境复杂、珊瑚礁鱼视觉多样性高等困难,是一个极具挑战的视觉目标检测问题,如何提取高辨识度的特征成为制约检测精度提升的关键。提出了一种时空特征聚合的水下珊瑚礁鱼检测方法,通过设计视觉特征聚合和时序特征聚合2个模块,融合多个维度的特征以实现这一目标。前者设计了自顶向下的切分和自底向上的归并方案,可实现不同分辨率多层卷积特征图的有效聚合;后者给出了一种帧差引导的相邻帧特征图融合方案,可通过融合多帧特征图强化运动目标及其周边区域的特征表示。公开数据集上的实验表明:基于以上2个模块设计的时空特征聚合网络可以实现对水下珊瑚礁鱼的有效检测,相比于多个主流方法和模型取得了更高的检测精度。

面向电力系统的多粒度隐患检测方法
徐晓华, 钱平, 王一达, 周昕悦, 徐汉麟, 徐李冰
2021, 47(3): 520-530. doi: 10.13700/j.bh.1001-5965.2020.0491
摘要:

由于电力系统的安全问题往往会造成严重的经济或社会影响,隐患检测已成为电力系统不可或缺的重要环节。随着人工智能领域的发展,基于深度学习的智能化电力系统隐患检测技术逐渐得到越来越多的关注。但目前的方法大多只是单一地考虑图像的全局特征或局部特征,无法全面彻底表征图像,进而难以捕捉电力领域尤其室外复杂背景下的隐患检测。为此,基于深度学习技术,提出了一种面向电力系统的多粒度隐患检测方法MGNet。通过引入图像的多粒度信息,构建全局和局部网络,进行多粒度级检测;并通过不同粒度级检测结果的协作式融合,增强检测的全面性。在杆塔连接金具隐患和线路通道机械隐患2个数据集上进行了实验比较和分析,对所提模型的检测性能进行评估。通过与现有最优隐患检测基准方法相比,所提方法在2种不同数据集上的平均精度均值分别提升了2.74%和2.77%,验证了模型的有效性。

电力系统厂站接线图拓扑关系检测技术
李昊, 管荑, 王杉, 石玮, 刘子鑫, 刘晓川
2021, 47(3): 531-538. doi: 10.13700/j.bh.1001-5965.2020.0476
摘要:

厂站接线图中电气元件的拓扑关系是厂站接线图自动生成技术所需的核心数据。目前,已知的厂站接线图自动生成技术仍然依靠人工获取图中的拓扑关系。通过利用基于深度学习的目标检测技术与传统的计算机图像处理技术相结合的方式,能够实现厂站接线图拓扑关系检测。首先,利用基于深度学习的目标检测方法对电气元件进行识别,并利用计算机图像处理技术对标量格式接线图进行预处理,完成电气元件与连接线的分割。然后,利用轮廓跟踪算法对连接线连通区域进行检测标记。最后,根据获取的电气元件信息与连接线信息获取图纸的拓扑关系。采用国家电网有限公司提供的数据集,并设计了对比实验,验证了所提方法的有效性。

基于深度学习和图匹配的接线图检测与校核
李昊, 王杉, 耿玉杰, 王黎, 孙文昌, 苗纯源
2021, 47(3): 539-548. doi: 10.13700/j.bh.1001-5965.2020.0478
摘要:

传统的厂站一次接线图的绘制和管理主要依靠电网运行人员,费时费力且缺乏科学可校核的参考标准。提出了一种基于深度神经网络和数字图像处理相结合的厂站一次接线图的自动检测、识别和校核算法。首先,使用目标检测Faster R-CNN模型检测厂站接线图中的电器元件,并达到92%的检测准确率,同时使用端到端的文字检测识别模型识别厂站接线图中的文字信息,并达到94.2%的文字检测准确率和92%的文字识别准确率;然后,使用数字图像处理技术进行厂站接线图连接线、拓扑关系识别;最后,使用改进的VF2算法进行厂站一次接线图和人工维护的厂站一次接线图拓扑关系匹配校核,将拓扑数据抽象为无向图,通过轮廓序号得到元件的相对位置信息,根据改进的VF2算法得到2张图的匹配率,并通过匹配率与设定好的阈值来帮助核验,相比于节点遍历的匹配方法,核验准确率提高了37.5%。基于某供电公司提供的部分变电站的厂站一次接线图标注了接线图电器元件,贡献了一个小型接线图数据集。

基于记忆关联学习的小样本高光谱图像分类方法
王聪, 张锦阳, 张磊, 魏巍, 张艳宁
2021, 47(3): 549-557. doi: 10.13700/j.bh.1001-5965.2020.0498
摘要:

高光谱图像(HSI)分类是遥感领域的基础应用之一。该任务旨在根据部分带类别标签的像素样本训练分类器,预测图像中剩余像素对应的类别标签。在实际应用中,由于人工标记样本成本过高,只能获得少量带标签的样本。针对少量样本无法准确描述数据分布从而导致训练过程过拟合的问题,提出一种基于记忆关联学习的小样本高光谱图像分类方法。考虑到无标签样本中包含大量与数据分布相关的信息,构建基于有标签样本记忆模块,并根据样本间的特征关联,利用不断更新的记忆模块学习无标签样本的潜在类别分布,构建无监督分类模型,并与传统的有监督分类模型进行联合学习。在多个高光谱图像分类数据集上的实验结果表明,所提方法能有效提升小样本高光谱图像分类的准确性。

低延迟视频编码技术
宋利, 刘孝勇, 武国庆, 朱辰, 黄琰, 解蓉, 张文军
2021, 47(3): 558-571. doi: 10.13700/j.bh.1001-5965.2020.0463
摘要:

随着视频编码和视频传输技术的广泛应用,视频需求量剧增,实时视频通信成为视频行业的一项重要研究内容,核心目标是提供更好的用户体验和更低的延迟。低延迟视频编码是实时视频通信应用的关键部分,通过降低编码延迟可以有效地降低系统的整体延迟。首先,分析了视频传输系统的延迟来源,从通用的视频编码框架出发着重介绍了编码延迟的产生机制;其次,概述了国内外主流的视频编码标准,介绍了率失真优化技术的原理和模型,为低延迟视频编码器的设计提供了理论基础;最后,从参考结构、流水线设计、编码模式搜索、码率控制和硬件加速多个维度描述了优化编码延迟的技术手段,并总结了业界具有代表性的低延迟视频编码方案,简要说明了现有低延迟视频编码技术的局限性,并对未来的发展方向做了展望。

显著性引导的低光照人脸检测
李可夫, 钟汇才, 高兴宇, 翁超群, 陈振宇, 李勇周, 王师峥
2021, 47(3): 572-584. doi: 10.13700/j.bh.1001-5965.2020.0469
摘要:

针对卷积神经网络难以对低光照环境拍摄的图像进行人脸检测的问题。提出了一种将图像显著性检测算法和深度学习相结合的算法,并应用于低光照人脸检测。所提算法将图像的显著性信息与图像原始RGB通道融合,用于神经网络训练。在低光照人脸数据集DARK FACE上进行了充分的实验,结果表明:所提方法在DARK FACE数据集上获得了比当前主流人脸检测算法更好的检测精度,进而验证了所提算法的有效性。

基于对抗和迁移学习的灾害天气卫星云图分类
张敏靖, 白琮, 张敬林, 郑建炜
2021, 47(3): 585-595. doi: 10.13700/j.bh.1001-5965.2020.0459
摘要:

针对卫星云图中的灾害天气数据存在严重不平衡问题,提出一个结合生成对抗学习(GAN)和迁移学习(TL)的卷积神经网络(CNN)框架以解决上述问题进而提高基于卫星云图的灾害天气分类精度。该框架主要包含基于GAN的数据均衡化模块和基于迁移学习的CNN分类模块。上述2个模块分别从数据和算法层面解决数据的类间不平衡问题,分别得到一个相对均衡的数据集和一个可在不同类别数据上提取相对均衡特征的分类模型,最终实现对卫星云图的分类,提高其中灾害天气的卫星云图类别分类准确率。与此同时所提方法在自建的大规模卫星云图数据上进行了测试,消融性和综合实验结果证明了所提数据均衡方法和迁移学习方法是有效的,且所提框架模型对各个灾害天气类别的分类精度都有显著提升。

基于多语义线索的跨模态视频检索算法
丁洛, 李逸凡, 于成龙, 刘洋, 王轩, 漆舒汉
2021, 47(3): 596-604. doi: 10.13700/j.bh.1001-5965.2020.0470
摘要:

针对现有的大多数跨模态视频检索算法忽略了数据中丰富的语义线索,使得生成特征的表现能力较差的问题,设计了一种基于多语义线索的跨模态视频检索模型,该模型通过多头目自注意力机制捕捉视频模态内部对语义起到重要作用的数据帧,有选择性地关注视频数据的重要信息,获取数据的全局特征;采用双向门控循环单元(GRU)捕捉多模态数据内部上下文之间的交互特征;通过对局部数据之间的细微差别进行联合编码挖掘出视频和文本数据中的局部信息。通过数据的全局特征、上下文交互特征和局部特征构成多模态数据的多语义线索,更好地挖掘数据中的语义信息,进而提高检索效果。在此基础上,提出了一种改进的三元组距离度量损失函数,采用了基于相似性排序的困难负样本挖掘方法,提升了跨模态特征的学习效果。在MSR-VTT数据集上的实验表明:与当前最先进的方法比较,所提算法在文本检索视频任务上提高了11.1%;在MSVD数据集上的实验表明:与当前先进的方法比较,所提算法在文本检索视频任务上总召回率提高了5.0%。

基于注意力机制的跨分辨率行人重识别
廖华年, 徐新
2021, 47(3): 605-612. doi: 10.13700/j.bh.1001-5965.2020.0471
摘要:

行人图像分辨率的变化对现有的行人重识别方法带来了很大的挑战。针对这一问题,提出了一种新的跨分辨率行人重识别方法。该方法从两方面解决分辨率变化带来的识别困难:一方面通过通道注意力机制和空间注意力机制捕捉人物特征获取局部区域;另一方面通过核动态上采样模块恢复任意分辨率图像的局部区域信息。为了验证所提方法的有效性,在Market1501、CUHK03和CAVIAR三个公开数据集上开展了对比实验,实验结果表明:所提方法取得了最佳性能。

基于多尺度联合学习的行人重识别
谢彭宇, 徐新
2021, 47(3): 613-622. doi: 10.13700/j.bh.1001-5965.2020.0445
摘要:

现有的行人重识别方法主要关注于学习行人的局部特征来实现跨摄像机条件下的行人辨识。然而在人体部件存在运动或遮挡、背景干扰等行人数据非完备条件下,会导致行人局部辨识信息丢失概率的增加。针对这个问题,提出了一种多尺度联合学习方法对行人辨识特征进行精细化表达。该方法包含3个分支网络,分别提取行人的粗粒度全局特征、细粒度全局特征和细粒度局部特征。其中粗粒度全局分支通过融合不同层次的语义信息来增强全局特征的丰富性;细粒度全局分支通过联合全部局部特征,在对全局特征进行细粒度描述的同时学习行人局部部件间的相关性;细粒度局部分支则通过遍历局部特征来挖掘行人非显著性的信息以增强局部特征的鲁棒性。为了验证所提方法的有效性,在Market1501、DukeMTMC-ReID和CUHK03三个公开数据集上开展了对比实验,实验结果表明:所提方法取得了最佳性能。

基于块对角投影表示的人脸识别
刘保龙, 王勇, 李丹萍, 王磊
2021, 47(3): 623-631. doi: 10.13700/j.bh.1001-5965.2020.0460
摘要:

针对大多数特征表示算法在挖掘高维数据内在结构时容易受到噪声的影响,以及特征学习与分类器设计割裂导致分类性能降低的问题,提出了一种新的基于特征表示的人脸识别方法,称为块对角投影表示(BDPR)学习。首先,利用样本信息对每类样本的编码系数施加一个加权矩阵,通过局部约束来加强表示系数之间的相似性,从而降低噪声对系数学习的影响,使所提方法能够更好地保持数据的局部结构。其次,为了实现数据与编码系数相关联,降低表示系数的学习难度,构造了块对角化判别约束项来学习一个判别投影,通过投影从低维数据中提取样本表示系数,使系数包含更多的样本间全局结构信息且具有更低的计算复杂度。最后,将系数学习和分类器学习整合到同一框架下,同时增大不同类别样本间的“标签距离”,采用迭代求解的方式交替更新判别投影和分类器,最终得到最适合当前表示特征的分类器,使得所提方法能自动完成分类。多个公开的人脸数据集上的实验结果表明:较之传统的协作表示分类和多个主流的子空间学习方法,所提方法均取得了更优的识别效果。

基于噪声柯西分布的社交图像标签优化与标注
练连荣, 项欣光
2021, 47(3): 632-640. doi: 10.13700/j.bh.1001-5965.2020.0454
摘要:

随着社交网络的快速发展,带有用户提供标签的社交网络图像呈现爆炸式增长。但是用户提供的标签是不准确的,存在很多不相关以及错误的标签。这势必会增加相关多媒体任务的困难。针对标签噪声无序性以及常用的高斯分布对标签噪声中大噪声过于敏感的问题,但是高斯分布对大噪声比较敏感。鉴于此,采用对各种噪声都具有鲁棒性的柯西分布拟合噪声,提出了一个基于噪声柯西分布的弱监督非负低秩深度学习(CDNL)模型,通过柯西分布建模标签噪声来获得理想标签,并利用深度神经网络模块学习视觉特征和理想标签之间的内在联系,来得到图像对应的正确标签,从而大幅提高社交网络图像的标签准确率。所提模型不仅可以修正错误标签、补充缺失标签,也可以对新图像进行标注。在2个公开的社交网络图像数据集上进行了验证,并且与一些最新的相关工作进行了对比,证实了所提模型的有效性。

结合颅骨形态特征与神经网络的民族判别
孙慧杰, 赵俊莉, 郑鑫, 热孜万古丽·夏米西丁, 李奕, 周明全
2021, 47(3): 641-649. doi: 10.13700/j.bh.1001-5965.2020.0446
摘要:

针对颅骨民族判别问题,提出结合颅骨形态特征与神经网络的判别方法,可以推进法医人类学的发展,加快探索民族发展历程。首先,根据颅骨形态学相关研究,提取36个维吾尔族和汉族颅骨数据的几何特征;其次,采用反向传播神经网络(BPNN)对特征向量进行民族判别,并通过Adam算法对网络进行优化,避免陷入局部最优值,添加正则化项保证算法稳定性;最后,分别采用2种网络结构进行对比实验,输入层、隐藏层和输出层的神经元个数分别为36、6、2和36、12、2,并设置不同初始学习率进行对比实验。结果表明:隐藏层神经元个数为12、学习率为0.000 1时,分类精度最高,测试阶段平均准确率最高为97.5%。为了验证所提方法的普适性,生成116例国外颅骨数据进行实验,测试阶段平均准确率为90.96%。相比较于支持向量机(SVM)、决策树、KNN、Fisher等机器学习方法,所提方法学习能力更强且分类精度有明显提升。

融合语义信息的视频摘要生成
滑蕊, 吴心筱, 赵文天
2021, 47(3): 650-657. doi: 10.13700/j.bh.1001-5965.2020.0447
摘要:

视频摘要任务旨在通过生成简短的视频片段来表示原视频的主要内容,针对现有方法缺乏对语义信息探索的问题,提出了一种融合语义信息的视频摘要生成模型,学习视频特征使其包含丰富的语义信息,进而同时生成描述原始视频内容的视频摘要和文本摘要。该模型分为3个模块:帧级分数加权模块、视觉-语义嵌入模块、视频文本描述生成模块。帧级分数加权模块结合卷积网络与全连接层以获取帧级重要性分数;视觉-语义嵌入模块将视觉特征与文本特征映射到同一空间,以使2种特征相互靠近;视频文本描述生成模块最小化视频摘要的生成描述与文本标注真值之间的距离,以生成带有语义信息的视频摘要。测试时,在获取视频摘要的同时,该模型获得简短的文本摘要作为副产品,可以帮助人们更直观地理解视频内容。在SumMe和TVSum数据集上的实验表明:该模型通过融合语义信息,比现有先进方法取得了更好的性能,在这2个数据集上F-score指标分别提高了0.5%和1.6%。

基于无监督学习的多模态可变形配准
马腾宇, 李孜, 刘日升, 樊鑫, 罗钟铉
2021, 47(3): 658-664. doi: 10.13700/j.bh.1001-5965.2020.0449
摘要:

针对医学图像配准问题,传统方法提出通过解决优化问题进行配准,但计算成本高、运行时间长。深度学习方法提出使用网络学习配准参数,从而进行配准并在单模态图像上取得高效性能。但在多模态图像配准时,不同模态图像的强度分布未知且复杂,大多已有方法严重依赖标签数据,现有方法不能完全解决此问题。提出一种基于无监督学习的深度多模态可变形图像配准框架。该框架由基于损失映射量的特征学习和基于最大后验概率的变形场学习组成,借助空间转换函数和可微分的互信息损失函数实现无监督训练。在MRI T1、MRI T2以及CT的3D多模态图像配准任务上,将所提方法与现有先进的多模态配准方法进行比较。此外,还在最新的COVID-19的CT数据上展示了所提方法的配准性能。大量结果表明:所提方法与其他方法相比,在配准精度上具有竞争优势,并且大大减少了计算时间。

一种结合全局和局部相似性的小样本分割方法
刘宇轩, 孟凡满, 李宏亮, 杨嘉莹, 吴庆波, 许林峰
2021, 47(3): 665-674. doi: 10.13700/j.bh.1001-5965.2020.0450
摘要:

针对小样本分割中如何提取支持图像和查询图像共性信息的问题,提出一种新的小样本分割模型,同时结合了全局相似性和局部相似性,实现了更具泛化能力的小样本分割。具体地,根据支持图像和查询图像全局特征和局部特征之间的相似性,提出了一种新型注意力谱生成器,进而实现查询图像的注意力谱生成和区域分割。所提注意力谱生成器包含2个级联模块:全局引导器和局部引导器。在全局引导器中,提出了一种新的基于指数函数的全局相似性度量,对查询图像特征和支持图像的全局特征进行关系建模,输出前景增强的查询图像特征。在局部引导器中,通过引入局部关系矩阵对支持图像特征和查询图像特征之间的局部相似性进行建模,得到与类别无关的注意力谱。在Pascal-5i数据集上做了大量的实验,在1-shot设定下mIoU达到了59.9%,5-shot设定下mIoU达到了61.9%,均优于现有方法。

常见问答