留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

2024年  第50卷  第2期

显示方式:
2024年, 第50卷, 第2期
icon下载 (49828) 772 icon预览
视觉SLAM方法综述
王朋, 郝伟龙, 倪翠, 张广渊, 巩慧
2024, 50(2): 359-367. doi: 10.13700/j.bh.1001-5965.2022.0376
摘要:

实时定位与建图(SLAM)技术搭载特定传感器,使移动机器人在无任何环境先验条件下,在运动过程中自主建立环境模型来计算自身位姿,大幅提高其自主导航能力,以及对不同应用环境的适应性。视觉SLAM方法以相机作为外部传感器,通过采集周围环境信息来创建地图并实时估计机器人自身位姿。为此,介绍了具有代表性的经典视觉SLAM方法及与深度学习相结合的视觉SLAM方法,分析了视觉SLAM方法中采用的不同特征检测方法、后端优化、闭环检测,以及动态环境下视觉SLAM方法的应用,总结了视觉SLAM方法的问题,并探讨了视觉SLAM方法在未来的热点研究方向和发展前景。

基于多模态联合语义感知的零样本目标检测
段立娟, 袁蓥, 王文健, 梁芳芳
2024, 50(2): 368-375. doi: 10.13700/j.bh.1001-5965.2022.0392
摘要:

零样本目标检测借助语义嵌入作为引导信息,将未见过的物体的视觉特征与类别语义嵌入映射到同一空间,根据其在映射空间的距离进行分类,但由于语义信息获取的单一性,视觉信息缺乏可靠表示,易混淆背景信息和未见过对象信息,使得视觉和语义之间很难无差别对齐。基于此,借助视觉上下文模块捕捉视觉特征的上下文信息,并通过语义优化模块对文本上下文和视觉上下文信息进行交互融合,增加视觉表达的多样化,使模型感知到前景的辨别性语义,从而有效地实现零样本目标检测。在MS-COCO的2个划分数据集上进行实验,在零样本目标检测和广义零样本目标检测的准确率和召回率上取得了提升,结果证明了所提方法的有效性。

基于顶点与主体区域同步检测的精准车牌定位
徐光柱, 刘高飞, 匡婉, 万秋波, 马国亮, 雷帮军
2024, 50(2): 376-387. doi: 10.13700/j.bh.1001-5965.2022.0396
摘要:

为应对非约束环境下的车牌精定位问题,提出一种基于顶点局部区域与主体区域同步检测策略的非约束性车牌定位算法。通过删减YOLOv5网络的输出结构,训练得到可同步检测车牌及顶点区域的车牌检测网络,在兼顾精度与计算速度的前提下,实现车牌顶点和主体区域的同步定位。针对一幅图中存在多个车牌区域及顶点区域存在少量漏检和误检的情况,分别设计了车牌顶点归类和单一缺失顶点预测后处理算法,借助顶点间的空间位置关系进行漏检目标预测和误检目标排查,有效改善了因场景复杂导致的个别顶点目标检测效果差的问题。所提算法在中国城市停车场数据集(CCPD)上的测试结果显示,平均精准率达99.25%,平均召回率达98.70%。所提算法不仅能够准确预测出车牌的4个顶点坐标,而且在中端GPU硬件平台上处理速度可达121帧/s,具有较好的应用价值。

基于EM自注意力残差的图像超分辨率重建网络
黄淑英, 胡瀚洋, 杨勇, 万伟国, 吴峥
2024, 50(2): 388-397. doi: 10.13700/j.bh.1001-5965.2022.0401
摘要:

基于深度学习的图像超分辨率(SR)重建方法主要通过增加模型的深度来提升图像重建的质量,但同时增加了模型的计算代价,很多网络利用注意力机制来提高特征提取能力,但难以充分学习到不同区域的特征。为此,提出一种基于期望最大化(EM)自注意力残差的图像超分辨率重建网络。该网络通过改进基础残差块,构建特征增强残差块,以更好地复用残差块中所提取的特征。为增加特征信息在空间上的相关性,引入EM自注意力机制,构建EM自注意力残差模块来增强模型中每个模块的特征提取能力,并通过级联EM自注意力残差模块来构建整个模型的特征提取结构。所获得的特征图通过上采样的图像重建模块获得重建的高分辨率图像。将所提方法与主流方法进行实验对比,结果表明:所提方法在5个流行的SR测试集上能够取得较好的主观视觉效果和更优的性能指标。

融合粗糙数据推理的离散麻雀搜索算法求解HFSP问题
周宁, 张嵩霖, 张晨
2024, 50(2): 398-408. doi: 10.13700/j.bh.1001-5965.2022.0424
摘要:

针对麻雀搜索算法(SSA)易陷入局部最优、无法求解离散优化问题等不足,提出了一种改进离散麻雀搜索算法(IDSSA)。抽象原始麻雀搜索算法的位置更新公式,针对个体的不同身份设计新的离散化启发式位置更新策略,并针对混合流水车间调度问题(HFSP)设计了编码与解码方式;引入粗糙数据推理理论,通过数学证明解释了引入理论的可行性与合理性,为算法提供理论支撑,提高可解释性;利用上近似的性质扩大搜索空间,提高种群多样性,避免算法早熟,结合划分及粗糙数据推理提出3种策略,促进种群间信息共享,调节种群的开发能力与探索能力,降低算法陷入局部最优的概率;使用改进离散麻雀搜索算法求解混合流水车间调度问题,对3个小规模实例与10个Liao经典测试集进行仿真实验,验证了改进离散麻雀搜索算法求解混合流水车间调度问题的可行性,通过与遗传算法、差分进化算法等经典算法的对比实验,证明了所提算法的优越性与改进策略的有效性。

面向语法加权图文本的方面情感三元组抽取
韩虎, 孟甜甜
2024, 50(2): 409-418. doi: 10.13700/j.bh.1001-5965.2022.0443
摘要:

方面情感三元组抽取包括方面抽取、意见抽取和方面情感分类3项任务,以管道方式解决该任务的研究方法无法利用元素之间的交互信息,同时也会造成错误传播和冗余训练。基于此,提出一种基于门控注意力和加权图文本的方面情感三元组抽取方法。采用双向长短时记忆网络学习句子的序列特征表示;利用门控注意力单元学习单词之间的线性联系;利用语法距离加权图卷积网络增强三元组元素之间的交互;利用网格标记推理策略预测三元组。在4个公开数据集上进行实验,结果表明:所提方法可以有效增强三元组元素之间的交互,提高三元组抽取的准确率;同时,所提方法的F1值分别为57.94%、70.54%、61.95%和67.66%,与基准模型相比均有所提高。

结合空间注意力机制的实时鲁棒视觉跟踪
马素刚, 张子贤, 蒲磊, 侯志强
2024, 50(2): 419-432. doi: 10.13700/j.bh.1001-5965.2022.0329
摘要:

为提高全卷积孪生网络(SiamFC)跟踪器在复杂场景下的跟踪能力,缓解跟踪器在跟踪过程中出现的目标漂移问题,提出一种结合空间注意力机制的实时目标跟踪算法。在SiamFC框架基础上,将改进的视觉几何组(VGG)网络作为主干网络,增强跟踪器对于目标深度特征的建模能力。对自注意力机制进行优化,提出一种即插即用的轻量级单卷积注意力模块(SCAM),将空间注意力分解为2个并行的一维特征编码过程,减少空间注意力的计算复杂度。保留跟踪过程中的初始目标模板作为第1模板,通过分析连通域在跟踪结果响应图的变化动态选择第2模板,融合2个模板后对目标进行定位。实验结果表明:在OTB100、LaSOT和UAV123数据集上,所提算法相比于SiamFC跟踪成功率分别提高了0.082、0.045和0.045,跟踪精度分别提高了0.118、0.051和0.062;在VOT2018数据集上,所提算法相比于SiamFC在跟踪准确率、鲁棒性和期望平均重叠率上分别提高了0.029、0.276和0.134;跟踪速度达到了70帧/s,能够满足实时跟踪的需求。

基于跨模态近邻损失的可视-红外行人重识别
赵三元, 阿琪, 高宇
2024, 50(2): 433-441. doi: 10.13700/j.bh.1001-5965.2022.0422
摘要:

可视-红外跨模态行人重识别任务的目标是给定一个模态的特定人员图像,在其他不同模态摄像机所拍摄的图像集中进行检索,找出相同人员对应的图像。由于成像方式不同,不同模态的图像之间存在明显的模态差异。为此,从度量学习的角度出发,对损失函数进行改进以获取具有更加辨别性的信息。对图像特征内聚性进行理论分析,并在此基础上提出一种基于内聚性分析和跨模态近邻损失函数的重识别方法,以加强不同模态样本的内聚性。将跨模态困难样本的相似性度量问题转化为跨模态最近邻样本对和同模态样本对的相似性度量,使得网络对模态内聚性的优化更加高效和稳定。对所提方法在全局特征表示的基线网络和部分特征表示的基线网络上进行实验验证结果表明:所提方法对可视-红外行人重识别的预测结果相较于基线方法,平均准确度最高可提升8.44%,证明了方法在不同网络架构中的通用性;同时,以较小的模型复杂度和较低的计算量为代价,实现了可靠的跨模态行人重识别结果。

基于Transformer的深度条件视频压缩
鲁国, 钟天雄, 耿晶
2024, 50(2): 442-448. doi: 10.13700/j.bh.1001-5965.2022.0374
摘要:

近年来,基于深度学习的视频压缩技术主要基于卷积神经网络(CNN)且采用运动补偿-残差编码的架构,由于常见的CNN只能利用局部的相关性,以及预测残差本身的稀疏特性,难以取得最优压缩性能。因此,提出一种基于Transformer架构的条件视频压缩算法,以实现更优的压缩效果。所提算法基于前后帧之间的运动信息,利用可形变卷积得到对应的预测帧特征;将预测帧特征作为条件信息,对原始输入帧特征进行条件编码,避免了直接编码稀疏的残差信号;利用特征间的非局部相关性,提出一个基于Transformer的深度条件视频压缩编码算法,用来实现运动信息编码和条件编码,进一步提升压缩编码的性能。实验结果表明:所提算法在HEVC、UVG数据集上均超越了当前主流的基于深度学习的视频压缩算法。

基于优化布拉格结构的固态装配型谐振器
张世峰, 轩伟鹏, 石林豪, 董树荣, 浦世亮
2024, 50(2): 449-455. doi: 10.13700/j.bh.1001-5965.2022.0436
摘要:

体声波谐振器的有效耦合系数和品质因数决定了体声波滤波器的整体性能。有效耦合系数依赖于叠层结构和压电材料。而品质因数高度依赖于损耗机制,主要为电学损耗和声学损耗。对于固态装配型谐振器(SMR),声学损耗主要为透过衬底的能量泄漏。为提高SMR的品质因数,改进了布拉格堆叠结构,使纵波和剪切波同时被约束在压电堆叠结构中,以减少声能对衬底的泄漏。同时,为抑制谐振腔的杂散模式,优化了布拉格结构顶层薄膜厚度,器件色散特性由Ⅱ型变为Ⅰ型。通过仿真和实验表明:基于优化布拉格结构的SMR性能得到了明显改善。

基于差异化和空间约束的自动图像描述模型
姜文晖, 陈志亮, 程一波, 方玉明, 左一帆
2024, 50(2): 456-465. doi: 10.13700/j.bh.1001-5965.2022.0400
摘要:

多头注意力机制是图像描述模型的常用方法,该机制通过多分支结构构建关于输入特征的独特属性,以提高特征模型的区分性。然而,不同分支的独立性导致建模存在冗余性。同时,注意力机制会关注于不重要的图像区域,导致描述的文本不够准确。针对上述问题,提出一种损失函数作为训练目标的正则化项,以提高多头注意力机制的多样性和准确性。在多样性方面,提出一种多头注意力的差异化正则,鼓励多头注意力机制的不同分支关注于所描述目标的不同部件,使不同分支的建模目标变得简单。同时,不同分支相互融合,最后形成完整且更有区分性的视觉描述。在准确性方面,设计一种空间一致性正则。通过建模多头注意力机制的空间关联,鼓励注意力机制关注的图像区域尽可能集中,从而抑制背景区域的影响,提高注意力机制的准确性。提出差异化正则和空间一致性正则共同作用的方法,最终提升自动图像描述模型的准确性。所提方法在MS COCO数据集上对模型进行验证,并与多种代表性工作进行对比。实验结果表明:所提方法显著地提高了图像描述的准确性。

融合卷积注意力和Transformer架构的行人重识别方法
王静, 李沛橦, 赵容锋, 张云, 马振玲
2024, 50(2): 466-476. doi: 10.13700/j.bh.1001-5965.2022.0456
摘要:

行人重识别技术是智能安防系统中的重要方法之一,为构建一个适用各种复杂场景的行人重识别模型,基于现有的卷积神经网络和Transformer模型,提出一种融合卷积注意力和Transformer(FCAT)架构的方法,以增强Transformer对局部细节信息的关注。所提方法主要将卷积空间注意力和通道注意力嵌入Transformer架构中,分别加强对图像中重要区域的关注和对重要通道特征的关注,以进一步提高Transformer架构对局部细节特征的提取能力。在3个公开行人重识别数据集上的对比消融实验证明,所提方法在非遮挡数据集上取得了与现有方法相当的结果,在遮挡数据集上的性能得到显著提升。所提方法更加轻量化,在不增加额外计算量和模型参数的情况下,推理速度得到了提升。

周期规律增强的多视角短期电力负荷预测
苏伟, 肖小龙, 史明明, 方鑫, 司鑫尧
2024, 50(2): 477-486. doi: 10.13700/j.bh.1001-5965.2022.0399
摘要:

短期电力负荷预测对电力系统的可靠运行具有重要意义。现有方法存在如下问题:缺乏对特征之间依赖关系的挖掘;忽略了电力负荷变化的周期性规律。为此,提出一种周期规律增强的多视角短期电力负荷预测网络(EPISODE)方法。EPISODE方法主要包括2个核心组件:多视角特征学习组件和周期规律增强的电力负荷预测组件。前者旨在有效提取电力负荷数据中的静态特征与时序特征,以得到增强的特征表示;后者则是对电力负荷数据进行一般性时序挖掘和周期性时序挖掘,从而得到全面的电力负荷历史数据表征。基于后期融合的方式,实现短期电力负荷预测。在真实公开的电力负荷预测数据集上进行了大量实验。实验结果证明了所提方法相比现有基准方法的先进性。

基于深度强化学习的办公流程任务分配优化
廖晨阳, 于劲松, 乐祥立
2024, 50(2): 487-498. doi: 10.13700/j.bh.1001-5965.2022.0290
摘要:

在办公平台中存在异构流程任务大量并行的情况,不仅需要任务执行者具有较强的能力,也对协同调度系统的性能提出了要求。采用强化学习(RL)算法,结合协作配合度、松弛度等定量分析,并基于马尔可夫博弈理论提出多智能体博弈模型,实现以总体流程配合度和最大完工时间为优化目标的优化调度系统,提高了总体执行效率。以真实的业务系统流程作为实验场景,在相同的优化目标下,对比D3QN等3种深度强化学习(DRL)算法和基于蚁群的元启发式算法,验证了所提方法的有效性。

改进YOLOv5s的弱光水下生物目标检测算法
陈宇梁, 董绍江, 孙世政, 闫凯波
2024, 50(2): 499-507. doi: 10.13700/j.bh.1001-5965.2022.0322
摘要:

针对水下光学图像目标检测过程中由于水中光线衰弱严重、图像环境复杂和拍摄设备移动等造成的生物识别精度低的问题,提出了基于改进YOLOv5s的弱光水下生物目标实时检测算法YOLOv5s-underwater。针对弱光水下光线衰弱的问题,引入了限制对比度自适应直方图均衡(CLAHE)算法对输入图像进行预处理,解决了颜色失真和图像毛糙的问题。针对复杂的弱光水下图像环境,提出了快速空间金字塔池化(SPPF)模块,解决了水下物体区分度低和特征损失严重的问题。针对拍摄设备移动带来的场景和形态变化问题,提出了一种基于旋转窗口的Swin-Transformer模块,提高了模型的泛化能力。针对水下小目标,修改了网络模型结构,提高了小目标的检测能力。仿真和实验结果表明:所提算法相较于YOLOv5s检测精度提高30.7%,证明了算法的有效性。

基于K-means聚类的多种群麻雀搜索算法
闫少强, 刘卫东, 杨萍, 吴丰轩, 阎哲
2024, 50(2): 508-518. doi: 10.13700/j.bh.1001-5965.2022.0328
摘要:

为改善麻雀搜索算法(SSA)在单种群搜索中收敛速度过快导致其收敛速度出现冗余,易忽略优质解而陷入局部最优的缺陷,提出一种基于K-means聚类的多种群麻雀搜索算法(KSSA)。将多种群机制引入SSA,减弱单种群的收敛能力,并减小陷入局部最优的概率;采用K-means聚类划分子种群,增加子种群间的差异性,同时使子种群内个体在小范围内专注搜索,提升前期搜索效率;借助加权重心交流策略改善种群间交流的质量,减少自身种群的干扰,同时消减因某一子种群陷入局部最优而导致所有子种群陷入局部最优的风险;引入动态反向学习到警戒者中,增强其反捕食行为,改善因子种群数量增加而带来的收敛速度变慢和收敛精度不足的缺陷。经测试函数仿真实验表明:较SSA等算法,KSSA具有更优的寻优性能。

基于通信连通保持约束的多智能体覆盖控制
张蕴霖, 麻壮壮, 石磊, 邵晋梁
2024, 50(2): 519-528. doi: 10.13700/j.bh.1001-5965.2022.0340
摘要:

覆盖控制会根据环境信息,尽量分散智能体以达到较好的空间覆盖效果,实现对于任务区域的最优监视。在这一过程中,智能体之间的协同依赖于连通的通信网络。受限于智能体在复杂电磁环境下有限的通信范围,覆盖控制中的分散行为可能造成通信网络的中断,导致任务失败。因此,将通信网络连通作为约束,基于梯度下降方法,提出了有界的分布式控制律,以保证在覆盖代价函数下降的同时,网络连通度不小于设定阈值。为减少通信连通保持对于覆盖效果的影响,提出了一种基于关键智能体辨识的分段控制方法。通过动态分配覆盖和通信连通保持的控制增益,以减少因二者运动趋势相反而产生的控制震荡和冗余。针对陷入局部最优的死锁现象,提出一种死锁消除控制,以及时消除死锁,提升覆盖性能。基于高频结构仿真(HFSS)软件生成的信号场的覆盖仿真实验表明了控制律的有效性。

基于变形图匹配的知识图谱多跳问答
李香粤, 方全, 胡骏, 钱胜胜, 徐常胜
2024, 50(2): 529-534. doi: 10.13700/j.bh.1001-5965.2022.0375
摘要:

知识图谱问答(KGQA)是给定自然语言问题,对问题进行语义理解和解析,进而利用知识图谱进行查询、推理得出答案的过程。但知识图谱通常是不完整的,链接缺失给多跳问答带来许多挑战。许多方法在利用知识图谱嵌入时忽略了重要的路径信息来评估路径和多关系问题之间的相关性;且使用文本语料库也会限制文本增强模型的可扩展性。针对这些现有方法的缺陷,提出了基于变形图匹配的知识图谱问答(DGM-KGQA)模型,该模型同时利用问题和主题实体构建语义子图,与知识图谱的局部结构匹配并找到正确答案。在基准数据集MetaQA上的实验结果验证了DGM-KGQA的有效性,该模型在完整知识图谱上检索到的答案准确率分别比PullNet、EmbedKGQA增加了4.2%、0.8%;在完整度仅有一半的知识图谱上检索到的答案准确率分别比PullNet、EmbedKGQA增加了11.1%、0.5%。实验证明提出的变形图匹配模型能够有效地增强知识图谱的关联性及多跳问答的答案准确率。

基于Dijkstra算法的平滑路径规划方法
巩慧, 倪翠, 王朋, 程诺
2024, 50(2): 535-541. doi: 10.13700/j.bh.1001-5965.2022.0377
摘要:

移动机器人在复杂环境下沿Dijkstra算法规划的路径运动时,由于所规划的路径存在转折点多、部分转折角度小等问题,导致移动机器人不得不频繁转向,甚至要暂停才能完成转向,严重影响机器人的工作效率。利用几何拓扑学方法,结合实际场景信息,提出一种基于Dijkstra算法的平滑路径规划方法。根据应用场景获取连续化地图,将连续化地图离散化后随机生成离散点阵,计算各点之间的欧氏距离,选取与各离散点距离较近、且连线不跨越障碍的多个点,将其连接并生成离散图。在离散图中利用Dijkstra算法搜索最优路径作为引导路径。当移动机器人沿引导路径运动时,结合实际场景信息,采用几何拓扑学计算出移动机器人每一时刻应该采取的最佳动作和运行路线。实验结果表明:所提方法能够有效减少移动机器人运动中的累计转弯角度,增大最小平均转折角度,提高所规划路径的平滑度,从而缩短移动机器人的运动时间,提升机器人的工作效率。

语言引导的多粒度特征融合目标分割方法
谭荃戈, 王蓉, 吴澳
2024, 50(2): 542-550. doi: 10.13700/j.bh.1001-5965.2022.0384
摘要:

语言引导的目标分割旨在将文本描述的目标与其所指代的实体进行匹配,从而实现对文本、实体之间关系的理解与指代目标的定位。该任务在信息抽取、文本分类、机器翻译等应用场景中具有重要的应用价值。基于Refvos模型提出一种语言引导的多粒度特征融合目标分割方法,能够对特定目标精准定位。利用Swin Transformer和Bert网络,分别提取多粒度的视觉特征和文本特征,提高对整体与细节的表征能力;将文本特征分别与不同粒度视觉特征进行融合,通过语言引导增强特定目标表达;通过卷积长短期记忆网络对多粒度融合特征进行优化,在不同粒度特征间进行信息交流,得到更精细化的分割结果。在UNC、UNC+、G-Ref、ReferIt数据集上进行训练并测试所提方法。实验结果表明:相比Refvos,所提方法在UNC数据集的val、testB子集中IoU结果分别提升0.92%、4.1%,在UNC+数据集的val、testA、testB子集中IoU结果分别提升1.83%、0.63%、1.75%。所提方法在G-Ref、ReferIt数据集的IoU结果分别为40.16%和64.37%,达到前沿水平,证明所提方法的有效性与先进性。

基于多级语义对齐的图像-文本匹配算法
李艺茹, 姚涛, 张林梁, 孙玉娟, 付海燕
2024, 50(2): 551-558. doi: 10.13700/j.bh.1001-5965.2022.0385
摘要:

图像中的区域特征更关注于图像中的前景信息,背景信息往往被忽略,如何有效的联合局部特征和全局特征还没有得到充分地研究。为解决上述问题,加强全局概念和局部概念之间的关联得到更准确的视觉特征,提出一种基于多级语义对齐的图像-文本匹配算法。提取局部图像特征,得到图像中的细粒度信息;提取全局图像特征,将环境信息引入到网络的学习中,从而得到不同的视觉关系层次,为联合的视觉特征提供更多的信息;将全局-局部图像特征进行联合,将联合后的视觉特征和文本特征进行全局-局部对齐得到更加精准的相似度表示。通过大量的实验和分析表明:所提算法在2个公共数据集上具有有效性。

基于多级联合的图池化方法
董晓龙, 黄俊, 秦锋, 洪旭东
2024, 50(2): 559-568. doi: 10.13700/j.bh.1001-5965.2022.0386
摘要:

图池化方法已经在生物信息学、化学、社交网络、推荐系统等多个领域中得到广泛应用,但关于图池化方法大多没有很好的解决节点选择问题和池化带来的节点信息丢失问题。对此提出一种新的多级联合图池化(MUPool)方法。所提方法使用多视角模块从多个视角获取节点的特征,即通过多个卷积模块提取不同的特征。同时提出多级联合模块(级联),将不同池化层的输出串联,每一层都可以融合以往所有层的信息。提出使用后端融合模块,针对每个池化层建立一个分类器,对预测结果进行融合得到最终分类结果。所提方法在多个数据集上进行实验,准确度平均提高1.62%,所提方法可以与现有的分层池化方法相结合,结合后的方法准确度平均提高2.45%。

联合方面注意力交互的图文方面类情感识别
赵一成, 王素格, 廖健, 何东欢
2024, 50(2): 569-578. doi: 10.13700/j.bh.1001-5965.2022.0387
摘要:

随着多媒体的快速发展,单纯采用文本的方面类情感分析,不能准确识别用户所表达的情感。而现有图文数据的方面类情感分析方法仅考虑图文模态间的交互,忽略图文数据的不一致性和相关性。因此,提出联合方面注意力交互网络(JAAIN)模型的图文方面类情感识别方法。所提方法针对图文数据的不一致性与相关性,通过多层次融合方面信息和图文信息,去除与给定方面无关的文本和图像,增强给定方面的图文模态数据的情感表示,将文本数据情感表示、图像数据情感表示及方面类情感表示进行拼接融合与全连接,实现图文方面类情感判别。在数据集Multi-ZOL上进行实验,实验结果表明:所提模型能够提升图文方面类情感判别的性能。

基于多模态掩码Transformer网络的社会事件分类
陈宏, 钱胜胜, 李章明, 方全, 徐常胜
2024, 50(2): 579-587. doi: 10.13700/j.bh.1001-5965.2022.0388
摘要:

多模态社会事件分类的关键是充分且准确地利用图像和文字2种模态的特征。然而,现有的大多数方法存在以下局限性:简单地将事件的图像特征和文本特征连接起来,不同模态之间存在不相关的上下文信息导致相互干扰。因此,仅仅考虑多模态数据模态间的关系是不够的,还要考虑模态之间不相关的上下文信息(即区域或单词)。为克服这些局限性,提出一种新颖的基于多模态掩码Transformer网络(MMTN)模型的社会事件分类方法。通过图-文编码网络来学习文本和图像的更好的表示。将获得的图像和文本表示输入多模态掩码Transformer网络来融合多模态信息,并通过计算多模态信息之间的相似性,对多模态信息的模态间的关系进行建模,掩盖模态之间的不相关上下文。在2个基准数据集上的大量实验表明:所提模型达到了最先进的性能。

区域感知实时人像超分辨率重建网络
龚柯存, 周梦琳, 唐东明
2024, 50(2): 588-595. doi: 10.13700/j.bh.1001-5965.2022.0394
摘要:

在人像超分辨率重建领域,传统方法通常将整幅图像进行统一处理,导致效率低下。为降低模型的推理时延,提出了一种实时超分辨率重建模型RASR。该模型利用门控单元处理低分辨率图像,识别出人像边缘区域;采用分区重建策略,使用不同尺寸的子模型分别针对包含或不包含人像边缘的区域进行重建。实验结果表明:与现有方法相比,RASR模型在4倍上采样重建场景下的推理时延降低了88%,能够更有效地重建高分辨率人像图像。

基于多模态双向信息增强的RGBT跟踪网络
赵伟, 刘磊, 王鲲鹏, 涂铮铮, 罗斌
2024, 50(2): 596-605. doi: 10.13700/j.bh.1001-5965.2022.0395
摘要:

可见光-热红外(RGBT)目标跟踪旨在挖掘可见光和热红外数据的互补优势,实现鲁棒的目标跟踪。目前主流方法通常引入模态权重来实现多模态信息融合,但简单地为各个模态分配权重无法充分挖掘可见光和热红外模态的互补优势。基于此,提出了一种多模态双向信息增强的RGBT跟踪网络(MBIENet)。设计了一种特征聚合模块,用于聚合模态共享特征和模态特定特征以建模目标外观信息;提出了一种新的多模态双向调制融合模块,可有效融合模态互补信息,减少冗余特征和无用特征对跟踪器的影响;提出了一个轻量化的通道空间注意力模块,可自适应调整不同环境下不同模态的贡献。在GTOT、RGBT234和LasHeR数据集上的实验结果表明:所提跟踪算法的准确率和成功率优于当前主流的跟踪算法。

基于Transformer和动态3D卷积的多源遥感图像分类
高峰, 孟德森, 解正源, 亓林, 董军宇
2024, 50(2): 606-614. doi: 10.13700/j.bh.1001-5965.2022.0397
摘要:

多源遥感数据具有互补性和协同性,近年来,基于深度学习的方法已经在多源遥感图像分类中取得了一定进展,但当前方法仍面临关键难题,如多源遥感图像特征表达不一致,融合困难,基于静态推理范式的神经网络缺乏对不同类别地物的适应性。为解决上述问题,提出了基于跨模态Transformer和多尺度动态3D卷积的多源遥感图像分类模型。为提高多源特征表达的一致性,设计了基于Transformer的融合模块,借助其强大的注意力建模能力挖掘高光谱和LiDAR数据特征之间的相互作用;为提高特征提取方法对不同地物类别的适应性,设计了多尺度动态3D卷积模块,将输入特征的多尺度信息融入卷积核的调制,提高卷积操作对不同地物的适应性。采用多源遥感数据集Houston和Trento对所提方法进行验证,实验结果表明:所提方法在Houston和Trento数据集上总体准确率分别达到94.60%和98.21%,相比MGA-MFN等主流方法,总体准确率分别至少提升0.97%和0.25%,验证了所提方法可有效提升多源遥感图像分类的准确率。

自注意力相似度迁移跨模态哈希网络
梁焕, 王海荣, 王栋
2024, 50(2): 615-622. doi: 10.13700/j.bh.1001-5965.2022.0402
摘要:

为进一步提升跨模态检索性能,提出自注意力相似度迁移跨模态哈希网络模型。设计了一种通道空间混合自注意力机制强化关注图像的关键信息,并使用共同注意力方法加强模态信息交互,提高特征学习质量;为在哈希空间重构相似关系,采用迁移学习的方法利用实值空间相似度引导哈希码的生成。在3个常用的数据集MIRFLICKR-25K、IAPR TC-12和MSCOCO上与深度跨模态哈希(DCMH)、成对关系引导的深度哈希(PRDH)、跨模态汉明哈希(CMHH)等优秀方法进行对比实验,结果显示哈希码长度为64 bit的条件下,所提模型在3个数据集图像检索文本任务的平均精确度均值(MAP)达到72.3%,文本检索图像任务的MAP达到70%,高于对比方法。

多输入傅里叶神经网络及其麻雀搜索优化
黎亮亮, 张著洪, 张永丹
2024, 50(2): 623-633. doi: 10.13700/j.bh.1001-5965.2022.0404
摘要:

鉴于反向传播(BP)神经网络存在灵敏度高但收敛速度慢,以及已有傅里叶神经网络不具备多输入数据特征提取能力,借助多个傅里叶神经网络构建能接收多维数据的堆叠神经网络,进而将其与多层感知器融合,获得基于梯度下降的多输入傅里叶神经网络。结合此神经网络获取全局最优参数值难的因素,通过在麻雀搜索算法中引入Cat混沌映射、动态种群规模调节机制及参数自适应调节方案,提出改进型麻雀搜索算法,并将其应用于多输入傅里叶神经网络的参数优化及高维函数优化问题的求解。理论分析可得,所提算法的计算复杂度主要由种群规模和优化问题的维度决定。比较性的数值实验表明,所获神经网络提取多源数据特征的能力和泛化能力强,同时所提算法处理高维优化问题具有明显优势且收敛速度快。

基于Transformer的点云几何有损压缩方法
刘舸昕, 章骏腾, 丁丹丹
2024, 50(2): 634-642. doi: 10.13700/j.bh.1001-5965.2022.0412
摘要:

点云被广泛地用于三维物体表达,不过真实世界采集到的点云往往数据庞大,不利于传输与储存,针对点云数据冗余性问题,引入基于注意力机制的Transformer模块,提出一种基于Transformer的端到端多尺度点云几何压缩方法。将点云进行体素化,在编码端利用稀疏卷积提取特征,进行多尺度的逐步下采样,结合Transformer模块加强点空间特征感知与提取;在解码端进行对应的多尺度上采样重建,同样采用Transformer模块对有用特征进行加强与恢复,逐步细化并重建点云。与2种点云标准编码方法对比,所提方法平均获得80%和75%的BD-Rate增益;与基于深度学习的点云压缩方法对比,平均获得16%的BD-Rate增益,在相同码率点有约0.6的PSNR提升。实验结果表明:Transformer在点云压缩领域的可行性与有效性;在主观质量方面,所提方法也有明显的主观效果提升,重建的点云更接近原始点云。

膜内麻雀优化ELM的软件缺陷预测算法
唐宇, 代琪, 杨梦园, 陈丽芳
2024, 50(2): 643-654. doi: 10.13700/j.bh.1001-5965.2022.0438
摘要:

原始麻雀搜索算法存在寻优精度低、迭代后期容易陷入局部极值的问题,结合高效寻优性能的改进麻雀搜索算法和具有并行计算能力的膜计算,提出一种膜内麻雀优化算法( IMSSA)。在10个CEC2017测试函数上的实验结果表明,IMSSA具有更高的寻优精度。为进一步验证IMSSA的性能,使用IMSSA优化极限学习机(ELM)参数,提出一种膜内麻雀优化ELM(IMSSA-ELM)算法,并将其应用于软件缺陷预测领域。实验结果表明:在15个公开的软件缺陷数据集中,IMSSA-ELM算法预测性能在G-mean、MCC这2个评价指标下明显优于其他4种先进的对比算法,表明IMSSA-ELM算法具有更好的预测精度和稳定性,其实验结果在Friedman ranking和Holm’s post-hoc test非参数检验中具有明显的统计显著性。

基于注意力机制与条件卷积的行人重识别方法
姬广凯, 王蓉, 彭舒凡
2024, 50(2): 655-662. doi: 10.13700/j.bh.1001-5965.2022.0454
摘要:

行人重识别是计算机视觉领域的一个重要部分,但是容易受到行人图片实际采集环境的影响,导致行人特征表达不充分,进一步导致模型精度不高。提出一种基于注意力机制和条件卷积改进的行人重识别方法,使行人特征得到更充分的表达。将注意力机制引入特征提取网络ResNet50中,对输入图像空间和通道上的关键信息进行加权强化,同时抑制可能的噪声;将条件卷积模块引入主干网络,动态调整卷积核参数,使模型能够在保持高效推理的同时提高容量和性能;利用 Market1501、MSMT17和DukeMTMC-ReID主流数据集对改进方法进行评估,Rank1分别提升1.1%、2.4%、1.3%,mAP分别提升0.5%、2.3%、1.3%,结果表明:改进方法能够使行人特征得到更好的表达,识别精度得到提升。

基于损失平滑的对抗样本攻击方法
黎妹红, 金双, 杜晔
2024, 50(2): 663-670. doi: 10.13700/j.bh.1001-5965.2022.0478
摘要:

深度神经网络(DNNs)容易受到对抗样本的攻击,现有基于动量的对抗样本生成方法虽然可以达到接近100%的白盒攻击成功率,但是在攻击其他模型时效果仍不理想,黑盒攻击成功率较低。针对此,提出一种基于损失平滑的对抗样本攻击方法来提高对抗样本的可迁移性。在每一步计算梯度的迭代过程中,不直接使用当前梯度,而是使用局部平均梯度来累积动量,以此来抑制损失函数曲面存在的局部振荡现象,从而稳定更新方向,逃离局部极值点。在ImageNet数据集上的大量实验结果表明:所提方法与现有基于动量的方法相比,在单个模型攻击实验中的平均黑盒攻击成功率分别提升了38.07%和27.77%,在集成模型攻击实验中的平均黑盒攻击成功率分别提升了32.50%和28.63%。

基于布局化-语义联合表征遥感图文检索方法
张若愚, 聂婕, 宋宁, 郑程予, 魏志强
2024, 50(2): 671-683. doi: 10.13700/j.bh.1001-5965.2022.0527
摘要:

遥感图文检索可以从类别繁多、内容复杂的遥感数据中检索到有价值的信息,对环境评估、城市规划以及灾害预测具有重要意义。但是,遥感图文跨模态检索存在一个关键问题,即遥感图像的空间布局信息被忽略。其主要体现在2个方面:①遥感目标的远距离建模困难;②遥感相邻次要目标被淹没。基于以上问题,提出了一种基于布局化-语义联合表征的跨模态遥感图像文本检索(SL-SJR),主要包括主导语义监督的布局化视觉特征提取(DSSL)模块、布局化视觉-全局语义交叉指导(LV-GSCG)模块和多视角匹配(MVM)模块。DSSL模块实现主导语义类别特征监督下图像的布局化建模。LV-GSCG模块计算布局化视觉特征与文本中提取的全局语义特征的相似度来实现不同模态特征的交互。MVM模块建立跨模态特征指导的多视角度量匹配机制以消除跨模态数据之间的语义鸿沟。在4个基线遥感图像文本数据集上的实验验证,结果表明所提方法在大多数跨模态遥感图像文本检索任务中可以达到最先进的性能。

图文数据的多级关系分析与挖掘方法
郭瑞萍, 王海荣, 王栋
2024, 50(2): 684-694. doi: 10.13700/j.bh.1001-5965.2022.0599
摘要:

如何高效挖掘多模态数据间隐藏的语义关联是当前多模态知识抽取的重点任务之一,为更细粒度地挖掘图像与文本数据间关系,提出了一种多级关系分析与挖掘(MRAM)方法,引入BERT-Large模型,提取文本特征构建文本连接图,利用Faster-RCNN网络提取图像特征来学习空间位置关系和语义关系并构建图像连接图,进而完成单模态内部语义关系计算,在此基础上,使用节点切分方法和带多头注意力机制的图卷积网络(GCN-MA)进行局部和全局的图文关系融合。此外,为提升关系挖掘效率,采用了基于注意力机制的连边权重剪枝策略,用以增强重要分支表示,减少冗余信息干扰。在公开的Flickr30K、MSCOCO-1K、MSCOCO-5K数据集上进行方法实验,并与11种方法进行实验结果的对比分析,所提方法在Flickr30K上的平均召回率提高了0.97%和0.57%,在MSCOCO-1K上的平均召回率提高了0.93%和0.63%,在MSCOCO-5K上的平均召回率提高了0.37%和0.93%,实验结果验证了所提方法的有效性。

常见问答