留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

2019年  第45卷  第12期

显示方式:
2019年, 第45卷, 第12期
icon下载 (14894) 175
论文
基于生成对抗网络的零样本图像分类
魏宏喜, 张越
2019, 45(12): 2345-2350. doi: 10.13700/j.bh.1001-5965.2019.0363
摘要:

在图像分类任务中,零样本图像分类问题已成为一个研究热点。为了解决零样本图像分类问题,采用一种基于生成对抗网络(GAN)的方法,通过生成未知类的图像特征使得零样本分类任务转换为传统的图像分类任务。同时对生成对抗网络中的判别网络做出改进,使其判别过程更加准确,从而进一步提高生成图像特征的质量。实验结果表明:所提方法在AWA、CUB和SUN数据集上的分类准确率分别提高了0.4%、0.4%和0.5%。因此,所提方法通过改进生成对抗网络,能够生成质量更好的图像特征,从而有效解决零样本图像分类问题。

基于自适应注入模型的遥感图像融合方法
杨勇, 卢航远, 黄淑英, 涂伟, 李露奕
2019, 45(12): 2351-2363. doi: 10.13700/j.bh.1001-5965.2019.0372
摘要:

遥感图像融合的目的是融合高光谱分辨率、低空间分辨率的多光谱(MS)图像和高空间分辨率、低光谱分辨率的全色(PAN)图像,得到高光谱分辨率与高空间分辨率的融合图像。遥感图像的注入模型中如何确定注入细节及注入系数是该技术研究的关键。针对注入细节优化,先通过模拟MS传感器的特性来定义一种多尺度高斯滤波器,再用该滤波器卷积PAN图像以提取细节,得到与MS图像高度相关的细节。针对注入系数优化,综合考虑光谱信息与细节信息提出一种自适应的注入量系数。为更好地保留边缘信息,提出一种新的边缘保持权重矩阵,实现光谱信息与空间的双保真。将优化后的注入系数与注入细节相乘注入到上采样后的MS图像中,得到融合结果。对所提方法进行性能分析,并在各卫星数据集上进行大量测试,与一些先进的遥感图像融合方法进行对比,实验结果表明,所提方法在主观与综合客观指标上都能达到最优。

基于DCNN和全连接CRF的舌图像分割算法
张新峰, 郭宇桐, 蔡轶珩, 孙萌
2019, 45(12): 2364-2374. doi: 10.13700/j.bh.1001-5965.2019.0370
摘要:

针对中医舌诊中舌体分割不准确、分割速度较慢且需要人工标定候选区域等问题,提出了一种端到端的舌图像分割算法。与传统舌图像分割算法相比,所提算法可以得到更为准确的分割结果,并且不需要人工操作。首先,使用孔卷积算法,可以在不增加参数的条件下扩大网络的特征图谱。其次,使用孔卷积空间金字塔池化(ASPP)模块,令网络通过不同的感受野学习舌图像的多尺度特征。最后,将深度卷积神经网络(DCNN)和全连接的条件随机场(CRF)相结合,细化分割后的舌体边缘。实验结果表明:所提算法优于传统舌图像分割算法和主流的深度卷积神经网络,具有较高的分割精度,平均交并比达到了95.41%。

基于多源图像弱监督学习的3D人体姿态估计
蔡轶珩, 王雪艳, 胡绍斌, 刘嘉琦
2019, 45(12): 2375-2384. doi: 10.13700/j.bh.1001-5965.2019.0387
摘要:

3D人体姿态估计是计算机视觉领域一大研究热点,针对深度图像缺乏深度标签,以及因姿态单一造成的模型泛化能力不高的问题,创新性地提出了基于多源图像弱监督学习的3D人体姿态估计方法。首先,利用多源图像融合训练的方法,提高模型的泛化能力;然后,提出弱监督学习方法解决标签不足的问题;最后,为了提高姿态估计的效果,改进了残差模块的设计。实验结果表明:改善的网络结构在训练时间下降约28%的情况下,准确率提高0.2%,并且所提方法不管是在深度图像还是彩色图像上,均达到了较好的估计结果。

QoE驱动的VR视频自适应采集与传输
黎洁, 冯燃生, 杨阳朝, 孙伟, 李奇越
2019, 45(12): 2385-2392. doi: 10.13700/j.bh.1001-5965.2019.0364
摘要:

在虚拟现实(VR)视频流媒体传输中,如何在带宽受限的条件下提高用户的质量体验(QoE)是一项巨大的挑战。为了更好地提高资源利用率和用户的QoE,提出了一个面向多用户的QoE驱动上下行链路联合的VR视频流媒体自适应采集与传输系统。与传统的VR视频无线传输系统不同的是,所提系统考虑了上行传输部分。其中,视频服务器根据上行链路和下行链路的带宽信息、用户的实时视角信息,以速率自适应为基础进行码率选择和资源分配。定义了QoE驱动的码率选择和资源分配问题,以最大化整个系统所有用户的QoE值。提出了联合KKT条件和分支定界法的速率自适应选择算法。实验结果表明:所提系统可以有效提高所有用户的QoE值,与上行链路平均分配资源算法相比,系统QoE值提高了14.27%,同时与传统的VR视频速率自适应算法相比,系统QoE值提高了23.47%。

基于水下机器人的海产品智能检测与自主抓取系统
徐凤强, 董鹏, 王辉兵, 付先平
2019, 45(12): 2393-2402. doi: 10.13700/j.bh.1001-5965.2019.0377
摘要:

针对水下机器人实现自主抓取过程中缺乏引导系统的问题,提出了一种依托水下机器人的海产品智能检测与自主抓取系统,用来解决水下目标的智能检测问题,并引导水下机器人进行海产品的自主抓取。将卷积神经网络检测算法应用到水下场景,利用水下图像数据集训练特定的网络模型DSOD检测海产品。建立短基线定位系统定位水下作业的机器人。通过分析相机成像坐标系与定位系统坐标系之间的关系,提出了一种计算海产品实际位置的坐标转换方法,计算海产品的实际位置。设计了一种基于反馈机制的多信号分析方法,引导机器人在水下移动并抓捕海产品。为了验证所提系统的有效性,搭建了一款水下抓捕机器人,并成功将所提算法应用到机器人,在真实海洋环境中进行海产品的自主抓取实验。

基于图像纹理的自适应水印算法
黄樱, 牛保宁, 关虎, 张树武
2019, 45(12): 2403-2414. doi: 10.13700/j.bh.1001-5965.2019.0369
摘要:

图像水印技术是一种在图像中嵌入被称为水印的版权标记,以证明图像版权归属的技术。利用图像纹理粗糙区域易于隐藏水印的优势,提出了一种基于图像纹理的自适应水印算法。首先,设计了一种能够真实反映图像纹理丰富程度的纹理度量方法,引入全局纹理值和局部纹理值的概念来综合分析图像纹理的分布情况;其次,利用滑动窗口和窗口内区域的局部纹理值,精确地获取图像的纹理粗糙区域,将水印嵌入在纹理粗糙区域中,保证嵌入水印图像的视觉质量;然后,通过多元回归分析,得到水印嵌入参数与纹理粗糙区域的全局纹理值和局部纹理值的函数关系,根据区域的纹理值自适应地调整水印的嵌入参数,最大限度地保证水印的不可见性,增强水印的鲁棒性;最后,通过在多个不重叠的纹理粗糙区域中嵌入相同的水印,进一步提高水印提取的准确率。在100幅自然场景图像上进行模拟实验,从不可见性、自适应性和鲁棒性三个方面证实了所提算法相比已有自适应水印算法的优越性。

一种基于曼哈顿距离的帧间加权预测算法
郭红伟, 朱策, 李帅, 王永华
2019, 45(12): 2415-2422. doi: 10.13700/j.bh.1001-5965.2019.0371
摘要:

合并模式通过共享邻域块的运动矢量(MV)来节省编码运动信息比特数,有效提升了编码器率失真性能。然而,当前合并模式中的运动补偿预测(MCP)不够准确。为此,分析了合并模式中的预测残差分布特点,并提出了一种基于曼哈顿距离的加权预测算法作为合并模式的附加候选项。首先,采用邻域合并候选项的运动矢量进行运动补偿预测得到多个预测块;然后,根据候选块位置与像素点的曼哈顿距离对获得的多个预测块进行加权平均得到附加候选项;最后,通过率失真优化(RDO)从附加候选项和原有候选项中选择出最佳的合并模式。实验结果显示:在联合探索测试模型JEM 7.0平台上,所提算法在不同的编码器配置下均获得了率失真性能的提升,其中低延迟P帧下达到了平均1.34%的比特率节省。

基于社团结构节点重要性的网络可视化压缩布局
吴玲达, 张喜涛, 孟祥利
2019, 45(12): 2423-2430. doi: 10.13700/j.bh.1001-5965.2019.0385
摘要:

为有效展示网络的中观尺度结构,将力导引布局算法与网络社团结构特征相结合,提出了一种基于社团结构节点重要性的网络可视化压缩布局方法。首先,采用Louvain算法对网络进行多粒度社团结构划分;然后,通过计算社团结构中节点的拓扑势评估节点的重要性,保留社团结构中的重要节点,合并边缘节点,实现社团结构压缩;最后,采用力导引布局算法布局压缩网络节点,实现网络可视化的压缩布局。实验结果表明:所提方法在压缩节点和连边规模的基础上,能够完整保留原始网络的社团构成,并且通过保留社团结构代表点可以清晰展示社团内部结构,突出社团和重要节点在网络结构中的位置和作用。

基于蒙特卡罗频率法的葡萄籽总酚含量高光谱测量变量选择
成云玲, 杨蜀秦
2019, 45(12): 2431-2437. doi: 10.13700/j.bh.1001-5965.2019.0361
摘要:

在利用高光谱建立葡萄籽总酚含量的预测模型中,为解决变量过多、模型复杂度高等问题,需依据光谱特点进行有效地数据降维。提出了一种蒙特卡罗频率法(MCF)对高光谱数据进行波长选择,并建立了葡萄籽总酚的支持向量回归(SVR)预测模型。该方法首先采用蒙特卡罗采样(MCS)选择波长子集;然后建立大量SVR子模型,并选出均方根误差(RMSE)较小的子模型,统计每个波长出现的频次;最后根据指数递减函数确定波长个数,选取频次最高的波长子集作为特征波长。结果表明,采用MCF可以在降维的同时提高模型的预测性能,波长数目由原始的196个减少到9个,波长范围均在950~1 400 nm,RMSE值从0.42减少到0.37,预测精度优于SPA等其他波长选择方法。因此,提出的基于MCF在高光谱数据处理中能有效选择特征波长,为准确建立预测模型提供了一种有效的方法。

基于美学评判的文本生成图像优化
徐天宇, 王智
2019, 45(12): 2438-2448. doi: 10.13700/j.bh.1001-5965.2019.0366
摘要:

在对抗生成网络(GAN)这一概念的诞生及发展推动下,文本生成图像的研究取得进展和突破,但大部分的研究内容集中于提高生成图片稳定性和解析度的问题,提高生成结果美观度的研究则很少。而计算机视觉中另一项经典的课题——图像美观度评判的研究也在深度神经网络的推动下提出了一些成果可信度较高的美观度评判模型。本文借助美观度评判模型,对实现文本生成图像目标的GAN模型进行了改造,以期提高其生成图片的美观度指标。首先针对StackGAN++模型,通过选定的美观度评判模型从美学角度评估其生成结果;然后通过借助评判模型构造美学损失的方式对其进行优化。结果使得其生成图像的总体美学分数比原模型提高了3.17%,同时Inception Score提高了2.68%,证明所提方法具有一定效果,但仍存在一定缺陷和提升空间。

基于边缘和结构的无参考屏幕内容图像质量评估
魏乐松, 陈俊豪, 牛玉贞
2019, 45(12): 2449-2455. doi: 10.13700/j.bh.1001-5965.2019.0367
摘要:

屏幕内容图像(SCI)是一种与传统自然图像不同的图像,具有更多的文本、图形以及特殊的布局。考虑文本、图形、图像和布局对屏幕内容图像质量的影响,提出了针对屏幕内容图像的基于边缘和结构的无参考质量评估(BES)算法。文本、图形和图像具有大量边缘,并且人类视觉系统对边缘高度敏感,因此BES算法首先使用Gabor滤波器的虚部提取边缘并计算每张屏幕内容图像的边缘特征。其次,提取一个结构特征来表示屏幕内容图像的布局。具体而言,利用Scharr滤波器计算得到一个局部二值模式(LBP)图,接着利用LBP图计算得到结构特征。最后,应用随机森林回归算法将边缘和结构特征映射为主观分数。实验结果表明,在数据库SIQAD和SCID上,所提出BES算法性能的皮尔森线性相关系数(PLCC)相对于对比算法中最先进的无参考算法,分别提高了2.63%和11.22%,甚至高于一些全参考算法。

基于HTTP自适应流媒体传输的3D视频质量评价
翟宇轩, 刘怡桑, 徐艺文, 陈忠辉, 房颖, 赵铁松
2019, 45(12): 2456-2462. doi: 10.13700/j.bh.1001-5965.2019.0383
摘要:

3D视频网络服务的关键在于提高用户的体验质量(QoE),而体验质量往往会由于网络环境的变化及视频内容的不同而受到影响。传统的2D视频传输可以采用基于HTTP的自适应流媒体(HAS)速率自适应机制有效地利用网络带宽,提高用户体验质量。因此对于如何利用动态自适应流媒体技术实现至少需要传输两路视频流的3D网络视频服务已经越来越被关注。HAS技术的关键在于媒体质量级别的动态转换策略,主要研究了3D视频中不同视点比特率的变化对用户观看体验质量的影响。首先,建立一个主观数据库探讨块级客观质量与3D视频的视觉体验质量之间的关系,块级客观质量将随着比特率的变化而变化。其次,提出了一种基于卷积神经网络(CNN)的QoE模型,该模型可以通过块级客观质量有效地评估QoE,模型预测值和平均意见分(MOS)的皮尔森线性相关系数(PLCC)为0.906,可在自适应流媒体应用中为3D视频传输中不同视点的码率调整提供指导。

基于视频的三维人体姿态估计
杨彬, 李和平, 曾慧
2019, 45(12): 2463-2469. doi: 10.13700/j.bh.1001-5965.2019.0384
摘要:

已有的三维人体姿态估计方法侧重于通过单帧图像来估计人体的三维姿态,忽略了视频中前后帧之间的相关性,因此,通过挖掘视频在时间维度上的信息可以进一步提高三维人体姿态估计的准确率。基于此,设计了一种可以充分提取视频时序信息的卷积神经网络结构,在获得高精度的同时也具有消耗计算资源小的优点,仅仅使用二维关节点的坐标为输入即可恢复完整的三维人体姿态。然后提出了一种新的损失函数利用相邻帧间人体姿态的连续性,来改进视频序列中三维姿态估计的平滑性,同时也解决了因缺少帧间信息而导致准确率下降的问题。通过在公开数据集Human3.6M上进行测试,实验结果表明本文方法相比目前的基准三维姿态估计算法的平均测试误差降低了1.2 mm,对于视频序列的三维人体姿态估计有着较高的准确率。

一种低成本的机器人室内可通行区域建模方法
张釜恺, 芮挺, 何雷, 杨成松
2019, 45(12): 2470-2478. doi: 10.13700/j.bh.1001-5965.2019.0393
摘要:

基于单目视觉的同步定位与建图(SLAM)是机器人领域中的一项热门技术。然而,在场景建图方面,由于其计算量较大,各主流方法还无法在低运算能力的平台上实现实时的场景建模。针对室内环境与小型机器人的特定情况,提出了一种新的可通行区域建模方法。该方法建立在单目特征点SLAM的基础上,通过HSV色彩空间内的图像自适应阈值分割获取地面分割图像,并与SLAM生成的稀疏点云进行交叉比对,进而获取地平面与准确的地面分割区域,再将地面分割区域反投影到地平面上,获取地面的稠密建模。在室内场景的实验中,所提方法的平均运算速度能达到21帧/s,速度约为ORB-SLAM的70%,能够满足移动平台的实时性要求。对于地平面位置的还原平均误差为5.8%,地面上道路宽度的建模误差在3.5%~12.8%。

基于深度视觉语义嵌入的视频缩略图推荐
张梦琴, 孟权令, 张维刚
2019, 45(12): 2479-2486. doi: 10.13700/j.bh.1001-5965.2019.0415
摘要:

视频缩略图作为视频内容最直观的表现形式,在视频共享网站中发挥很重要的作用,是吸引用户是否会点击观看该视频的关键要素之一。一句与视频内容相关的描述性语句,再搭配一幅与语句内容相关的视频缩略图,往往对用户更有吸引力,因此提出一种深度视觉语义嵌入模型来构建完整的视频缩略图推荐框架。该模型首先使用卷积神经网络(CNN)来提取视频关键帧的视觉特征,并使用循环神经网络(RNN)来提取描述语句的语义特征,再将视觉特征与语义特征嵌入到维度相同的视觉语义潜在空间;然后通过比较视觉特征与语义特征之间的相关性来推荐与特定的描述语句内容密切相关的视频关键帧作为视频缩略图推荐结果。在不同类型的网络视频数据上的实验表明,所提方法能够有效地从网络视频中推荐出与给定描述性语句内容较相关的视频缩略图序列,提升视频的用户浏览体验。

基于多尺度失真感知特征的重定向图像质量评估
吴志山, 张帅, 牛玉贞
2019, 45(12): 2487-2494. doi: 10.13700/j.bh.1001-5965.2019.0368
摘要:

在不同宽高比显示设备上的图像观看体验通常受到图像重定向操作方法的影响。为了提高重定向图像主观感知与客观评估之间的一致性,提出了基于多尺度失真感知特征(MSDA)的客观重定向图像质量评估(RIQA)方法。语义失真和细节失真经常出现在图像的不同尺度上,因此从图像的不同尺度中提取失真感知特征。提出了一个描述原始图像和重定向图像之间的宽高比相似度(ARS)的精确度量。此外,使用视觉注意力融合图来模拟人类视觉系统对图像的主观关注度。在2个基准数据库上的实验结果表明,所提出的MSDA方法的肯德尔排名相关系数(KRCC)、皮尔逊线性相关系数(PLCC)和斯皮尔曼秩次相关系数(SRCC)指标分别比对比方法中最优方法提高4.1%、1.8%和4.5%。

面向行为识别的人体空间协同运动结构特征表示与融合
莫宇剑, 侯振杰, 常兴治, 梁久祯, 陈宸, 宦娟
2019, 45(12): 2495-2505. doi: 10.13700/j.bh.1001-5965.2019.0373
摘要:

针对人体执行动作时不同身体部位之间的协同关系,提出了基于人体空间协同运动结构特征的行为识别方法。首先度量人体不同部位对完成动作的贡献度,并将不同部位的贡献度转变为协同运动结构特征模型。然后利用模型无监督、自适应地对不同身体部位的运动特征进行约束。在此基础上借鉴跨媒体检索方法JFSSL对不同模态的特征进行特征选择与多模态特征融合。实验表明,所提方法在自建的行为数据库上明显提高了开放测试的识别率,且计算过程简便,易于实现。

时空域上下文学习的视频多帧质量增强方法
佟骏超, 吴熙林, 丁丹丹
2019, 45(12): 2506-2513. doi: 10.13700/j.bh.1001-5965.2019.0374
摘要:

卷积神经网络(CNN)在视频增强方向取得了巨大的成功。现有的视频增强方法主要在空域探索图像内像素的相关性,忽略了连续帧之间的时域相似性。针对上述问题,提出一种基于时空域上下文学习的多帧质量增强方法(STMVE),即利用当前帧以及相邻多帧图像共同增强当前帧的质量。首先根据时域多帧图像直接预测得到当前帧的预测帧,然后利用预测帧对当前帧进行增强。其中,预测帧通过自适应可分离的卷积神经网络(ASCNN)得到;在后续增强中,设计了一种多帧卷积神经网络(MFCNN),利用早期融合架构来挖掘当前帧及其预测帧的时空域相关性,最终得到增强的当前帧。实验结果表明,所提出的STMVE方法在量化参数值37、32、27、22上,相对于H.265/HEVC,分别获得0.47、0.43、0.38、0.28 dB的性能增益;与多帧质量增强(MFQE)方法相比,平均获得0.17 dB的增益。

中国国画艺术美感特征分析与分类
湛颖, 高妍, 谢凌云
2019, 45(12): 2514-2522. doi: 10.13700/j.bh.1001-5965.2019.0375
摘要:

图像艺术美感自动分类是近年的热门研究领域,国画作为中国传统艺术文化的重要体现,其美感也极具研究价值。在5类美感标注的国画数据库基础上,进行了国画艺术美感自动分类研究和相关特征分析。经过特征提取和筛选,得到适用于美感分类的33个图像特征,并基于特征重要性建立了物理特征与艺术美感、美术技法之间的映射关系。同时使用该特征集在多种分类器上进行艺术美感自动识别,验证了国画艺术美感自动分类的可行性。结果表明,国画艺术美感分类的主要相关美术元素按重要性排序为:颜色、笔触、亮度和线条。

结合轮廓及骨架序列编码的二维形状识别
卢勇强, 栗志扬, 陈祎楠, 刘朝斌, 黄一鸣
2019, 45(12): 2523-2532. doi: 10.13700/j.bh.1001-5965.2019.0376
摘要:

二维形状识别是物体识别中的一个基本问题,被广泛地应用于商标检索、指纹识别、物体定位、图像检索等多个领域。其中,基于生物信息学的二维形状识别是近期一个新的研究方向,基本思想是把二维形状的轮廓转化为生物信息序列,借助标准的生物信息序列分析工具来进行二维形状的匹配和识别。不过,利用轮廓进行信息序列编码存在编码冗余和编码准确性不高的问题,本文提出了一种新型的结合形状轮廓和骨架的序列编码方法。该方法利用骨架表示形状的细长分支,减少编码的冗余;并分别对轮廓和骨架进行不同类型的编码,具备编码简洁、后续匹配准确性高等优点。最后,本文在三个公开数据集上进行大量的形状识别实验,并与多种通用形状识别方法进行了比较。实验表明,本文方法在多个实验中均取得了较高的识别准确率,相比基本的形状特征描述方法,准确率提高了近5%。

基于粒子群优化LSTM的股票预测模型
宋刚, 张云峰, 包芳勋, 秦超
2019, 45(12): 2533-2542. doi: 10.13700/j.bh.1001-5965.2019.0388
摘要:

为了提高股票时间序列预测精度,增强预测模型结构参数可解释性,提出一种基于自适应粒子群优化(PSO)的长短期记忆(LSTM)股票价格预测模型(PSO-LSTM),该模型在LSTM模型的基础上进行改进和优化,因此擅长处理具有长期依赖关系的、复杂的非线性问题。通过自适应学习策略的PSO算法对LSTM模型的关键参数进行寻优,使股票数据特征与网络拓扑结构相匹配,提高股票价格预测精度。实验分别以沪市、深市、港股股票数据构建了PSO-LSTM模型,并对该模型的预测结果与其他预测模型进行比较分析。结果表明,基于自适应PSO的LSTM股票价格预测模型不但提高了预测准确度,而且具有普遍适用性。

总目次
2019年第45卷总目次
2019, 45(12): 2543-2561.
摘要:
常见问答