北京航空航天大学学报 ›› 2019, Vol. 45 ›› Issue (10): 1965-1972.doi: 10.13700/j.bh.1001-5965.2019.0046

• 论文 • 上一篇    下一篇

基于编解码双路卷积神经网络的视觉自定位方法

贾瑞明1, 刘圣杰1, 李锦涛2, 王赟豪2, 潘海侠2   

  1. 1. 北方工业大学 信息学院, 北京 100144;
    2. 北京航空航天大学 软件学院, 北京 100083
  • 收稿日期:2019-02-13 出版日期:2019-10-20 发布日期:2019-10-31
  • 通讯作者: 贾瑞明 E-mail:jiaruiming@ncut.edu.cn
  • 作者简介:贾瑞明 男,博士,助理研究员。主要研究方向:计算机视觉、深度学习、模式识别;刘圣杰 男,硕士研究生。主要研究方向:计算机视觉、深度学习。
  • 基金资助:
    国家重点研发计划(2017YFB0802300);北京市教委面上项目(KM201510009005);北方工业大学学生科技活动项目(110051360007)

A visual localization method based on encoder-decoder dual-stream CNN

JIA Ruiming1, LIU Shengjie1, LI Jintao2, WANG Yunhao2, PAN Haixia2   

  1. 1. School of Information Science and Technology, North China University of Technology, Beijing 100144, China;
    2. College of Software, Beihang University, Beijing 100083, China
  • Received:2019-02-13 Online:2019-10-20 Published:2019-10-31
  • Supported by:
    National Key R & D Program of China (2017YFB0802300); The General Program of Beijing Municipal Education Commission (KM201510009005); Science and Technology Activities for Students of NCUT (110051360007)

摘要: 为了从单张RGB图像估计出相机的位姿信息,提出了一种深度编解码双路卷积神经网络(CNN),提升了视觉自定位的精度。首先,使用编码器从输入图像中提取高维特征;然后,使用解码器提升特征的空间分辨率;最后,通过多尺度位姿预测器输出位姿参数。由于位置和姿态的特性不同,网络从解码器开始采用双路结构,对位置和姿态分别进行处理,并且在编解码之间增加跳跃连接以保持空间信息。实验结果表明:所提网络的精度与目前同类型算法相比有明显提升,其中相机姿态角度精度有较大提升。

关键词: 视觉自定位, 编解码结构, 卷积神经网络(CNN), 跳跃连接, 双路网络

Abstract: In order to calculate the camera pose from a single RGB image, a deep encoder-decoder dual-stream convolutional neural network (CNN) is proposed, which can improve the accuracy of visual localization. The network first uses an encoder to extract advanced features from input images. Second, the spacialresolution is enhancedby a pose decoder.Finally, a multi-scale estimator is used to output pose parameters. Becauseof the differentperformance of position and orientation, the network adopts a dual-stream structure from the decoder to process the position and orientationseparately. To restore the spatial information, several skip connections are added to encoder-decoder architecture. The experimental results show that the accuracy of the network is obviously improved compared with the congener state-of-the-art algorithms, and the orientation accuracy of camera pose is improved dramatically.

Key words: visual localization, encoder-decoder architecture, convolutional neural network (CNN), skip connection, dual-stream network

中图分类号: 


版权所有 © 《北京航空航天大学学报》编辑部
通讯地址:北京市海淀区学院路37号 北京航空航天大学学报编辑部 邮编:100191 E-mail:jbuaa@buaa.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发