北京航空航天大学学报 ›› 2019, Vol. 45 ›› Issue (12): 2479-2486.doi: 10.13700/j.bh.1001-5965.2019.0415

• 论文 • 上一篇    下一篇

基于深度视觉语义嵌入的视频缩略图推荐

张梦琴, 孟权令, 张维刚   

  1. 哈尔滨工业大学(威海) 计算机科学与技术学院, 威海 264209
  • 收稿日期:2019-07-26 出版日期:2019-12-20 发布日期:2019-12-31
  • 通讯作者: 张维刚 E-mail:wgzhang@hit.edu.cn
  • 作者简介:张梦琴 女,硕士研究生。主要研究方向:多媒体分析、机器学习等;孟权令 男,博士研究生。主要研究方向:多媒体分析、机器学习等;张维刚 男,博士,副教授,硕士生导师。主要研究方向:多媒体分析、计算机视觉、模式识别、机器学习等。
  • 基金资助:
    国家自然科学基金(61672497);山东省自然科学基金(ZR2017MF001)

Video thumbnail recommendation based on deep visual-semantic embedding

ZHANG Mengqin, MENG Quanling, ZHANG Weigang   

  1. School of Computer Science and Technology, Harbin Institute of Technology, Weihai 264209, China
  • Received:2019-07-26 Online:2019-12-20 Published:2019-12-31
  • Supported by:
    National Natural Science Foundation of China (61672497); Natural Science Foundation of Shandong Province (ZR2017MF001)

摘要: 视频缩略图作为视频内容最直观的表现形式,在视频共享网站中发挥很重要的作用,是吸引用户是否会点击观看该视频的关键要素之一。一句与视频内容相关的描述性语句,再搭配一幅与语句内容相关的视频缩略图,往往对用户更有吸引力,因此提出一种深度视觉语义嵌入模型来构建完整的视频缩略图推荐框架。该模型首先使用卷积神经网络(CNN)来提取视频关键帧的视觉特征,并使用循环神经网络(RNN)来提取描述语句的语义特征,再将视觉特征与语义特征嵌入到维度相同的视觉语义潜在空间;然后通过比较视觉特征与语义特征之间的相关性来推荐与特定的描述语句内容密切相关的视频关键帧作为视频缩略图推荐结果。在不同类型的网络视频数据上的实验表明,所提方法能够有效地从网络视频中推荐出与给定描述性语句内容较相关的视频缩略图序列,提升视频的用户浏览体验。

关键词: 视频缩略图, 关键帧, 卷积神经网络(CNN), 循环神经网络(RNN), 视觉语义嵌入

Abstract: Video thumbnail, as the most intuitive form of video content, plays an important role in video sharing sites and is one of the key elements to attract users to click and watch the video. However, a descriptive statement related to video content with a video thumbnail associated with the content of the statement is often more attractive to user. Therefore, a complete video thumbnail recommendation framework with a deep visual-semantic embedding model is proposed in this paper. This model uses the convolutional neural network to extract the visual features of video keyframes, and uses recurrent neural network to extract the semantic features of description sentences. After embedding the visual features and the semantic features into the visual-semantic potential space of the same dimension, the key frames related to the content of the descriptive sentences are recommended as video thumbnails by comparing the correlation between the visual features and the semantic features. Experiments on different categories of web videos show that the proposed method can effectively recommend contented-related video thumbnail sequence from videos for given descriptive statements and enhance the user experience.

Key words: video thumbnail, keyframes, convolutional neural network (CNN), recurrent neural network (RNN), visual-semantic embedding

中图分类号: 


版权所有 © 《北京航空航天大学学报》编辑部
通讯地址:北京市海淀区学院路37号 北京航空航天大学学报编辑部 邮编:100191 E-mail:jbuaa@buaa.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发