北京航空航天大学学报 ›› 2020, Vol. 46 ›› Issue (7): 1412-1421.doi: 10.13700/j.bh.1001-5965.2019.0448

• 论文 • 上一篇    下一篇

基于CGAN的避扰通信决策网络离线式训练方法

江民民1, 李大朋2, 邱昕2, 慕福奇2, 柴旭荣2, 孙志浩1   

  1. 1. 中国科学院大学 微电子学院, 北京 100029;
    2. 中国科学院微电子研究所, 北京 100029
  • 收稿日期:2019-08-16 发布日期:2020-07-18
  • 通讯作者: 李大朋 E-mail:insanegtp@sina.cn
  • 作者简介:江民民 男,硕士研究生。主要研究方向:人工智能、认知无线电。
    李大朋 男,博士,副研究员。主要研究方向:数字信号处理。
    邱昕 男,博士,研究员。主要研究方向:无线通信系统设计、通信信号处理技术。
    慕福奇 男,研究员,博士生导师。主要研究方向:无线通信系统与技术、物联网传输与应用。
    柴旭荣 男,硕士,高级工程师。主要研究方向:无线通信系统与技术、通信信号处理技术。
    孙志浩 男,硕士研究生。主要研究方向:数字信号处理。

An offline training method using CGAN for anti-jamming communication decision network

JIANG Minmin1, LI Dapeng2, QIU Xin2, MU Fuqi2, CHAI Xurong2, SUN Zhihao1   

  1. 1. School of Microelectronics, University of Chinese Academy of Sciences, Beijing 100029, China;
    2. Institute of Microelectronics of the Chinese Academy of Sciences, Beijing 100029, China
  • Received:2019-08-16 Published:2020-07-18

摘要: 基于强化学习的避扰通信,由于需要不断地与环境交互从中学习到最优决策,其决策网络的训练时间受环境反馈速率的约束,通常耗时严重。针对这一问题,提出了一种离线式训练方法。构建出一种频谱虚拟环境生成器,可以快速生成大量的逼真合成频谱瀑布图,用于避扰通信决策网络训练。由于所提方法脱离真实环境反馈,形成离线式训练,进而显著提高模型训练效率。实验结果表明:与实时在线训练方法比较,所提离线式训练方法的训练时间可以减少50%以上。

关键词: 强化学习, 避扰通信, 频谱瀑布图, 条件生成对抗网络(CGAN), 离线式训练

Abstract: Due to the continuous interaction with the environment to learn the optimal decision, the training time of the decision network based on reinforcement learning is restricted by the feedback rate of the environment, which usually consumes a lot of time. To solve this problem, an offline training method is proposed. A spectrum virtual environment generator is constructed, which can quickly generate a large number of realistic synthetic spectrum waterfall images for the training of anti-jamming communication decision network. Because the method is separated from the real environment feedback, the offline training is formed and the efficiency of model training is improved significantly. Experimental results show that the training time of this offline method is reduced by more than 50% compared with the online real-time training method.

Key words: reinforcement learning, anti-jamming communications, spectrum waterfall image, Conditional Generative Adversarial Nets (CGAN), offline training

中图分类号: 


版权所有 © 《北京航空航天大学学报》编辑部
通讯地址:北京市海淀区学院路37号 北京航空航天大学学报编辑部 邮编:100191 E-mail:jbuaa@buaa.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发