柏方超 杨希祥 邓小龙 侯中喜

柏方超,杨希祥,邓小龙,等. 基于深度强化学习的风场中浮空器驻留控制[J]. 北京航空航天大学学报,2024,50(7):2354-2366 doi: 10.13700/j.bh.1001-5965.2022.0629
引用本文: 柏方超,杨希祥,邓小龙,等. 基于深度强化学习的风场中浮空器驻留控制[J]. 北京航空航天大学学报,2024,50(7):2354-2366 doi: 10.13700/j.bh.1001-5965.2022.0629
BAI F C,YANG X X,DENG X L,et al. Station keeping control for aerostat in wind fields based on deep reinforcement learning[J]. Journal of Beijing University of Aeronautics and Astronautics,2024,50(7):2354-2366 (in Chinese) doi: 10.13700/j.bh.1001-5965.2022.0629
Citation: BAI F C,YANG X X,DENG X L,et al. Station keeping control for aerostat in wind fields based on deep reinforcement learning[J]. Journal of Beijing University of Aeronautics and Astronautics,2024,50(7):2354-2366 (in Chinese) doi: 10.13700/j.bh.1001-5965.2022.0629


doi: 10.13700/j.bh.1001-5965.2022.0629
基金项目: 国家自然科学基金(61903369,52272445);湖南省自然科学基金(2023JJ10056)


  • 中图分类号: V274

Station keeping control for aerostat in wind fields based on deep reinforcement learning

Funds: National Natural Science Foundation of China (61903369、52272445); Natural Science Foundation of Hunan Province (2023JJ10056)
  • 摘要:

    建立了平流层浮空器区域驻留模型,在有动力和无动力推进的情况下,基于马尔可夫决策过程,将具有优先经验回放的双深度Q学习应用于平流层浮空器区域驻留控制。通过平均区域驻留半径、区域驻留有效时间比等参数来评价区域驻留控制方法的效果。典型风场中仿真分析结果指出:在区域驻留半径为50 km、区域驻留时间为3天的任务下,无动力推进的平流层浮空器的平均区域驻留半径为28.16 km,区域驻留有效时间比为83%;有动力推进平流层浮空器的平均区域驻留半径可达8.84 km,可实现区域驻留半径为20 km的飞行控制,区域驻留有效时间比为100%。


  • 图 1  平流层浮空器系统

    Figure 1.  Stratospheric aerostat system

    图 2  平流层浮空器水平方向转移策略原理

    Figure 2.  Schematic diagram of the horizontal transfer strategy of the stratospheric aerostat

    图 3  基于定点悬停的控制策略流程图

    Figure 3.  Control strategy flow chart based on fixed-point hovering

    图 4  智能体状态转移过程

    Figure 4.  Agent state transition process in an intelligent body

    图 5  基于DDQN的区域驻留控制流程

    Figure 5.  The area residency control flow diagram based on DDQN

    图 6  风场示意图

    Figure 6.  Schematic of wind fields

    图 7  定点悬停下的飞行仿真结果

    Figure 7.  The flight simulation result of the fixed point hovering

    图 8  强化学习控制下的飞行仿真结果

    Figure 8.  Flight simulation results under reinforcement learning control

    图 9  风场扰动下飞行仿真结果

    Figure 9.  Flight simulation results under wind disturbance

    图 10  东西单通道控制飞行仿真结果

    Figure 10.  Single-channel control flight simulation results in the east-west direction

    图 11  南北单通道控制飞行仿真结果

    Figure 11.  Single-channel control flight simulation results in the north-south direction

    图 12  双通道控制飞行仿真结果

    Figure 12.  Dual-channel control flight simulation results

    图 13  平均奖励值

    Figure 13.  Average rewards during training process

    表  1  环境状态空间参数设置

    Table  1.   Environmental state space parameter setting

    参数 取值范围
    高度h/km 18~22
    东向位置x/km −50~50
    北向位置y/km −50~50
    副气囊空气质量mair/kg 0~158
    风向与位置角度δ 0~π
     注:东向、北向位置限制条件为$\sqrt {{x^2} + {y^2}} \leqslant {\text{50}} $,风速Sw根据真实风场确定,风向与位置角度δ根据真实风场与当前位置确定。
    表  2  无推进系统作用下平流层浮空器动作空间

    Table  2.   Action space of stratospheric aerostat without propulsion system

    动作空间 动作
    a1 阀门排气
    a2 阀门关
    a3 风机吸气
    表  3  东西方向单通道推进系统作用下平流层浮空器动作空间

    Table  3.   Action space of stratospheric aerostat under the action of single-channel propulsion system in east-west direction

    表  4  南北方向单通道推进系统作用下平流层浮空器动作空间

    Table  4.   Action space of stratospheric aerostat under the action of single-channel propulsion system in north-south direction

    表  5  双通道推进系统作用下平流层浮空器动作空间

    Table  5.   The action space of the stratospheric aerostat under the action of the dual-channel propulsion system

    a1阀门排气, 螺旋桨向北
    a2阀门排气, 螺旋桨向东
    a3阀门排气, 螺旋桨向南
    a4阀门排气, 螺旋桨向北
    a19风机吸气, 螺旋桨向北
    表  6  DDQN算法参数设置

    Table  6.   DDQN algorithm parameter settings

    训练参数 数值
    批学习数Nb 512
    最大训练回合数Nmax 2×104
    记忆回放单元大小M 2×106
    学习率 0.001
    奖励偏差 −0.1
    ε-贪婪算法下降参数${\varepsilon _{{\text{dec}}}}$ 0.01
    ε初值 0.98
    表  7  平流层浮空器参数

    Table  7.   Stratospheric aerostat parameters

    参数 数值
    囊体半径/m 8.7
    囊体体积/m3 2780
    囊体总质量/kg 48
    系统总质量/kg 177.2
    阀门数量 1
    阀门半径/m 0.04
    工作高度/km 18~22
    表  8  平流层浮空器初始状态

    Table  8.   Initial state of stratospheric aerostat

    状态量 状态值
    高度${h_0}$/km 20
    x方向x0/km 0
    y方向y0/km 0
    初始空气质量/kg 67.58
    初始时间 2021-08-03T0
    结束时间 2021-08-06T0
