别桐 朱晓庆 付煜 李晓理 阮晓钢 王全民

别桐,朱晓庆,付煜,等. 基于Safe-PPO算法的安全优先路径规划方法[J]. 北京航空航天大学学报,2023,49(8):2108-2118 doi: 10.13700/j.bh.1001-5965.2021.0580
BIE T,ZHU X Q,FU Y,et al. Safety priority path planning method based on Safe-PPO algorithm[J]. Journal of Beijing University of Aeronautics and Astronautics,2023,49(8):2108-2118 (in Chinese) doi: 10.13700/j.bh.1001-5965.2021.0580
doi: 10.13700/j.bh.1001-5965.2021.0580
基金项目: 国家自然科学基金(61773027,62103009);北京市自然科学基金(4202005)


  • 中图分类号: TP242.6

Safety priority path planning method based on Safe-PPO algorithm

Funds: National Natural Science Foundation of China (61773027,62103009); Natural Science Foundation of Beijing (4202005)
  • 摘要:

    现有的路径规划算法对路径规划过程中的路径安全性问题考虑较少,并且传统的近端策略优化(PPO)算法存在一定的方差适应性问题。为解决这些问题,提出一种融合进化策略思想和安全奖励函数的安全近端策略优化(Safe-PPO)算法,所提算法以安全优先进行路径规划。采用协方差自适应调整的进化策略( CMA-ES)的思想对PPO算法进行改进,并引入危险系数与动作因子来评估路径的安全性。使用二维栅格地图进行仿真实验,采用传统的PPO算法和Safe-PPO算法进行对比;采用六足机器人在搭建的场景中进行实物实验。仿真实验结果表明:所提算法在安全优先导向的路径规划方面具有合理性与可行性:在训练时Safe-PPO算法相比传统的PPO算法收敛速度提升了18%,获得的奖励提升了5.3%;在测试时采用融合危险系数与动作因子的方案能使机器人学会选择更加安全的道路而非直观上最快速的道路。实物实验结果表明:机器人可以在现实环境中选择更加安全的路径到达目标点。


  • 图 1  本文算法流程

    Figure 1.  Flow of the proposed algorithm

    图 2  实验环境示意图

    Figure 2.  Schematic diagram of experimental environment

    图 3  危险空间示意图

    Figure 3.  Hazard space diagram

    图 4  危险系数问题示意图

    Figure 4.  Diagram of hazard coefficient

    图 5  动作因子问题示意图

    Figure 5.  Diagram of movement coefficient

    图 6  通道编号示意图

    Figure 6.  Diagram of channel number

    图 7  使用传统PPO算法与Safe-PPO算法训练效果对比

    Figure 7.  Comparison of training effects between traditional PPO and Safe-PPO algorithm

    图 8  局部放大图

    Figure 8.  A partial enlargement

    图 9  测试训练收敛后的机器人

    Figure 9.  Test the robot after training convergence

    图 10  机器人随机选择通道1或通道2

    Figure 10.  The robot randomly selects channel 1 or channel 2

    图 11  调整机器人初始位置的影响

    Figure 11.  The effect of adjusting initial position of robot

    图 12  增加危险系数后机器人放弃通道3并改选通道4

    Figure 12.  The robot gave up channel 3 and changed to channel 4 when hazard coefficient was increased

    图 13  100次测试的结果示意图

    Figure 13.  Schematic of results of 100 tests

    图 14  4组实验的训练所获奖励

    Figure 14.  The training rewards of four groups of experiments

    图 15  3种策略训练所获奖励局部放大图

    Figure 15.  A partial enlargement of rewards obtained from three strategy training

    图 16  复杂度提高后的实验环境

    Figure 16.  The experimental environment with increased complexity

    图 17  3种方案的测试效果对比

    Figure 17.  Comparison of test results of three schemes

    图 18  直线通道实验环境

    Figure 18.  Linear channel experimental environment

    图 19  直线通道实验过程

    Figure 19.  Linear channel experimental procedure

    图 20  通道选取实验环境

    Figure 20.  Channel selection experimental environment

    图 21  通道选取实验过程

    Figure 21.  Channel selection experimental procedure

    图 22  迷宫实验环境

    Figure 22.  Labyrinth experimental environment

    图 23  迷宫实验过程

    Figure 23.  Labyrinth experimental procedure

    表  1  传统PPO算法与Safe-PPO算法的中轴偏离测试结果

    Table  1.   Center line deviation test of traditional PPO algorithm and Safe-PPO algorithm

    算法(4, 4)偏离(4, 5)偏离(4, 6)偏离无偏离
图(23) / 表(1)
  • 文章访问数:  510
  • HTML全文浏览量:  78
  • PDF下载量:  92
  • 被引次数: 0
  • 收稿日期:  2021-09-28
  • 录用日期:  2021-12-06
  • 网络出版日期:  2022-03-03
  • 整期出版日期:  2023-08-31


