吴红兰 刘豪 孙有朝

吴红兰,刘豪,孙有朝. 基于视觉Transformer飞行员姿态估计[J]. 北京航空航天大学学报,2024,50(10):3100-3110 doi: 10.13700/j.bh.1001-5965.2022.0811
引用本文: 吴红兰,刘豪,孙有朝. 基于视觉Transformer飞行员姿态估计[J]. 北京航空航天大学学报,2024,50(10):3100-3110 doi: 10.13700/j.bh.1001-5965.2022.0811
WU H L,LIU H,SUN Y C. Vision Transformer-based pilot pose estimation[J]. Journal of Beijing University of Aeronautics and Astronautics,2024,50(10):3100-3110 (in Chinese) doi: 10.13700/j.bh.1001-5965.2022.0811
Citation: WU H L,LIU H,SUN Y C. Vision Transformer-based pilot pose estimation[J]. Journal of Beijing University of Aeronautics and Astronautics,2024,50(10):3100-3110 (in Chinese) doi: 10.13700/j.bh.1001-5965.2022.0811


doi: 10.13700/j.bh.1001-5965.2022.0811
基金项目: 国家自然科学基金-民航联合研究基金(U2033202,U1333119);国家自然科学基金(52172387)


  • 中图分类号: V249.1;TB553

Vision Transformer-based pilot pose estimation

Funds: Joint Fund of National Natural Science Foundation of China and Civil Aviation Administration of China (U2033202,U1333119); National Natural Science Foundation of China (52172387)
  • 摘要:

    人体姿态估计是行为感知领域中的一个重要环节,也是民用飞机驾驶舱智能交互方式的一项关键技术。为建立民用飞机驾驶舱复杂光照环境与飞行员姿态估计模型性能的可解释联系,提出基于视觉Transformer飞行员姿态(ViTPPose)估计模型,该模型在卷积神经网络(CNN)主干网络末端使用包含多层编码层的双支路 Transformer 模块,编码层联合 Transformer 和空洞卷积,在增大感受野的同时捕捉后期高阶特征的全局相关性。基于飞行机组标准操作程序,建立飞行模拟场景下的飞行员操纵行为关键点检测数据集,ViTPPose估计模型在此数据集上完成飞行员坐姿估计,并通过与基准模型对比,验证了其有效性。在驾驶舱复杂光照的背景下,构建坐姿估计热图,分析ViTPPose估计模型对光照强度的偏好,测试其在不同光照等级下的性能,揭示其对不同光照强度的依赖关系。


  • 图 1  摄像头实时捕捉飞行员操纵行为

    Figure 1.  Capturing pilot action in real time through camera

    图 2  ViTPPose估计模型姿态估计网络结构

    Figure 2.  Structure of ViTPPose estimation model pose estimation network

    图 3  CNN主干结构

    Figure 3.  Structure of CNN backbone

    图 4  多头自注意机制结构

    Figure 4.  Structure of multi-head self-attention mechanism

    图 5  空洞卷积模块结构

    Figure 5.  Structure of dilated convolution module

    图 6  飞行员姿态估计实验验证方案

    Figure 6.  Experimental validation scheme for pilot pose estimation

    图 7  智能驾驶舱飞行模拟平台

    Figure 7.  Intelligent cockpit flight simulation platform

    图 8  飞行员关键点检测数据集样例

    Figure 8.  Pilots keypoint detection dataset samples

    图 9  模型在飞行员关键点检测测试数据集上的性能可视化效果

    Figure 9.  Performance visualization of model on pilot keypoint detection test dataset

    图 10  飞行员姿态估计可视化效果

    Figure 10.  Visualization of pilot pose estimation

    图 11  编码层数目对ViTPPose估计模训练速度影响的可视化效果

    Figure 11.  Visualization of effect of number of coding layers on training speed of ViTPPose estimation model

    图 12  编码层数目对ViTPPose估计模型训练损失值影响可视化效果

    Figure 12.  Visualization of effect of number of encoder layers on loss value of the ViTPPose estimation model training

    图 13  不同光照强度对比

    Figure 13.  Comparison of different light strengths

    图 14  不同光照下飞行员姿态估计输出结果对比

    Figure 14.  Comparison of pilot attitude estimation output results under different light intensities

    表  1  模型在飞行员关键点检测测试数据集上的性能比较

    Table  1.   Performance comparison of models on pilot keypoint detection test dataset

    模型 主干网络 输入尺寸/像素 参数量 GFLOPs AP/% AP50/% AP75/% APM/% AR/%
    SimpleBaseline[38] ResNet-50 256×192 3.40×107 8.90 87.7 89.9 89.1 85.3 87.8
    SimpleBaseline[38] ResNet-152 384×288 6.86×107 35.6 89.4 91.0 91.1 87.8 88.2
    HRNet-W32[4] HRNet-W32 256×192 2.85×107 7.10 89.3 91.4 91.3 87.3 86.9
    HRNet-W32[4] HRNet-W32 384×288 2.85×107 16.0 90.6 92.5 93.6 90.9 92.5
    PoseUR[39] HRFormer-B 256×192 2.88×107 12.6 92.1 93.6 91.8 93.0 93.8
    ViTPose[40] ViTAE-H 256×192 6.32×108 95.6 95.2 94.3 95.6 96..4
    ViTPPose HRNet-S-W32 256×192 2.35×107 13.0 92.3 93.5 92.5 92.6 93.5
    表  2  模型使用不同编码层数目在飞行员关键点检测测试数据集上的性能比较

    Table  2.   Performance comparison of using different numbers of encoder layers on pilot keypoint detection test dataset

    编码层数目 输入尺寸/像素 参数量 GFLOPs AP/%
    0 256×192 2.15×107 6.2 90.3
    1 256×192 2.20×107 7.9 90.7
    2 256×192 2.24×107 9.6 91.3
    3 256×192 2.29×107 11.3 92.0
    4 256×192 2.35×107 13.0 92.3
    表  3  模型使用空洞卷积模块在飞行员关键点测试数据集上的性能比较

    Table  3.   Performance comparison of models using dilated convolution module on pilot keypoint test dataset

    模型 输入尺寸/像素 参数量 GFLOPs AP/%
    ViTPPose* 256×192 2.28×107 12.6 91.8
    ViTPPose& 256×192 2.35×107 13.0 92.0
    ViTPPose$ 256×192 2.36×107 13.0 91.5
    ViTPPose 256×192 2.35×107 13.0 92.3
    表  4  本文模型在4种级别光照强度等级下飞行员关键点测试数据集上的性能比较

    Table  4.   Performance of the proposed model is compared on pilot keypoint test dataset under four levels of light intensity levels

    光照强度/lx 输入尺寸/像素 AP/%
    50000 256×192 86.2
    20000 256×192 93.8
    500 256×192 90.7
    0.5 256×192 85.1
图(14) / 表(4)
  • 收稿日期:  2022-09-29
  • 录用日期:  2023-03-26
  • 网络出版日期:  2023-04-20
  • 整期出版日期:  2024-10-31


