留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

面向异构大数据环境的数据脱敏模型

佟玲玲 李鹏霄 段东圣 任博雅 李扬曦

佟玲玲, 李鹏霄, 段东圣, 等 . 面向异构大数据环境的数据脱敏模型[J]. 北京航空航天大学学报, 2022, 48(2): 249-257. doi: 10.13700/j.bh.1001-5965.2020.0403
引用本文: 佟玲玲, 李鹏霄, 段东圣, 等 . 面向异构大数据环境的数据脱敏模型[J]. 北京航空航天大学学报, 2022, 48(2): 249-257. doi: 10.13700/j.bh.1001-5965.2020.0403
TONG Lingling, LI Pengxiao, DUAN Dongsheng, et al. Data masking model for heterogeneous big data environment[J]. Journal of Beijing University of Aeronautics and Astronautics, 2022, 48(2): 249-257. doi: 10.13700/j.bh.1001-5965.2020.0403(in Chinese)
Citation: TONG Lingling, LI Pengxiao, DUAN Dongsheng, et al. Data masking model for heterogeneous big data environment[J]. Journal of Beijing University of Aeronautics and Astronautics, 2022, 48(2): 249-257. doi: 10.13700/j.bh.1001-5965.2020.0403(in Chinese)

面向异构大数据环境的数据脱敏模型

doi: 10.13700/j.bh.1001-5965.2020.0403
基金项目: 

国家自然科学基金 U1936110

国家自然科学基金 U1836111

详细信息
    通讯作者:

    李鹏霄, E-mail: lpx@cert.org.cn

  • 中图分类号: TP391

Data masking model for heterogeneous big data environment

Funds: 

National Natural Science Foundation of China U1936110

National Natural Science Foundation of China U1836111

More Information
  • 摘要:

    不同场景下数据类型和脱敏需求的差异,使得传统的数据脱敏方法难以满足大数据背景下的用户隐私保护需求。如何实现异构大数据中敏感信息的精准定向、高效脱敏,从而更好地确保数据安全、可信和可用,是本领域的研究难点。提出了一种在异构大数据环境下,基于文本、图片、音频和数据库等异构数据的脱敏模型,并对4个关键模块进行了描述。通过脱敏数据预处理,实现不同应用场景下敏感数据的自动标注和分级设置。采用数据预脱敏处理方法,并从数据可用性、数据关联性、隐私保护度、时间和空间复杂度等5个维度进行脱敏效果评价,实现定制化脱敏策略。经过脱敏任务调度完成脱敏任务分配和执行,并支持用户对部分脱敏数据恢复。基于提出的异构大数据脱敏模型,对2种典型数据脱敏应用场景进行了验证分析,表明所提模型能够实现不同应用场景下异构敏感数据的高效脱敏。

     

  • 图 1  异构大数据脱敏模型

    Figure 1.  Data masking model for heterogeneous big data

    图 2  定制化数据脱敏流程

    Figure 2.  Customized data masking process

    图 3  数据脱敏策略层次结构模型

    Figure 3.  Hierarchical model of data masking strategy

    图 4  某银行客户贷款信息数据脱敏过程

    Figure 4.  Data masking process for bank customer loan information

    图 5  社交网络图片数据脱敏过程

    Figure 5.  Data masking process for social network pictures

    表  1  不同数据类型的常用脱敏操作

    Table  1.   Commonly used data masking operation for different data types

    操作类型 替换 改组 数字/日期差异 加密 删除 遮掩 平均值
    数值
    中文字符
    英文字符
    特殊字符
    图片
    音频
    下载: 导出CSV

    表  2  随机一致性指标RI的数值

    Table  2.   Values of random consistency indicator RI

    n 1 2 3 4 5 6 7 8 9
    RI 0 0 0.58 0.90 1.12 1.24 1.32 1.41 1.45
    下载: 导出CSV
  • [1] SWEENEY L. k-anonymity: A model for protecting privacy[J]. Fuzziness and Knowledge-based Systems, 2002, 10(5): 557-570. doi: 10.1142/S0218488502001648
    [2] RADHAKRISHNAN R, KHARRAZI M, MEMON N. Data masking: A new approach for steganography[J]. Journal of VLSI Signal Processing Systems for Signal, Image and Video Technology, 2005, 41(3): 293-303. doi: 10.1007/s11265-005-4153-1
    [3] RAVIKUMAR G K, MANJUNATH T N, RAVINDRA S, et al. A survey on recent trends, process and development in data masking for testing[J]. International Journal of Computer Science, 2011, 8(2): 535-544. http://core.ac.uk/download/pdf/25891670.pdf
    [4] VICTOR N, LOPEZ D, ABAWAJY J H. Privacy models for big data: A survey[J]. International Journal of Big Data Intelligence, 2016, 3(1): 61-75. doi: 10.1504/IJBDI.2016.073904
    [5] VADREVU P K, ADUSUMALLI S K, MANGALAMPLLI V K. Survey: Privacy preserving data publication in the age of big data in IoT era[J]. International Journal of Engineering, Science and Mathematics, 2017, 6(8): 938-944. http://www.researchgate.net/profile/Pavan_Vadrevu2/publication/323166547_Survey_Privacy_Preserving_Data_Publication_in_the_age_of_Big_Data_in_IoT_Era/links/5a83bd3645851504fb3a784b/Survey-Privacy-Preserving-Data-Publication-in-the-age-of-Big-Data-in-IoT-Era.pdf
    [6] 陈天莹, 陈剑锋. 大数据环境下的智能数据脱敏系统[J]. 通信技术, 2016, 49(7): 915-922. doi: 10.3969/j.issn.1002-0802.2016.07.023

    CHEN T Y, CHEN J F. Intelligent data masking system for big data productive environment[J]. Communications Technology, 2016, 49(7): 915-922(in Chinese). doi: 10.3969/j.issn.1002-0802.2016.07.023
    [7] MACHANAVAJJHALA A, GEHRKE J, KIFER D, et al. l-diversity: Privacy beyond k-anonymity[C]//IEEE 22nd International Conference on Data Engineering. Piscataway: IEEE Press, 2006: 24.
    [8] LI N, LI T, VENKATASUBRAMANIAN S. t-closeness: Privacy beyond k-anonymity and l-diversity[C]//IEEE 23rd International Conference on Data Engineering. Piscataway: IEEE Press, 2007: 106-115.
    [9] SARADA G, ABITHA N, MANIKANDAN G, et al. A few new approaches for data masking[C]//International Conference on Circuits, Power and Computing Technologies. Piscataway: IEEE Press, 2015: 15295632.
    [10] GUJJARY V A, SAXENA A. A neural network approach for data masking[J]. Neurocomputing, 2011, 74(9): 1497-1501. doi: 10.1016/j.neucom.2011.01.002
    [11] ZHOU Y, LOUIS T A. A smoothing approach for masking spatial data[J]. Annals of Applied Statistics, 2010, 4(3): 1451-1475. doi: 10.1214/09-aoas325
    [12] 吴克河, 朱海, 李为, 等. 基于敏感信息度量的t-保密脱敏技术改良[J]. 信息技术, 2019(11): 5-9. https://www.cnki.com.cn/Article/CJFDTOTAL-HDZJ201911002.htm

    WU K H, ZHU H, LI W, et al. An improvement of t-closeness technology based on sensitive information metric[J]. Information Technology, 2019(11): 5-9(in Chinese). https://www.cnki.com.cn/Article/CJFDTOTAL-HDZJ201911002.htm
    [13] SANTOS R J, BERNARDINO J, VIEIRA M. A data masking technique for data warehouses[C]//Proceedings of the 15th Symposium on International Database Engineering & Applications, 2011: 61-69.
    [14] 张琦颖. 大数据脱敏系统的设计与实现[D]. 北京: 北京邮电大学, 2018: 19-33.

    ZHANG Q Y. The design and implementation of big data anonymity system[D]. Beijing: Beijing University of Posts and Telecommunications, 2018: 19-33(in Chinese).
    [15] 邵华西. 基于T-Closeness的大数据脱敏系统的设计与实现[D]. 北京: 北京邮电大学, 2019: 44-52.

    SHAO H X. Design and implementation of T-Closeness based big data anonymization system[D]. Beijing: Beijing University of Posts and Telecommunications, 2019: 44-52(in Chinese).
    [16] 王鑫, 王电钢, 母继元, 等. 基于机器学习的数据脱敏系统研究与设计[J]. 电力信息与通信技术, 2018, 16(1): 33-38. https://www.cnki.com.cn/Article/CJFDTOTAL-DXXH201801007.htm

    WANG X, WANG D G, MU J Y, et al. Research and implementation of data masking system based on machine learning[J]. Electric Power ICT, 2018, 16(1): 33-38(in Chinese). https://www.cnki.com.cn/Article/CJFDTOTAL-DXXH201801007.htm
    [17] 邓雪, 李家铭, 曾浩健, 等. 层次分析方法权重计算方法分析及其应用研究[J]. 数学的实践与认知, 2012, 42(7): 93-100. https://www.cnki.com.cn/Article/CJFDTOTAL-SSJS201207013.htm

    DENG X, LI J M, ZENG H J, et al. Research on computation methods of AHP weight vector and its applications[J]. Mathematics in Practice and Theory, 2012, 42(7): 93-100(in Chinese). https://www.cnki.com.cn/Article/CJFDTOTAL-SSJS201207013.htm
  • 加载中
图(5) / 表(2)
计量
  • 文章访问数:  552
  • HTML全文浏览量:  253
  • PDF下载量:  76
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-08-09
  • 录用日期:  2020-09-05
  • 网络出版日期:  2022-02-20

目录

    /

    返回文章
    返回
    常见问答