留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

一种XML相似重复数据的清理方法研究

陈伟 丁秋林

陈伟, 丁秋林. 一种XML相似重复数据的清理方法研究[J]. 北京航空航天大学学报, 2004, 30(09): 835-838.
引用本文: 陈伟, 丁秋林. 一种XML相似重复数据的清理方法研究[J]. 北京航空航天大学学报, 2004, 30(09): 835-838.
Chen Wei, Ding Qiulin. Study on an XML approximately duplicated data cleaning method[J]. Journal of Beijing University of Aeronautics and Astronautics, 2004, 30(09): 835-838. (in Chinese)
Citation: Chen Wei, Ding Qiulin. Study on an XML approximately duplicated data cleaning method[J]. Journal of Beijing University of Aeronautics and Astronautics, 2004, 30(09): 835-838. (in Chinese)

一种XML相似重复数据的清理方法研究

详细信息
  • 中图分类号: TP 31152

Study on an XML approximately duplicated data cleaning method

  • 摘要: 针对半结构化数据XML在数据清理中的重要性,研究了如何清理XML相似重复数据,主要工作有:提出一种有效的XML相似重复数据清理方法,该方法具有较强的适应性,任何XML相似检测算法都适用于此;给出一种基于树编辑距离的相似检测算法,该算法能有效地检测XML相似重复数据;采用树编辑距离的上下限优化基于树编辑距离的相似检测算法,避免了不必要的树编辑距离计算,降低了相似检测计算的复杂度,提高了运算效率.此工作为研究XML相似重复数据清理打下基础.

     

  • [1] Rahm E, Do H H.Data cleaning:problems and current approaches[J].IEEE Data Engineer Bulletin, 2000, 23(4):3~13 [2]Galhardas H, Florescu D, Shasha D,et al. Declarative data cleaning:language,model,and algorithms . In:Apers P, Atzeni P,Ceri S,eds.Proceedings of the 27th VLDB Conference . Roma:Morgan Kaufmann, 2001.371~380 [3]Monge A E.Matching algorithms within a duplicate detection system[J].IEEE Data Engineer Bulletin, 2000,23(4):14~20 [4]Zhang K,Shasha D. Tree pattern matching[M]. London:Oxford Univesity Press,1997 [5]Guha S, Jagadish H V, Koudas N,et al. Approximate XML joins . In:Proceedings of the 2002 ACM SIGMOD International Conference on Management of Data .Madison:ACM Press,2002
  • 加载中
计量
  • 文章访问数:  3670
  • HTML全文浏览量:  285
  • PDF下载量:  939
  • 被引次数: 0
出版历程
  • 收稿日期:  2003-06-02
  • 网络出版日期:  2004-09-30

目录

    /

    返回文章
    返回
    常见问答