摘要: 针对半结构化数据XML在数据清理中的重要性,研究了如何清理XML相似重复数据,主要工作有:提出一种有效的XML相似重复数据清理方法,该方法具有较强的适应性,任何XML相似检测算法都适用于此;给出一种基于树编辑距离的相似检测算法,该算法能有效地检测XML相似重复数据;采用树编辑距离的上下限优化基于树编辑距离的相似检测算法,避免了不必要的树编辑距离计算,降低了相似检测计算的复杂度,提高了运算效率.此工作为研究XML相似重复数据清理打下基础.
中图分类号:
陈伟, 丁秋林. 一种XML相似重复数据的清理方法研究[J]. 北京航空航天大学学报, 2004, 30(09): 835-838.
Chen Wei, Ding Qiulin. Study on an XML approximately duplicated data cleaning method[J]. JOURNAL OF BEIJING UNIVERSITY OF AERONAUTICS AND A, 2004, 30(09): 835-838.