留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于用户查询日志的查询聚类

贾荣飞 金茂忠 王晓博

贾荣飞, 金茂忠, 王晓博等 . 基于用户查询日志的查询聚类[J]. 北京航空航天大学学报, 2010, 36(4): 500-503.
引用本文: 贾荣飞, 金茂忠, 王晓博等 . 基于用户查询日志的查询聚类[J]. 北京航空航天大学学报, 2010, 36(4): 500-503.
Jia Rongfei, Jin Maozhong, Wang Xiaoboet al. Query clustering using user-query logs[J]. Journal of Beijing University of Aeronautics and Astronautics, 2010, 36(4): 500-503. (in Chinese)
Citation: Jia Rongfei, Jin Maozhong, Wang Xiaoboet al. Query clustering using user-query logs[J]. Journal of Beijing University of Aeronautics and Astronautics, 2010, 36(4): 500-503. (in Chinese)

基于用户查询日志的查询聚类

基金项目: 国家863计划资助项目(2007AA010302); 国家自然科学基金资助项目(60603039,90718018)
详细信息
    作者简介:

    贾荣飞(1981-),男, 辽宁沈阳人,博士生,cjrf@sei.buaa.edu.cn.

  • 中图分类号: TP 311

Query clustering using user-query logs

  • 摘要: 基于用户查询日志提出了新的查询聚类算法.用户查询日志数据量大,比通常用于查询聚类的查询展现日志和查询点击日志更加稠密,不易产生聚类小的问题,但噪声多,不容易处理.为发现相似查询并减少噪声影响,同一用户同一时段的多次查询(共现查询)之间认为具有较高相似概率.在这一假设基础上,利用查询共现关系建立查询的邻居查询向量空间.将查询用邻居查询向量表示,邻居查询向量的相似度作为聚类中的查询相似度.应用改进的基于密度聚类算法完成聚类.实验证明,95262个查询组成数据集上,聚类算法实现查准率79.77%、查全率48.21%,平均聚类大小达到51.

     

  • [1] Wen Jirong,Nie Jianyun,Zhang Hongjiang.Query clustering using user logs[J].ACM Transactions on Information Systems,2002,20(1):59-81 [2] Fonseca B M,Golgher P B,De Moura E S,et al.Using association rules to discovery search engines related queries //1st Latin American Web Congress.Santiago:Citeseer,2003:66-71 [3] Beeferman D,Berger A L.Agglomerative clustering of a search engine query log //Proceedings of the 6th ACM SIGKDD International conference on Knowledge discovery and data mining.New York:ACM Press,2000:407-416 [4] Baeza-Yates R A,Tiberi A.Extracting semantic relations from query logs //Proceedings of the 13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2007:76-85 [5] Chan W,Leung W,Lee D.Clustering search engine query log containing noisy clickthroughs //Proceedings of SAINT Conference 2004.Tokyo:IEEE Computer Society,2004:305-308 [6] 张辉,谢科,庞斌,等.一种基于关键特征的搜索引擎结果聚类算法[J].北京航空航天大学学报,2007,33(6):739-742 Zhang Hui,Xie Ke,Pang Bin,et al.Key-feature-based clustering algorithm for search engine results[J].Journal of Beijing University of Aeronautics and Astronautics,2007,33(6):739-742(in Chinese)  [7] 张刚,刘悦,郭嘉丰,等.一种层次化的检索结果聚类方法[J].计算机研究与发展,2008,45(3):542-547 Zhang Gang,Liu Yue,Guo Jiafeng,et al.A hierarchical search result clustering method[J].Journal of Computer Research and Development,2008,45(3):542-547(in Chinese)  [8] Yi J,Maghoul F.Query clustering using click-through graph //Proceedings of the 18th International Conference on World Wide Web.Madrid:ACM Press,2009:1055-1056  [9] Deshpande M,Karypis G.Item-based top-n recommendation algorithms[J].ACM Transactions on Information Systems,2004,22(1):143-177 [10] Ester M,Kriegel H P,Sander J,et al.A density-based algorithm for discovering clusters in large spatial databases with noise //Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining.Portland:AAAI Press,1996:226-231
  • 加载中
计量
  • 文章访问数:  3517
  • HTML全文浏览量:  136
  • PDF下载量:  3040
  • 被引次数: 0
出版历程
  • 收稿日期:  2009-07-10
  • 网络出版日期:  2010-04-30

目录

    /

    返回文章
    返回
    常见问答