首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一种去除重复URL的算法
引用本文:苏国荣,杨岳湘,邓劲生.一种去除重复URL的算法[J].广西师范大学学报(自然科学版),2010,28(1).
作者姓名:苏国荣  杨岳湘  邓劲生
作者单位:1. 国防科学技术大学计算机学院,湖南,长沙,410073
2. 国防科学技术大学信息中心,湖南,长沙,410073
基金项目:国家高技术研究发展计划(863计划),湖南省自然科学基金,广东省科技计划项目 
摘    要:通过对Bloom Filter算法及其改进型在Web信息采集时的去重策略进行分析,结合Dynamic Bloom Filter算法,采用动态数组对集合元素进行表示,提出了一种去重应用策略,实现了对集合中重复URL的频度查询和删除操作支持,最后使用该去重策略进行了实验并和其他策略进行了比较,实验证明该应用策略能够在误判率较低的情况下取得较好的去重效果。

关 键 词:布隆过滤器  散列函数  网页去重

An Algorithm of Removing Duplicate URL
SU Guo-rong,YANG Yue-xiang,DENG Jing-sheng.An Algorithm of Removing Duplicate URL[J].Journal of Guangxi Normal University(Natural Science Edition),2010,28(1).
Authors:SU Guo-rong  YANG Yue-xiang  DENG Jing-sheng
Abstract:
Keywords:URL
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号