首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
一种去除重复URL的算法   总被引:1,自引:0,他引:1  
通过对Bloom Filter算法及其改进型在Web信息采集时的去重策略进行分析,结合Dynamic Bloom Filter算法,采用动态数组对集合元素进行表示,提出了一种去重应用策略,实现了对集合中重复URL的频度查询和删除操作支持,最后使用该去重策略进行了实验并和其他策略进行了比较,实验证明该应用策略能够在误判率较低的情况下取得较好的去重效果。  相似文献   

2.
针对目前软件定义网络中细粒度的流匹配机制造成的网络流表项空间开销和查询开销爆炸式增长等问题,提出了一种全新的基于布隆过滤器(Bloom Filter)的多级流表结构。该结构为混合流表结构,采用Bloom Filter多级流表结构来存储流表项,主要着眼于提高软件定义网络(SDN)交换机流表的容量和加快流表项的匹配速度;在流表项语义层面,设计并实现了控制器与SDN交换机之间的中间适配层模块来解决语义冲突问题。基于真实流量的实验结果表明,在规则占用空间上,与传统流表相比,Bloom Filter在流表越精细的情况下优化比率越高,最高可达90.7%。随着流表项规则的增加,匹配耗时优化效率提高,匹配时间最多可减少99.4%。该问题的解决可望为SDN网络的大规模实用化部署奠定数据层面的基础。  相似文献   

3.
海量数据的高效表示和查找成为目前存储系统面临的重要挑战.针对存储系统中大规模动态数据集的表示和查找效率问题,提出一种多路平衡型矩阵Bloom Filter结构(M-BMBF)及其插入和查询算法.M-BMBF根据数据集合大小建立一个r×m矩阵型Bloom Filter,设计多个定位哈希函数将该矩阵Bloom Filter分为多组(多路)以实现平衡插入和高效查询操作.为减缓Bloom Filter中比特的消耗速度,使用一种"最长位匹配"填充算法,新元素的插入将从多路备选Bloom Filter中选择新置为1比特个数最少的Bloom Filter中进行.实验结果表明,相较典型拆分Bloom Filter,M-BMBF能在维持算法消耗时间为常量的基础上,有效节省存储空间,降低误判率.  相似文献   

4.
任红云 《科技资讯》2013,(10):11-11
Bloom Filter是一种空间和时间效率很高的二进制项量数据结构,它利用位数组很简单地表示一个集合,并能检索一个元素是否属于这个集合。Bloom Filter的高效检索是由有一定误报率换来的。因此,Bloom Filter只适合那些允许一定误报率的应用场合。  相似文献   

5.
传统网络安全漏洞侦测技术无法准确得到攻击注入点,和服务器交互频繁,导致侦测结果不可靠、效率低下。为此,提出一种新的基于渗透测试的网络安全漏洞实时侦测技术。设计了渗透测试下网络安全漏洞实时侦测系统,构建系统架构,在生成攻击图时,将网络当前节点漏洞看作单位编码,利用进化计算对不同漏洞属性权重进行调整,获取攻击图库。在设计攻击注入点分析模块时,利用广度优先爬取法,依据网页目录层次实现网络页面爬取;通过爬取过程获取网络全部页面攻击注入点,根据Bloom Filter对重复的URL进行去重处理。利用渗透测试实现攻击和分析模块设计,以此生成攻击图对注入点注入攻击;对攻击反馈进行研究,判断注入点是否存在网络安全漏洞。渗透测试时为了降低交互频率,通过探子请求技术完成探测,对是否进行进一步侦测进行判断。实验结果表明,所提技术侦测结果可靠,效率高。  相似文献   

6.
为了解决网络中路由循环的实时检测问题,提出了一种基于Bloom Filter的路由循环实时被动检测方法.这种方法利用Bloom Filter存储资源占用小和查找时间消耗少的优点快速地发现源、宿地址,源、宿端口号均相同的疑似循环路由报文,再通过对报文TTL值递减特征的判断确定循环路由现象的存在.对于Bloom Filter本身存在误判率的问题,该方法采用增大位向量的长度的方法予以解决.实验结果表明本方法可以准确地发现循环路由,与传统主被动探测路由循环方式相比,减少了对网络带宽资源的占用,同时极大提高了算法的实时性.  相似文献   

7.
传统网络安全漏洞侦测技术无法准确得到攻击注入点,和服务器交互频繁,导致侦测结果不可靠、效率低下。为此,提出一种新的基于渗透测试的网络安全漏洞实时侦测技术。设计了渗透测试下网络安全漏洞实时侦测系统,构建系统架构,在生成攻击图时,将网络当前节点漏洞看作单位编码,利用进化计算对不同漏洞属性权重进行调整,获取攻击图库。在设计攻击注入点分析模块时,利用广度优先爬取法,依据网页目录层次实现网络页面爬取;通过爬取过程获取网络全部页面攻击注入点,根据Bloom Filter对重复的URL进行去重处理。利用渗透测试实现攻击和分析模块设计,以此生成攻击图对注入点注入攻击;对攻击反馈进行研究,判断注入点是否存在网络安全漏洞。渗透测试时为了降低交互频率,通过探子请求技术完成探测,对是否进行进一步侦测进行判断。实验结果表明,所提技术侦测结果可靠,效率高。  相似文献   

8.
分布式网络爬虫URL去重策略的改进   总被引:1,自引:0,他引:1  
分布式网络爬虫作为一门新兴技术,已经应用在一些大型商业的搜索引擎系统当中.重点放在分布式技术在网络爬虫领域中,URL去重这一分布式网络爬虫的核心问题上,以基于内存的去重方式为基础,扩展改进传统的广义表数据结构,提出了一种新的基于内存改进广义表的URL去重算法.这种算法与传统的去重算法相比较,在空间效率可行范围之内,有效地缩短了单次去重的时间,使总控服务器上的去重不再成为整个系统的瓶颈.  相似文献   

9.
分布式环境下改进的Bloom Filter过滤技术   总被引:1,自引:0,他引:1  
分析了Bloom Filter技术在特殊的分布式系统———P2P系统中的应用.基于Bloom Filter提出了一种新的Division Bloom Filter(DBF)技术,DBF技术采用了一组相互独立的哈希函数来计算数据对象的地址序列,然后使用这组地址序列将数据对象存储到一个分片的位向量中,所以DBF技术可以有效减少数据对象的存储空间.实验证明,DBF不仅可以解决Bloom Filter在分布式环境下的动态更新问题,还可以有效减少BloomFilter的错误率以及改善其稳定性.最后还使用数据压缩技术进一步减少在P2P系统中使用DBF技术的结点间通信代价.  相似文献   

10.
Bloom Filter采用位串向量表示数据集合,能够实现高效集合查询的数据结构。首先介绍了标准布隆过滤器的概念和工作原理,然后通过实验分析布隆过滤器的错误率、空间向量和哈希函数数量三者之间的动态相关关系,并对独立空间布隆过滤器和标准布隆过滤器性能进行对比,最后讨论了Bloom Filter的变种及应用。  相似文献   

11.
随着互联网技术的发展,网络中包含的信息量承爆炸式增长,如何在数量繁多的信息中找到自己需要的,是一项不小的工程,因此,网络搜索引擎应运而生,随着搜索引擎的发展,越来越多的用户选择使用搜索引擎,但是搜索引擎并不完善,还需要种类繁多的网络爬虫进行辅助。尽管使用了网络爬虫进行辅助,但是为了提高搜索效率,我们需要对采取一些方式来使网络爬虫优先选取那些符合搜索要求的网页,在这种情况下,如何对网络爬虫系统中进行设置来提高URL去重的能力将会对网络爬虫的运行效率产生不小的影响。下文将就如何简单的对URL去重进行阐述。  相似文献   

12.
本文研究的基于Web的智能信息采集及处理系统,一方面采用高效的URL去重和基于模版的下载机制,极大提高了采集Web资源的性能;另一方面应用成熟、先进的自然语言处理技术,对采集信息做智能分类和摘要。  相似文献   

13.
本文研究的基于Web的智能信息采集及处理系统,一方面采用高效的URL去重和基于模版的下载机制,极大提高了采集Web资源的性能;另一方面应用成熟、先进的自然语言处理技术,对采集信息做智能分类和摘要。  相似文献   

14.
本文研究的基于Web的智能信息采集及处理系统,一方面采用高效的URL去重和基于模版的下载机制,极大提高了采集Web资源的性能;另一方面应用成熟、先进的自然语言处理技术,对采集信息做智能分类和摘要。  相似文献   

15.
一种基于Bloom Filter的正则表达式集合快速搜索算法   总被引:1,自引:0,他引:1  
正则表达式搜索算法的性能与从非确定性有限状态自动机(NFA)的初始状态到终止状态的最短路径Lmin成正比,与正则表达式所表达的语言的前缀集合Pref(RE)成反比,而一般情况下Pref(RE)较大,确定Pref(RE)中的元素在目标文本中的出现位置比较困难.文中提出了一种基于Bloom Filter的正则表达式集合搜索算法,此算法利用Bloom Filter集合查询时间与集合大小无关的特点,可以快速准备定位Pref(RE)的出现位置,使得搜索速度不受Pref(RE)的影响,如果采用多个Bloom Filter并行,还可以间接增大Lmin.分析与测试结果表明,该算法较大地加快了正则表达式的搜索速度,对于正则表达式集合,算法性能改善尤其明显,在Lmin较长、Pref(RE)较大时,搜索速度可以提高数倍至数十倍,适合大规模的多正则表达式的快速搜索.  相似文献   

16.
本文研究的基于Web的智能信息采集及处理系统,一方面采用高效的URL去重和基于模版的下载机制,极大提高了采集Web资源的性能;另一方面应用成熟、先进的自然语言处理技术,对采集信息做智能分类和摘要。  相似文献   

17.
随着云计算的深入发展,隐私安全成为了云安全的一个关键问题。传统的加密方法是常用的保护敏感数据的方法,但是它们不支持对密文的直接操作。为了提供云计算环境中的隐私保护,提出了基于双哈希和带权重的Bloom Filter(DWBF),并构建了基于DWBF的支持模糊检索的加密算法KEDWBF。安全分析和性能评估证明KEDWBF是IND-CPA安全的,并能高效地实现对加密数据的模糊检索。  相似文献   

18.
网络舆情已经成为反映当今社会舆情重要组成部分,具有传播速度快、信息多元化等特点.建立舆情检测系统能够对大规模网络数据进行采集、挖掘和分析,对网络舆情热点话题进行及时的发现和追踪,为各单位和组织应对舆情危机提供科学、系统的支持.通过对网络爬虫搜索策略、大规模URL去重、页面识别等技术的研究和改进,实现一个高效、快捷的网络爬虫系统.  相似文献   

19.
网页去重策略   总被引:1,自引:0,他引:1  
提出基于同源网页去重与内容去重的策略.通过对网址URL进行哈希散列完成对同源网页的去重,并对内容相同或近似的网页采用基于主题概念的去重判断.实验表明,该方法有效且去重效果良好.基于上述算法实现了教育资源库教育资讯搜索引擎系统.  相似文献   

20.
基于双PC机的包过滤器研究   总被引:5,自引:0,他引:5  
首先对以太网上的PC包过滤器(PC Filter,PF)在不同的网络传输速度下的吞吐量进行了分析,由此提出了一种基于双PC机的包过滤器(Dual-PC Filter, D-PF)模型和实现方法.对已实现的D-PF的测试表明,在吞吐量、丢包率和过滤延迟方面,D-PF性能要优于PF.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号