首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 50 毫秒
1.
随着互联网技术的发展,网络中包含的信息量承爆炸式增长,如何在数量繁多的信息中找到自己需要的,是一项不小的工程,因此,网络搜索引擎应运而生,随着搜索引擎的发展,越来越多的用户选择使用搜索引擎,但是搜索引擎并不完善,还需要种类繁多的网络爬虫进行辅助。尽管使用了网络爬虫进行辅助,但是为了提高搜索效率,我们需要对采取一些方式来使网络爬虫优先选取那些符合搜索要求的网页,在这种情况下,如何对网络爬虫系统中进行设置来提高URL去重的能力将会对网络爬虫的运行效率产生不小的影响。下文将就如何简单的对URL去重进行阐述。  相似文献   

2.
通过对布隆过滤器算法误判率的分析和推理,得到最小误判率和最优散列函数个数,并且总结了误判率与输入元素大小n、位数组长度m和散列函数个数k的关系.分析了置信度为90%、95%、99%时误判率的置信区间,同时设置置信度为95%时,计算输入元素的规模大小分别为1e10(十亿级)、1e11(百亿级)、1e12(千亿级)时的位数...  相似文献   

3.
针对当前网络主页不断受到黑客攻击,提出一种有效保护模型——基于散列算法的文件系统扫描检测与恢复系统,预防网络黑客的攻击,并在一旦网络被黑客攻破后能及时报警与恢复,达到有效保护网页的目的.  相似文献   

4.
散列函数在查询算法中起着重要作用,基于此的查询算法在理论上可达到常数级时间复杂度。提出了双次线性映射散列函数,和除留余数法、平方取中法、折叠法等常用的散列函数相比,该函数具有单调性,并在一定程度上消除了堆积现象;和线性散列函数相比,该函数具有受数据分布特性影响小,易推广的特点。通过该散列函数,一个待查元素可以在有序序列中被定位到离真实位置偏差很小的范围之内。基于此提出了一种高效的查询算法。  相似文献   

5.
分布式网络爬虫URL去重策略的改进   总被引:1,自引:0,他引:1  
分布式网络爬虫作为一门新兴技术,已经应用在一些大型商业的搜索引擎系统当中.重点放在分布式技术在网络爬虫领域中,URL去重这一分布式网络爬虫的核心问题上,以基于内存的去重方式为基础,扩展改进传统的广义表数据结构,提出了一种新的基于内存改进广义表的URL去重算法.这种算法与传统的去重算法相比较,在空间效率可行范围之内,有效地缩短了单次去重的时间,使总控服务器上的去重不再成为整个系统的瓶颈.  相似文献   

6.
搜索结果页面的去重处理是提高网页检索结果质量的有效途径,笔者结合二叉排序树设计了一种基于文本抽取的网页正文去重算法,本文给出了该算法的具体实现。实验测试结果表明该算法在判断准确率、时间复杂度方面均具有一定优势,可应用于网络信息检索结果优化处理中的页面正文内容去重。  相似文献   

7.
针对Apriori算法在第二次迭代过程中产生大量候选集的弊端,在Spark大数据框架下,将Apriori算法进行并行化处理。提出一种基于Spark平台的改进Apriori算法——I-Apriori;该算法利用Spark基于内存计算的抽象对象(RDD)存储频繁项集,在第二次迭代中,通过使用改进的布隆过滤器存储频繁1项集,消除候选集生成,减少数据库扫描次数,提高算法效率。实验结果表明,相比基于Spark平台的Apriori算法进行性能评估,I-Apriori算法具有更优的性能,能够较大程度地提高大数据关联规则挖掘的效率。  相似文献   

8.
秦杰 《科学技术与工程》2013,13(8):2250-2253
网页去重具有很重要的实际意义,也是信息检索领域近几年研究的热点。分析现有的网页去重算法,并对经典的DSC(digital syntactic clustering)网页去重算法进行改进。为每篇文档生成一个特征向量集合,用该特征向量集合筛选shin-gles;然后进行相似性比较。实验表明,该算法对重复网页判定具有很好的准确率和召回率。  相似文献   

9.
利用文件过滤与数字水印技术,提出了一种新型网页防篡改系统的架构策略.该策略变传统事后补救的被动防御为主动发现恶意篡改意图,并即时阻拦;更安全、更高效的保护网站信息系统,使非法篡改者无法修改被保护的合法网页文件.  相似文献   

10.
通过处理和研究Web日志,得到多数用户感兴趣的页面URL和具有相近访问爱好的用户群体,对站点的结构是否适合用户作出判断并进行相应的调整,从而实现对用户的个性化服务.  相似文献   

11.
刘国卿 《科技信息》2011,(3):88-89,120
针对常用的URL篡改攻击,提出了一种基于MD5加密的URL防篡改算法。该算法将一段哈希代码作为校验码附加到目标URL后,在页面逻辑运行完成前采用过滤器实现校验码的比对,从而完成URL是否被篡改的判断;最后,基于.NET平台实现了新链接生成模块和校验模块,并讨论了模块的部署。  相似文献   

12.
针对反向代理应用中存在着的网页内嵌URL问题,提出了前置URL控制机制,构建了该机制的总体模型,包括URL定向模块、预分析器、HTML/XML解析器、URL修改模块和COOKIE修改模块各部件.论述了模型的核心技术--动态脚本的HTML解析和XSL/XML联合解析,提出了异地代理的解决方案.在Apache/Linux下实现了该模型原型,对其功能进行了完整测试,包括性能负载测试,测试结果表明该机制能高效地完成预期目标.  相似文献   

13.
张森  胡飞 《科学技术与工程》2006,6(13):1841-18441853
基于COM技术设计了嵌入式URL(网址)实时监控系统,设计实现了过滤网址,实时记录网址和网页标题、及管理、查看这些信息的功能,从而做到事前预防、事中监控、事后跟踪的多环节控制管理,最后实现了关键部分.  相似文献   

14.
一种新的Web链接提取模型   总被引:4,自引:0,他引:4  
以搜索引擎链接提取模块所要求的容错性、正确性、全面性、高效性和可扩展性为目标,提出了一种新的链接提取模型的设计思路。该模型将链接提取过程划分为信息提取、信息加工、信息分析和信息储存。信息的获取是通过HTM L(hypertex t m arkup language)文法分析方法从文档中得到初始统一资源地址(un iform resourceiden tifier,UR I)数据;信息加工阶段通过运用UR I解析算法对初始数据进行精练;然后在信息分析过程中进一步加以筛选和过滤;最后将结果存储在一个灵活的数据结构中。通过对比测试证实这种新的链接提取模式比传统方法在各项指标上均具有明显优势。  相似文献   

15.
分布式信息搜集系统中URL存储检索的设计与分析   总被引:2,自引:0,他引:2  
URL的存储检索效率是构建大规模分布式信息搜集系统的关键,其决定了系统搜集Web文档的效率,对URL存储检索性能做定量分析,分别得出MRL存储及检索所需要达到的速度指标,在此基础上,提出了两种URL存储检索原型,即集中URL服务器存储检索和分布URL存储检索,并对这两种原型系统的检索速度,性能价格比,可扩展性以及可靠性进行了分析比较。实际应用中,可以根据优化目标选择相应的URL存储检索实现方式。  相似文献   

16.
Web任务的分配影响Web服务器集群系统的整体性能。常用的分配方法是对用户的URL请求,根据服务器数量进行轮询分配。这种策略影响缓存的命中率和服务器性能的发挥。在分析了Web站点中文件的组织方式及用户对Web请求特征的基础上,提出了基于URL分配树的LT分配策略,根据URL地址构建URL分配树,对用户的请求进行响应。同时考虑任务的处理代价,各服务节点服务能力和当前负载状况,对服务节点进行负载均衡的任务分配。本文从缓存队列剩余、请求任务溢出情况和轮询分配策略进行了比较,实验表明本文的分配策略能根据服务节点的服务能力、负载状况进行合理地分配,实现了负载的真正均衡,提高了系统整体吞吐量。  相似文献   

17.
为解决中文数据的重复检测问题,在SNM(Sorted-Neighborhood Method)算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于一体的重复记录检测算法,通过利用《同义词词林扩展版》和Jaccard算法计算词语相似度,同时采用Python中Jieba中文分词的方式对语句进行分词,从而达到优化余弦相...  相似文献   

18.
通过观察网站呈现网页的规律及网页本身的结构特点,提出基于URL类型及网页链接变化规律的入口页面识别算法,优先抓取入口页面.在实际应用中,取得了较好的更新效果.  相似文献   

19.
为了减少大学生完成作业过程中的抄袭问题,提高大学课程教学的过程性考核效果。基于自然语言处理中常用的Simhash算法,设计开发了作业查重系统。该系统以Spring、SpringMVC、MyBatis(SSM)为开发框架,前端开发采用Bootstrap技术。先采用IKAnalyzer分词器对输入的作业文本进行分词处理,再使用Simhash算法计算文档的签名,最后通过计算汉明距离得到作业的查重结果。该系统能够对学生提交的作业进行查重,帮助教师客观地评价学生的作业完成情况,有效防止作业抄袭现象,从而营造良好的学风环境,促进学生的健康发展。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号