首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
针对大型网站的网页特征,综合考虑网页时新性(更新度)、重要性及对Web服务器的友好性等因素,设计了一种面向用户体验的分类网页更新策略(三类别更新策略).根据网页变化的快慢,将网页分成速变、多变及少变3类,然后根据用户行为确定不同类别网页的更新速度和更新时间段,从而实现分类网页更新.实例分析表明,这种策略提高了搜索引擎中大型网站网页更新的效率,缓解了Web服务器的压力,并可保证用户对于检索结果的及时性和正确性.  相似文献   

2.
李大林 《科技信息》2007,(7):69-69,117
本文主要研究并分析了搜索引擎算法查准率相关的问题,针对特定主题的搜索引擎构建问题,给出了一种主题搜索引擎的体系结构,并在此基础上,提出了面向主题的专业网页索引集构造算法.模拟实验表明,以该算法为基础的主题搜索引擎能使用户搜索到该主题的权威页和中心页,可以有效地提高搜索引擎的查准率。  相似文献   

3.
随着互联网的信息以指数级增长,用户希望搜索引擎能够提供面向专业的更准确智能搜索服务,主题搜索引擎的研究显得越来越有意义。本文对基于本体语义主题搜索引擎系统的关键技术进行研究。首先建立主题搜索引擎系统流程,对主题网络爬虫,网页主题相关度、网页主题分类进行了算法研究。最后以服装纺织领域的主题搜索实现为例,说明主题搜索引擎系统能更准确快速实现专业搜索服务。  相似文献   

4.
林强 《咸宁学院学报》2012,32(2):154-156
介绍了笔者所设计的一个校园网搜索引擎(SzCompass)中的网页排序算法。首先详细分析了通用搜索引擎常用的PageRank和HITS网页排序算法;通过比较在校园网和Internet上搜索的主要区别,设计了一种适合校园网的多参数加权的网页排序算法,并对利用该算法实现的搜索引擎的检索效率进行了实验分析。  相似文献   

5.
如何有效地构建面向领域的垂直搜索引擎,是信息检索领域众多研究者关注的问题.本文提出了一种通用的基于专业词汇表构建垂直搜索引擎的方法,通过分析网页特征,提出了基于链接结构和文本内容的启发式网页爬取策略.该策略结合网页的结构信息特征,在网页和主题相关度计算中考虑了特征词汇在网页中的权重,有效地提高了专业搜索引擎的查询效率.通过具体实现一个面向医疗领域的垂直搜索引擎,验证了本文所提出的方法的有效性.  相似文献   

6.
对网页PageRank算法的改进   总被引:19,自引:0,他引:19  
分析了著名搜索引擎Google采用的PageRank算法,指出其偏重旧网页,忽视专业站点以及对网页中的超链接评估不恰当等不足之处。改进算法考察了网页日期这一重要因素,并重新计算网页中超链接对网页的影响。网页结构中蕴涵着丰富的信息,在href,title等标记中文字对网页主题有重要作用,利用结构标记可以辅助判断网页的主题内容。试验结果表明,采用改进的算法可以提高判断网页重要性的准确度。  相似文献   

7.
信息检索中基于链接的网页排序算法   总被引:5,自引:0,他引:5  
介绍超链接环境下基于链接的网页排序算法,比较和分析了PageRank算法和HITS算法,指出了PageRank算法更适合于搜索引擎的服务器端,而HITS算法更适合于搜索引擎的客户端,还构造并初步实现了在信息检索中,应用超链接环境下网页排序算法的综合模型。  相似文献   

8.
循证医学信息化若干关键技术的研究   总被引:1,自引:1,他引:0  
由于Web信息检索返回页面的数量巨大,对搜索结果进行排序成为影响搜索质量的一个重要问题.分析了搜索引擎Google采用的PageRank算法,指出其具有偏重旧网页和忽视专业站点的不足,考虑网页日期这一重要因素改进了PageRank算法,试验结果表明,改进的算法可以提高判断网页重要性的准确度.最后介绍了如何通过个性化服务来发现与用户兴趣相似的资源.  相似文献   

9.
基于Map/Reduce的网页消重并行算法   总被引:1,自引:0,他引:1  
网页消重模块是搜索引擎系统的重要组成部分,其作用是对搜索引擎的爬虫系统下载的网页进行过滤,去除重复内容的网页,从而提高搜索引擎爬虫系统的性能和检索的质量。提出了一种网页消重的并行算法以及基于Map/Reduce的实现机制,并通过实际网站的实验验证了该消重算法的稳定性和处理大量网页时的并行性能。  相似文献   

10.
实现站内搜索引擎的关键一步是信息的自动采集.站内信息采集技术是通过分析网页的HTML代码,获取网内的超链信息,使用广度优先搜索算法和增量存储算法,实现自动地连续分析链接、抓取文件、处理和保存数据的过程.系统在再次运行中通过应用属性对比技术,在一定程度上避免了对网页的重复分析和采集,提高了信息的更新速度和搜全率.  相似文献   

11.
0 IntroductionTIon tceorpneet w ,itthhefr cerqauwelnetr sch oafn sgeeasr cohf tehneg iinnfeo rnemeadti toon uopnd tahteethe web pages visited. Different pages have different changefrequencies[1].Sothe crawlers must firstly esti mate which pa-ges need to b…  相似文献   

12.
一种基于时间感知的搜索引擎模型   总被引:2,自引:0,他引:2  
目前许多用户查询与网页信息的时效性密切相关,但当前的搜索引擎在处理许多具有时间属性的查询时还不尽如人意。通过引入基于时间感知的用户查询理解、索引结构和页面排序算法,提出一种基于用户查询日志挖掘的时间感知搜索引擎模型,来克服当前主流搜索引擎在处理具有时效性查询时存在的不足在真实的Web环境下广泛进行的实验结果表明了该模型的有效性。  相似文献   

13.
搜索引擎中页面更新策略的分析与改进   总被引:2,自引:0,他引:2  
网上信息资源不断变化,搜索引擎需要不断更新它所访问过的网页,提高更新效率是搜索引擎的关键技术所在,在总结搜索引擎现有页面更新策略(统一更新策略和个体更新策略)进行了比较,指出了两种方案的优劣所在,进而提出了一种改进的折衷方案即分类更新策略。并从理论上论证其优越性,在实际应用中评价了有其有效性,结果表明分类更新策略很大程度上改进的搜索效果。  相似文献   

14.
提出了一种可定制聚焦网络爬虫技术.该技术采用简单的主题描述方法提高网络爬虫的可定制性,利用基于站点页面链接结构的链接导航技术实现对主题信息的高效抓取,通过配置文件实施定制,从而构建一个资源消耗小、数据采集准确性高、可控性强的轻量级聚焦网络爬虫,以满足P2P搜索的需求.文中进一步提出一种增量更新和批量更新相结合的网络爬虫数据更新机制,这种混合更新机制降低了增量更新的实现复杂性,相比批量更新具有更小的资源消耗,实验表明采用这种机制能达到较高的数据新鲜度和召回率.  相似文献   

15.
在互联网高速发展的今天,搜索引擎逐渐成为用户在Web上获取信息的主要工具。传统的通用搜索引擎利用一个Crawler程序面向整个Web进行信息采集,它的缺点是采集无针对性、页面失效率高、不能满足特定专业人群的需要。针对这种情况,需要一个分类细致精确、数据全面深入、更新及时的面向主题的搜索引擎。  相似文献   

16.
分析基于前缀长度的二分路由查找算法和基于Trie的路由查找算法的优缺点,在此基础上提出一个改进的路由查找算法,并给出其在IPv6下的实现方案.由于基于前缀长度的二分路由查找算法扩展性好、查找速度快,而基于Trie的路由查找算法实现灵活、转发表动态更新快,这使得所提算法具备路由转发表动态更新快、查找速度快、对前缀长度扩展性好等优点.模拟实验表明该算法能够较好地满足IPv6的要求.  相似文献   

17.
提出了一种改进的粒子群优化(IPSO)算法以解决可靠性问题.IPSO算法使用3种策略来改进粒子群优化算法(PSO)的速度更新步骤,这有利于提高算法对解空间的开发能力.另外,一种动态调整的惯性权重被引入到速度更新中以平衡IPSO算法的全局搜索和局部搜索.实验结果表明,在解决可靠性问题上,IPSO算法比其他两种粒子群优化算法具有更强的收敛性和稳定性.IPSO算法是解决可靠性问题的一个有效的选择.  相似文献   

18.
介绍了搜索引擎的总体结构,分析了搜索引擎中爬行器的爬行策略和网页库的更新模式。介绍了其中一种较为合理的爬行和更新模式及其实现技术,实现了渐增式地爬行高质量网页和提高网页库新鲜度的目的。  相似文献   

19.
通常搜索引擎网站都有存储大量远程站点复制网页的数据库.为保持复制网页和源网页的同步,需要花费大量的时间和资源.本文提出了保持复制网页和源网页一致的多种同步新策略,并提出源端网页变化的泊松模型,给出了刷新率和刷新时长的规范性描述,对各种同步策略的性能进行了研究和比较分析,发现其较大地改善了网页数据库刷新率.  相似文献   

20.
为了提高专业搜索引擎的查询精度,提出了一种基于PageRank算法的改进搜索结果融合算法.首先,通过对元搜索引擎技术的分析,将rtf算法和PageRank算法进行融合,提出了基于PageRank算法的改进算法.该算法可以实现基于同义词、近义词的查询,将这种改进的算法在煤地质学专业搜索引擎上进行使用,实验结果表明,采用该...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号