首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 39 毫秒
1.
针对元搜索的重复网页问题,提出基于元搜索的网页去重算法,并通过实验对算法进行有效性验证。该算法首先对各成员搜索引擎返回来的结果网页的URL进行比较,然后对各结果网页的标题进行有关处理,提取出网页的主题信息,再对摘要进行分词,计算摘要的相似度,三者结合能很好的检测出重复网页,实现网页去重。该算法有效,并且比以往算法有明显的优势,更接近人工统计结果。  相似文献   

2.
针对海量web文本信息,利用从网页主题内容提取出来的特征关键词,在倒排索引基础上建立相似度计算模型.对一篇新入库的网页文档,利用所包含的关键词迅速缩小进行相似度计算的网页范围,提高计算效率.实验结果表明该算法是有效的,小规模评测结果得到较好的效果.  相似文献   

3.
利用超链接信息改进网页爬行器的搜索策略   总被引:5,自引:0,他引:5  
网页爬行器在Web空间中爬行时,要面对如下两个问题:1)由于Internet上的信息量十分巨大,网络搜索引擎不可能包含整个Web网页;2)受到硬件资源的限制,它所能存储的网页是有限的.爬行器如果按照传统的宽度优先搜索策略在Web空间中爬行,它对所有的网页都采取一视同仁的态度,这样爬行的结果就导致了它所爬行回来的网页质量不高.为此,给出了利用超链接信息改进网页爬行器搜索策略的算法.该算法充分考虑了网页之间的超链接信息,克服了传统的宽度优先搜索策略的盲目性爬行.实验表明,利用该算法爬行得到的网页与某一特定主题相关的网页超过50%.  相似文献   

4.
基于网页正文主题和摘要的网页去重算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对元搜索返回的网页内容相同,别名差异很大的重复网页,提出基于网页正文主题和摘要的网页去重算法,并通过实验对算法进行有效性验证。该算法首先对各成员搜索引擎返回来的网页标题进行有关处理,提取出网页的主题信息,然后对摘要进行分词,再计算摘要的相似度,二者结合能更好地现出文章摘要的内容,实现网页去重。该算法有效,并且比基于传统特征码的算法有明显的优势,更接近人工统计结果。  相似文献   

5.
提出了一种基于噪音清除的网页削重算法.首先应用空间向量模型,仅仅使用<特征词,权重>二元组表示网页,降低削重算法的时空复杂度;其次,通过一组启发式规则来消除网页中包含的“噪音”,消除了无关信息对网页核心内容的干扰.  相似文献   

6.
智能桌面元搜索引擎中个性化研究   总被引:1,自引:0,他引:1  
随着WWW信息量的急剧膨胀,当前的搜索引擎已经不能够很好的满足人们信息搜索的需求,元搜索引擎作为下一代功能更强大、更具智能的方案而成为当前的研究热点.本文针对桌面搜索引擎易于获得单个用户个性化信息的特点,提出了个性化桌面元搜索引擎的解决方案,从它的体系结构到局部的技术难点都作了详细描述,同时最后给出总结和展望.  相似文献   

7.
网页更新策略的好坏直接影响到专业搜索引擎的整体性能。在分析了专业搜索引擎中网页更新模块结构和它所采用的监控技术的基础上,考虑了重要性、时新性、估计频率、点击率等综合因素,提出了一种新的增量式更新算法P2FC。实验证明,该算法在保证时新性和提高更新效率上都取得了很好的效果。  相似文献   

8.
基于专业搜索引擎的元搜索引擎的设计   总被引:1,自引:0,他引:1  
介绍了一个基于专业搜索引擎的元搜索引擎,提出将专业搜索引擎与专门搜索“Invisible Web”检索工具相结合的方法.在对检索结果进行融合处理时,采用建立专业词典的方法来提取主题,并进行主题的分类.同时,通过记录用户感兴趣的主题,为用户提供个性化服务.  相似文献   

9.
针对目前搜索引擎返回的信息量过大且缺乏语义关联等问题,提出了一种云计算环境下的可视化探索式搜索引擎模型.该模型通过对元搜索引擎返回的原始信息在云计算环境下语义相似度的计算和语义链的构建,采用探索式搜索方法为用户获取个性化的结果.与传统搜索引擎相比,其结果更加直观地表现了目标信息及其之间丰富的语义关系,该方法使用户能够更为自然而有效地在海量的信息中发现更符合其需求的目标.作为实验模型,还需要更多的元搜索引擎的支持,以及进一步计算优化语义相似度的算法,才能使该模型真正实用化.本研究为云计算环境下构建新一代个性化智能搜索引擎提供了理论和实践上的参考.  相似文献   

10.
给出了一种基于网页内容相似度和网页之间链接关系的社区发现方法.该方法不仅考虑了网页之间的超链接关系,而且着重考虑了网页在内容上的相似度并克服了传统社区发现算法忽略网页内容的局限性,使发现的社区在内容上更相关.在原始社区的基础上对其进行动态添加,将网络中新出现的与原始社区中的网页存在链接关系同时与主题相关的网页加入到原始社区.实验表明,此方法可以有效地应用于网络的社区发现,使发现的社区在内容上更相关.  相似文献   

11.
元搜索引擎的"千人一面"给人们信息检索带来了很大的烦恼,个性化模式库中推理技术的应用使得元搜索引擎真正具有了个性化与智能化。说明了本系统中推理技术的工作原理,并以一个实例的形式对其做了具体阐述,最后给出了个性化模式库的推理算法并对其进行了分析。  相似文献   

12.
一种基于元搜索引擎的数字图书馆系统集成框架   总被引:4,自引:0,他引:4  
为了实现Web上广泛分布的、异构的数字图书馆系统的无缝集成,向用户提供统一、透明的服务,提出一种基于元搜索引擎的数字图书馆系统集成框架,并基于该框架实现了一个原型系统.该系统能将用户的查询映射到远程数字图书馆的查询服务,利用统一的查询界面实现了对Web上多个数字图书馆的透明访问,并且对参与集成的数字图书馆不施加任何约束.  相似文献   

13.
一种基于时间感知的搜索引擎模型   总被引:2,自引:0,他引:2  
目前许多用户查询与网页信息的时效性密切相关,但当前的搜索引擎在处理许多具有时间属性的查询时还不尽如人意。通过引入基于时间感知的用户查询理解、索引结构和页面排序算法,提出一种基于用户查询日志挖掘的时间感知搜索引擎模型,来克服当前主流搜索引擎在处理具有时效性查询时存在的不足在真实的Web环境下广泛进行的实验结果表明了该模型的有效性。  相似文献   

14.
A deep Web data integration system for job search   总被引:3,自引:0,他引:3  
0 IntroductionMore and more databases are becoming Web accessiblethrough form-based search interfaces . We call thiskind of Web data“Deep Web”,the online databases“Web da-tabase”,and the form-based search interfaces“query inter-face”. The survey[1]in April 2004 was esti mated to 450 000online databases .As current crawlers ,suchas Google,cannoteffectively query databases , for such data are invisible tosearch engines ,andthus remainlargely hiddenfromusers .Itis of great i mportance t…  相似文献   

15.
分析了元搜索引擎的发展状况,通过对国内外元搜索引擎性能的比较,指出了中文元搜索引擎的查询请求提交机制、检索结果显示机制以及检索结果排序方式等方面的不足,分析了目前中文元搜索引擎发展的局限性,对未来的研究方向进行了展望,认为未来的中文元搜索引擎应朝着个性化、专业化、智能化方向发展。  相似文献   

16.
消息中间件作为当前的主流技术,在企业级计算中发挥了巨大作用,在企业事务处理等领域有着广泛而深入的应用前景.本文通过在元搜索引擎的开发上引入消息中间件使元搜索引擎呈现出模块型结构,达到异步的设计效果,形成分布式系统的元搜索引擎.  相似文献   

17.
针对传统Web缓存技术不能加速动态页面传输的局限性,提出了一个新的动态页面缓存加速算法,实现对动态页面的网络传输加速功能,并且在现有的缓存加速系统squid上实现了该算法,最后对其进行了测试和结果分析.  相似文献   

18.
搜索引擎是一个集多种技术于一体的综合性系统.元搜索引擎作为下一代功能更强大、更具智能的方案而成为当前的研究热点.这个系统区别于其他普通桌面元搜索引擎的特点,在于它的个性化和智能化.为了实现智能化和个性化,除了对PID-MSE系统采用多Agent的体系结构外,还采用了人工智能、机器学习、数据挖掘等领域的大量技术.针对桌面搜索引擎易于获得单个用户个性化信息的特点,提出了个性化桌面元搜索引擎的解决方案,从它的体系结构到局部的技术难点都作了详细描述,最后给出总结和展望,此系统是基于元搜索引擎功能的优化和扩展.  相似文献   

19.
传统搜索引擎不能满足用户对个性化数据的需求,本文提出基于Agent的个性化元搜索引擎,将Agent技术与元搜索引擎技术相结合,较好的实现了搜索引擎的智能化,为用户提供了一种良好的检索解决方案.Agent具有的自主性、社会性、反应性和能动性等特性可提高系统的灵活性与智能性,可更好地根据用户行为定制个性化模型,大大提升了用户体验,查全率与查准率得到改善.  相似文献   

20.
面向主题的网页搜索系统   总被引:13,自引:0,他引:13  
论述了一个面向主题的网页搜索系统(SATWP),该系统与智能代理的辅助下具有搜索,导航,以及信息反馈等功能。在判断网页与查询主题的相关度时改变了单纯的从网页内容上考虑的方法,即从网页自身的URL,网页间的关系以及网页的内容来判断。SATWP采用在客户端的智能代理记录用户的浏览行为,并把有关信息反馈给服务器,服务器根据这些信息随时调整数据库中相关网页的重要性顺序,增加了自身的学习功能,试验结果表明,该系统具有较高的准确度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号