首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 562 毫秒
1.
基于网页正文主题和摘要的网页去重算法   总被引:1,自引:0,他引:1  
针对元搜索返回的网页内容相同,别名差异很大的重复网页,提出基于网页正文主题和摘要的网页去重算法,并通过实验对算法进行有效性验证。该算法首先对各成员搜索引擎返回来的网页标题进行有关处理,提取出网页的主题信息,然后对摘要进行分词,再计算摘要的相似度,二者结合能更好地现出文章摘要的内容,实现网页去重。该算法有效,并且比基于传统特征码的算法有明显的优势,更接近人工统计结果。  相似文献   

2.
秦杰 《科学技术与工程》2013,13(8):2250-2253
网页去重具有很重要的实际意义,也是信息检索领域近几年研究的热点。分析现有的网页去重算法,并对经典的DSC(digital syntactic clustering)网页去重算法进行改进。为每篇文档生成一个特征向量集合,用该特征向量集合筛选shin-gles;然后进行相似性比较。实验表明,该算法对重复网页判定具有很好的准确率和召回率。  相似文献   

3.
搜索结果页面的去重处理是提高网页检索结果质量的有效途径,笔者结合二叉排序树设计了一种基于文本抽取的网页正文去重算法,本文给出了该算法的具体实现。实验测试结果表明该算法在判断准确率、时间复杂度方面均具有一定优势,可应用于网络信息检索结果优化处理中的页面正文内容去重。  相似文献   

4.
网页去重在基于Web企业竞争情报平台中的应用与研究   总被引:1,自引:0,他引:1  
互联网上大量重复网页的存在,严重地影响信息的检索质量.因此提出了一种基于特征码散列的网页去重算法,利用特征码对特征语句集散列以缩小其比较的范围,提高了网页去重的准确性.实验表明该算法准确率高,性能良好,基于上述算法实现了基于Web的企业情报竞争平台中的网页去重.  相似文献   

5.
网页去重策略   总被引:1,自引:0,他引:1  
提出基于同源网页去重与内容去重的策略.通过对网址URL进行哈希散列完成对同源网页的去重,并对内容相同或近似的网页采用基于主题概念的去重判断.实验表明,该方法有效且去重效果良好.基于上述算法实现了教育资源库教育资讯搜索引擎系统.  相似文献   

6.
文本消重是搜索引擎中的一项重要技术,能将搜集到的网页中的近似镜像网页去掉,而后再建索引提供服务,这样用户查询时就不会出现大量内容重复的网页。通过对近似镜像文本检测算法的分析和研究,提出了应用MD5指纹的近似镜像算法对文本文档进行消重处理的方法,并将该算法在基于P2PKM的学习支持平台上的索引模块中作了测试。测试结果表明,这种算法的应用,知识包中的重复文档有了明显的减少。  相似文献   

7.
基于Map/Reduce的网页消重并行算法   总被引:1,自引:0,他引:1  
网页消重模块是搜索引擎系统的重要组成部分,其作用是对搜索引擎的爬虫系统下载的网页进行过滤,去除重复内容的网页,从而提高搜索引擎爬虫系统的性能和检索的质量。提出了一种网页消重的并行算法以及基于Map/Reduce的实现机制,并通过实际网站的实验验证了该消重算法的稳定性和处理大量网页时的并行性能。  相似文献   

8.
在对现有主流网页消重技术分析的基础上,提出一种基于网页内容的改进的网页消重高效检测算法.该算法通过利用网页的标签树结构选取最大的多个文本块,将这些文本块连接在一起生成一个代表该网页的MD5指纹,对指纹进行比较,确认近似网页实现消重,实验证明该方法对近似网页能进行准确的检测.  相似文献   

9.
针对目前搜索结果个性化排序算法中的用户兴趣模型构建难、相关度计算不精确等问题,提出了一种结合用户兴趣模型和协同推荐算法的个性化排序方法.该方法从用户的搜索历史,包括提交查询、点击相关网页等反馈信息来训练用户的兴趣模型,然后采用协同推荐算法获取具有共同兴趣的邻居用户,根据这些邻居对网页的推荐程度和网页与用户的相关程度来排序搜索结果.实验结果表明:该排序算法的平均最小精确度比一般排序算法提高了约0.1,且随着用户邻居数目的增长,最小精确度随之增长.与其他排序算法相比,采用协同推荐算法有助于提高网页与用户兴趣关联程度计算的精确度,从而提高排序的效率,有助于改善用户的搜索体验.  相似文献   

10.
区别于传统计算网页文本相似度的去重方法,以多媒体数据文件为主的云盘资源仅可利用相当有限的元信息进行检索结果去重。针对这一问题,以搭建的面向云盘资源数据的搜索引擎系统为基础,通过对云盘资源元信息特性的分析,发现除名称之外,资源文件后缀名、占用空间大小、资源的用户归属是判定重复记录的有效特征。在此基础上,给出了处理上述特征的归一化方法,进而使用无监督方法进行去重。实验结果表明,该方法能够有效对云盘资源检索结果去重。  相似文献   

11.
The following paper provides a new algorithm: a result integration algorithm based on matching strategy. The algorithm extracts the title and the abstract of Web pages, calculates the relevance between the query string and the Web pages, decides the Web pages accepted, rejected and sorts them out in user interfaces. The experiment results in dieate obviously that the new algorithms improve the precision of meta-search engine. This technique is very useful to metasearch engine.  相似文献   

12.
智能桌面元搜索引擎中个性化研究   总被引:1,自引:0,他引:1  
随着WWW信息量的急剧膨胀,当前的搜索引擎已经不能够很好的满足人们信息搜索的需求,元搜索引擎作为下一代功能更强大、更具智能的方案而成为当前的研究热点.本文针对桌面搜索引擎易于获得单个用户个性化信息的特点,提出了个性化桌面元搜索引擎的解决方案,从它的体系结构到局部的技术难点都作了详细描述,同时最后给出总结和展望.  相似文献   

13.
基于云计算的商业情报采集系统   总被引:1,自引:0,他引:1       下载免费PDF全文
商业情报采集系统不同于传统的搜索引擎系统,情报具有时效性、针对性等特点,传统搜索引擎中的数据分类和聚类技术不能完全满足商业情报采集过程中对时效性和针对性的特殊需求。提出一种商业情报采集解决方案,在云计算环境中采用贝叶斯分类算法和多种网页去重、提取等算法,实现对互联网数据的实时性抓取、分析、分类、聚类,形成对用户全方位立体化的情报本体,抓取的海量数据采用分布式文件系统存储,采集的情报用基于云的数据库CouchDB存储。  相似文献   

14.
元搜索基于源搜索引擎的链接优化   总被引:1,自引:1,他引:0  
现有的Internet网站中一些大的搜索引擎,其功能很全,正因其功能强大,则难免在细节上出现一些不太完善的地方,如对搜索结果的链接没有实现有效性检测,导致了在网页中搜索结果出现了许多无效链接.针对这一缺点,本文先给出了元搜索引擎的定义、元搜索引擎的原理及搜索引擎与元搜索引擎的主要区别,同时还指出了搜索引擎的不足,最后提出了一个搜索引擎改进方法,给出了思路流程与方案解析,即在客户端实现过滤,这样既可以保持搜索的快速性,又能达到过滤链接的效果,并用UML时序图描述了搜索引擎的检索结果,同时进行有效性检查,建立这样的元搜索构想功能即是对如上搜索得到的网址进行检测过滤,以提示或去除其中无效的链接,使用户能够更加准确、快捷地获取所需要的资料信息.  相似文献   

15.
元搜索引擎的个性化   总被引:1,自引:0,他引:1  
提出一种通过产生用户动态偏好来达到个性化搜索的方法.利用RDF的语义表达能力存储和优化基于访问记录的用户偏好,并采用聚类方法划分用户群,实现对用户偏好的有效管理。给出了元搜索引擎选择算法和搜索结果排序算法,实现了一个个性化的元搜索引擎,实验表明,该搜索引擎提高了查询准确率和使用效率,并能够根据用户及其所在群的历史偏好信息重新组织搜索结果.  相似文献   

16.
提出了一种基于噪音清除的网页削重算法.首先应用空间向量模型,仅仅使用<特征词,权重>二元组表示网页,降低削重算法的时空复杂度;其次,通过一组启发式规则来消除网页中包含的“噪音”,消除了无关信息对网页核心内容的干扰.  相似文献   

17.
0 IntroductionTIon tceorpneet w ,itthhefr cerqauwelnetr sch oafn sgeeasr cohf tehneg iinnfeo rnemeadti toon uopnd tahteethe web pages visited. Different pages have different changefrequencies[1].Sothe crawlers must firstly esti mate which pa-ges need to b…  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号