首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
基于改进的网络蜘蛛算法抽取Web站点结构的方法   总被引:2,自引:0,他引:2  
针对传统的Web站点结构恢复方法的局限性,提出了一种基于改进的网络蜘蛛算法的Web结构抽取方法,并实现了相应的工具WebAnalyzer。该方法通过深度优先搜索策略递归遍历Web站点,同时对网页的语法、标签进行分析,提取词法信息,在此基础上形成Web结构视图和词法表。实验表明,该方法能够快速准确地恢复Web站点结构图。  相似文献   

2.
最大频繁项集挖掘可以广泛应用在多种重要的Web挖掘工作中.为了有效地削减搜索空间,提出了一种新的最大频繁项集挖掘中的搜索空间剪枝策略.这种策略基于深度优先遍历词典序子集枚举树,利用树中子节点与父节点扩展集中相同项的扩展支持度相等的特性,对搜索空间进行剪枝.应用该策略,对MAFIA算法进行改进优化.实验结果表明,该剪枝策略可以有效削减搜索空间,尤其在稀疏但包含长频繁项集的数据集上,搜索空间削减掉2/3,算法的时间效率比原MAFIA算法提高3~5倍.  相似文献   

3.
结合深度优先及宽度优先算法,提出了一种混合算法,将搜索树分成两部分:一部分进行深度优先搜索;另一部分进行宽度优先搜索.利用深度优先搜索的结果裁剪宽度优先搜索中那些距离较大的点,以降低搜索复杂度.该算法合理地综合了2种算法的优点,具有较低的计算复杂度及较高的性能.仿真结果表明,该算法的性能与最优算法相比差别非常小,与宽度优先算法相比节省了大量的计算复杂度,在高信噪比的情况下,计算复杂度的节省尤其明显.  相似文献   

4.
搜索引擎Google的体系结构及其核心技术研究   总被引:2,自引:0,他引:2  
Google采用了并行,索引桶,数据压缩,PageRank算法等的技术,建立了复杂的体系结构,包括网络爬行机器人crawler、知识库Repository、索引系统(包括索引器indexer,桶barrels,文件索引等)、排序器Sorter和搜索器Searcher五个部分.Google的rank系统综合了词频,类型,相邻度,网页重要性等因素.其中最值得一提的是计算网页重要性的PageRank算法,它把文献检索的引用理论应用到Web中,即一个网页有很多网页指向它,或者一些重要的网页指向它,则这个网页很重要.PageRank算法大大提高了检索效率.  相似文献   

5.
传统的主题提取算法存在一些已知的问题.为了更好地满足SEWM-2004中文Web检索测评中的主题提取任务要求,分析经典的基于超链接分析的主题搜索(hyperlink-induced topic search,HITS)等算法,提出了一种以站点作为查询的资源单位,并结合内容分析的主题提取算法CWT100G上的超链接分析(hyperlink analysis withinCWT100(,HAC).HAC算法首先根据网页的URL将网页按站点分组;然后在每个站内结合网页内容和站内链接关系来计算网页的权值,从而找出站内的Hub网页;接着再分析站间的链接关系进一步计算各网页的最终权值,从而找出站间的Hub网页.两组对比的实验结果表明,HAC算法能找到切合主题的更大的Hub站点.  相似文献   

6.
网页之间的链接结构为评价网页的主题重要性提供了丰富的信息,但传统的基于链接结构评价的主题排序算法,虽然提出了用向量来表示网页在不同主题中的重要程度,但它们在计算过程中没有充分考虑网页本身的主题相关度.为解决这一问题,本文提出根据链接上下文信息得到主题相关度预测,并将其融合到主题重要性的计算中.同时,根据网页的主题重要性排序,来指导专题爬行器的爬行方向.实验结果表明,基于网页主题重要性的排序测度TopicalRank比PageRank、TSPR(Topical-Sensitive PageRank)对专题爬行更有指导意义.  相似文献   

7.
针对单个智能(AI)规划器在解决Web服务组合问题时通用性不高以及性能受问题搜索空间影响较大的情况,基于本体描述语言(OWL-S)和规划描述语言(PDDL)结构上有极大的相似性,提出了一种将Web服务转化为PDDL描述的算法.该算法通过对OWL-S和PDDL中相应元素的转换,将Web服务组合问题成功地转换为规划问题.完成该转换后,就可自由选择AI规划器对Web服务进行组合.以查询天气信息作为组合案例,对本文提出的组合方法进行了验证,结果表明,文中所提的组合方法可用于解决Web服务组合问题,提高了AI规划器在Web服务组合问题上的普适性.  相似文献   

8.
针对如何快速有效地搜索用户所需要的Web资源问题,在介绍HITS算法的基础上,分析其产生主题漂移的原因,并结合内容相关度策略,提出一种新的CSHITS搜索算法,该算法通过克隆、变异和交叉操作获取具有相关度高的Web页面.实验结果表明,CSHITS算法挖掘了超链接间的潜在语义关系,能有效地引导主题挖掘.  相似文献   

9.
针对传统邻域选择方法不能根据流形样本密度和弯曲度合理选择邻域的缺点,提出了一种有序自适应的邻域选择算法.该算法从流形上曲率最小的点开始,以宽度优先的次序不断地处理每个点.对搜索到的数据点,基于流形结构的局部线性特性,利用已有的邻域信息估算其局部切空间,然后通过其邻域边在切空间的投影自适应地选择合适的邻域.实验结果表明:该算法应用于Isomap后,对不同结构的数据集嵌入结果更准确.  相似文献   

10.
网页链接关系的设计影响到用户的访问效率,通过日志挖掘发现网页间的关联关系,使网站设计更趋合理,便于用户访问.为了提取页面间的关系,日志数据预处理后,利用Apriori算法发现频繁集,找到页面间的关联规则.网站结构主要由网页和网页间的超链接组成,针对网页超链接结构的特点:一条超链接只能建立在两个网页上.发现频繁集只需找出所有2-项集即可.提出网页超链接挖掘的Apriori改进算法(WPHM-Apriori).实验表明,该算法有效地降低Apriori的时间复杂度.  相似文献   

11.
介绍了搜索引擎的总体结构,分析了搜索引擎中爬行器的爬行策略和网页库的更新模式。介绍了其中一种较为合理的爬行和更新模式及其实现技术,实现了渐增式地爬行高质量网页和提高网页库新鲜度的目的。  相似文献   

12.
基于Map/Reduce的网页消重并行算法   总被引:1,自引:0,他引:1  
网页消重模块是搜索引擎系统的重要组成部分,其作用是对搜索引擎的爬虫系统下载的网页进行过滤,去除重复内容的网页,从而提高搜索引擎爬虫系统的性能和检索的质量。提出了一种网页消重的并行算法以及基于Map/Reduce的实现机制,并通过实际网站的实验验证了该消重算法的稳定性和处理大量网页时的并行性能。  相似文献   

13.
面向主题的网页搜索系统   总被引:13,自引:0,他引:13  
论述了一个面向主题的网页搜索系统(SATWP),该系统与智能代理的辅助下具有搜索,导航,以及信息反馈等功能。在判断网页与查询主题的相关度时改变了单纯的从网页内容上考虑的方法,即从网页自身的URL,网页间的关系以及网页的内容来判断。SATWP采用在客户端的智能代理记录用户的浏览行为,并把有关信息反馈给服务器,服务器根据这些信息随时调整数据库中相关网页的重要性顺序,增加了自身的学习功能,试验结果表明,该系统具有较高的准确度。  相似文献   

14.
基于云计算的商业情报采集系统   总被引:1,自引:0,他引:1       下载免费PDF全文
商业情报采集系统不同于传统的搜索引擎系统,情报具有时效性、针对性等特点,传统搜索引擎中的数据分类和聚类技术不能完全满足商业情报采集过程中对时效性和针对性的特殊需求。提出一种商业情报采集解决方案,在云计算环境中采用贝叶斯分类算法和多种网页去重、提取等算法,实现对互联网数据的实时性抓取、分析、分类、聚类,形成对用户全方位立体化的情报本体,抓取的海量数据采用分布式文件系统存储,采集的情报用基于云的数据库CouchDB存储。  相似文献   

15.
介绍了搜索引擎数据采集器的并行技术 ,分析了并行数据采集器的任务分配模式及其工作原理 ,讨论了任务粒度对动态分配效果的影响 ,并提出了动态分配模式下的任务分配策略 ,最后介绍了SunONEGridEngine的任务调度机制 ,并利用SunONEGridEngine对所提出的动态任务分配策略进行了实现  相似文献   

16.
针对海量web文本信息,利用从网页主题内容提取出来的特征关键词,在倒排索引基础上建立相似度计算模型.对一篇新入库的网页文档,利用所包含的关键词迅速缩小进行相似度计算的网页范围,提高计算效率.实验结果表明该算法是有效的,小规模评测结果得到较好的效果.  相似文献   

17.
Focused crawlers are important tools to support applications such as specialized Web portals, online searching, and Web search engines. A topic driven crawler chooses the best URLs and relevant pages to pursue during Web crawling. It is difficult to deal with irrelevant pages. This paper presents a novel focused crawler framework. In our focused crawler, we propose a method to overcome some of the limitations of dealing with the irrelevant pages. We also introduce the implementation of our focused crawler and present some important metrics and an evaluation function for ranking pages relevance. The experimental result shows that our crawler can obtain more "important" pages and has a high precision and recall value.  相似文献   

18.
0 IntroductionTIon tceorpneet w ,itthhefr cerqauwelnetr sch oafn sgeeasr cohf tehneg iinnfeo rnemeadti toon uopnd tahteethe web pages visited. Different pages have different changefrequencies[1].Sothe crawlers must firstly esti mate which pa-ges need to b…  相似文献   

19.
一种高性能分布式Web Crawler的设计与实现   总被引:4,自引:0,他引:4  
介绍了一种大规模、高性能、分布式的Web信息搜集器的设计及其Java实现.提出了Crawler设计中数据结构、系统功能模块和相关算法新的设计思想;对设计与实现过程中需要解决的关键问题分布式协调机制、基于内存的URL存储管理等进行了讨论,并提供了现阶段的设计、实现方法和分布式无损链接分析算法.  相似文献   

20.
随着互联网的信息以指数级增长,用户希望搜索引擎能够提供面向专业的更准确智能搜索服务,主题搜索引擎的研究显得越来越有意义。本文对基于本体语义主题搜索引擎系统的关键技术进行研究。首先建立主题搜索引擎系统流程,对主题网络爬虫,网页主题相关度、网页主题分类进行了算法研究。最后以服装纺织领域的主题搜索实现为例,说明主题搜索引擎系统能更准确快速实现专业搜索服务。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号