首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 343 毫秒
1.
网页链接关系的设计影响到用户的访问效率,通过日志挖掘发现网页间的关联关系,使网站设计更趋合理,便于用户访问.为了提取页面间的关系,日志数据预处理后,利用Apriori算法发现频繁集,找到页面间的关联规则.网站结构主要由网页和网页间的超链接组成,针对网页超链接结构的特点:一条超链接只能建立在两个网页上.发现频繁集只需找出所有2-项集即可.提出网页超链接挖掘的Apriori改进算法(WPHM-Apriori).实验表明,该算法有效地降低Apriori的时间复杂度.  相似文献   

2.
对网页PageRank算法的改进   总被引:19,自引:0,他引:19  
分析了著名搜索引擎Google采用的PageRank算法,指出其偏重旧网页,忽视专业站点以及对网页中的超链接评估不恰当等不足之处。改进算法考察了网页日期这一重要因素,并重新计算网页中超链接对网页的影响。网页结构中蕴涵着丰富的信息,在href,title等标记中文字对网页主题有重要作用,利用结构标记可以辅助判断网页的主题内容。试验结果表明,采用改进的算法可以提高判断网页重要性的准确度。  相似文献   

3.
互联网的迅速发展,数据不断增加,使得个性化数据的获取难度越来越大.主题爬虫作为一种垂直检索方式,已经成为一个热门研究领域.传统的主题爬虫往往是通过网页链接之间的关系下载网页,然后再计算下载的网页与给定主题之间的相关关系.传统的主题爬虫一方面割裂了网页链接结构和网页内容主题之间的关系,使得两个部分分开计算; 另一方面下载过程的网页主题相关性不强,会下载大量的主题无关网页.本文提出一种新的基于PageRank 算法主题爬虫算法将网页主题相似度计算与传统的PageRank 算法相结合,将网页链接结构与网页主题相关性结合在一起.另外本文将语义相似性引入到主题爬虫里,实验结果表明本文提出的基于语义相似聚合的主题爬虫算法大大提高了主题爬虫的查全率.  相似文献   

4.
针对传统通用网络信息采集系统自身固有的缺陷,根据语义分析的相关理论,本文提出了基于语义的网络爬虫的相关模型,该模型构建知识概念集合,并对其进行关键字切割与划分,生成能表达主题的主题关键词集合。结合中国《知网》的相关理论与技术,对传统抓取的网页在语义的角度进行分析,对已抓取的网页页面内容及其中链接的扩展元数据等相关信息进行分词及语法语义等相关处理,获取网页内容关键词集合及超链接的关键词集合,然后分别对获取的网页内容关键词与链接关键词进行与主体关键词集合采用语义分析算法进行语义相关性的判定,保存需要的网页,并预测及提取与主题相关的URL,从而提高网络资源信息采集相关率。  相似文献   

5.
给出了一种基于网页内容相似度和网页之间链接关系的社区发现方法.该方法不仅考虑了网页之间的超链接关系,而且着重考虑了网页在内容上的相似度并克服了传统社区发现算法忽略网页内容的局限性,使发现的社区在内容上更相关.在原始社区的基础上对其进行动态添加,将网络中新出现的与原始社区中的网页存在链接关系同时与主题相关的网页加入到原始社区.实验表明,此方法可以有效地应用于网络的社区发现,使发现的社区在内容上更相关.  相似文献   

6.
为在Web日志数据中挖掘关联规则以指导信息无障碍网站的设计与开发, 针对大量用户对网站页面URL(Uniform Resoure Locator)的访问频率等信息, 通过Apriori算法实
现数据挖掘, 以寻找用户访问页面之间的关联规则。根据3次点击原则及网站结构设计的特点, 对Apriori 算法网页超链接挖掘的过程进行了改进, 频繁项集最多只需找出所有3
-项集即可。算法实现过程表明, 该方法可有效降低算法的时间复杂度, 能通过对关联规则的分析确定用户感兴趣的网页类型, 找出用户所访问网页之间的链接关系。  相似文献   

7.
信息检索中基于链接的网页排序算法   总被引:5,自引:0,他引:5  
介绍超链接环境下基于链接的网页排序算法,比较和分析了PageRank算法和HITS算法,指出了PageRank算法更适合于搜索引擎的服务器端,而HITS算法更适合于搜索引擎的客户端,还构造并初步实现了在信息检索中,应用超链接环境下网页排序算法的综合模型。  相似文献   

8.
网页之间的链接结构为评价网页的主题重要性提供了丰富的信息,但传统的基于链接结构评价的主题排序算法,虽然提出了用向量来表示网页在不同主题中的重要程度,但它们在计算过程中没有充分考虑网页本身的主题相关度.为解决这一问题,本文提出根据链接上下文信息得到主题相关度预测,并将其融合到主题重要性的计算中.同时,根据网页的主题重要性排序,来指导专题爬行器的爬行方向.实验结果表明,基于网页主题重要性的排序测度TopicalRank比PageRank、TSPR(Topical-Sensitive PageRank)对专题爬行更有指导意义.  相似文献   

9.
讨论了网页分类过程中数据预处理的相关技术,提出一种网页预处理方法,将网页解析为DOM树结构,通过分析、整理,得到噪音信息的特征,并依据判定规则,找出噪音信息并删除处理。网页去噪后,提取页面中的文本信息和每个相关链接目标URL、源URL及锚文本并存入数据库。实验结果证明,该去噪方法可以有效去除网页噪音,利用所提取的超链接结构信息分类网页,可以有效提高分类精度。  相似文献   

10.
蒋得虎 《科技资讯》2006,(24):144-144
1.PageRank的基本原理 PageRank的发明者对网络超链接结构和文献引文机制的相似性进行了研究,把引文分析思想借鉴到网络文档重要性的计算中来,利用网络自身的超链接结构给所有的网页确定一个重要性的等级数,当从网页A链接到网页B时,就认为网页A投了网页B一票,增加了网页B的重要性。最后根据网页的得票数评定其重要性,以此来帮助实现排序算法的优化,而这个重要性的量化指标就是PageRank值。简单地说,PageRank就是要从链接结构中获取网页的重要性,而网页的重要性决定着同时也依赖于其他网页的重要性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号