首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
基于网页分块的Shark-Search算法   总被引:1,自引:0,他引:1  
Shark-Search算法是一个经典的主题爬取算法. 针对该算法在爬取噪音链接较多的Web页面时性能并不理想的问题, 提出了基于网页分块的Shark-Search算法, 该算法从页面、块、链接的多种粒度来更加有效的进行链接的选择与过滤. 实验证明, 改进的Shark-Search算法比传统的Shark-Search算法在查准率和信息量总和上有了质的提高.  相似文献   

2.
HITS是一种经典的Web链接分析算法,其主要问题是容易发生主题漂移和互相加强.针对这些问题,提出了一种改进的算法T-HITS.通过一种网络结构图来映射垃圾链接集与其对应的网站,并结合链接文本将垃圾链接排除,最后利用可信度模型来修正结果,实验数据表明改进后的算法提高了查询结果的相关度,减少了主题漂移的发生.  相似文献   

3.
在基于链接分析的排序算法PageRank分析基础上,提出了一种基于主题相关性和链接权重的Page-Rank改进算法.该方法首先随机选取任一链出页面,通过主题相关性评价算法获得改进的PageRank值,并重新排序.实验结果显示该算法提高了查询速度、查询准确率,并且算法具有良好的稳定性和可扩展性.  相似文献   

4.
互联网的迅速发展,数据不断增加,使得个性化数据的获取难度越来越大.主题爬虫作为一种垂直检索方式,已经成为一个热门研究领域.传统的主题爬虫往往是通过网页链接之间的关系下载网页,然后再计算下载的网页与给定主题之间的相关关系.传统的主题爬虫一方面割裂了网页链接结构和网页内容主题之间的关系,使得两个部分分开计算; 另一方面下载过程的网页主题相关性不强,会下载大量的主题无关网页.本文提出一种新的基于PageRank 算法主题爬虫算法将网页主题相似度计算与传统的PageRank 算法相结合,将网页链接结构与网页主题相关性结合在一起.另外本文将语义相似性引入到主题爬虫里,实验结果表明本文提出的基于语义相似聚合的主题爬虫算法大大提高了主题爬虫的查全率.  相似文献   

5.
从全局上限定采集范围可以有效地提高主题爬虫的查准率.结合Web链接分析和页面内容特征分析,提出了一种基于复杂网络局部社区发现的主题爬行方法,将主题爬行分为两个阶段,第一阶段采用复杂网络的局部社区发现算法进行Web链接分析,构建主题网站群,缩小爬行范围.在第二阶段,在限定的范围内,对爬取到的页面进行主题相似度判定,并对下一步的链接目标进行预测.实验证明,该方法显著提高了主题爬虫的查准率.  相似文献   

6.
网页之间的链接结构为评价网页的主题重要性提供了丰富的信息,但传统的基于链接结构评价的主题排序算法,虽然提出了用向量来表示网页在不同主题中的重要程度,但它们在计算过程中没有充分考虑网页本身的主题相关度.为解决这一问题,本文提出根据链接上下文信息得到主题相关度预测,并将其融合到主题重要性的计算中.同时,根据网页的主题重要性排序,来指导专题爬行器的爬行方向.实验结果表明,基于网页主题重要性的排序测度TopicalRank比PageRank、TSPR(Topical-Sensitive PageRank)对专题爬行更有指导意义.  相似文献   

7.
HITS是Web结构挖掘代表算法之一.HITS算法仅考虑页面之间的链接关系,容易出现主题偏移现象.文中分析了用户历史行为与兴趣之间的关系,从四个方面近似计算用户兴趣度.提出了基于用户兴趣度的改进HITS算法(HC-HITS),对比实验结果表明HC-HITS算法减少了主题漂移现象,取得较好的效果.  相似文献   

8.
针对基于文本内容的主题爬虫算法引入过多无关特征属性以及没有考虑出现频次不同的特征属性对相关性判定影响的不足,提出一种基于候选链接主题边缘文本的主题爬虫.使用杜威十进分类法提取锚文本关键词和与锚文本关键词词义相近的网页正文中的关键词,称为候选链接主题边缘文本.在使用朴素贝叶斯分类器进行相关性判定时,对出现频次不同的特征属性进行加权,获取的候选链接按照判定结果的大小顺序存入队列等待下一轮的访问.实验结果表明,该爬虫有效提高了相关网页获取的准确性.  相似文献   

9.
传统的主题提取算法存在一些已知的问题.为了更好地满足SEWM-2004中文Web检索测评中的主题提取任务要求,分析经典的基于超链接分析的主题搜索(hyperlink-induced topic search,HITS)等算法,提出了一种以站点作为查询的资源单位,并结合内容分析的主题提取算法CWT100G上的超链接分析(hyperlink analysis withinCWT100(,HAC).HAC算法首先根据网页的URL将网页按站点分组;然后在每个站内结合网页内容和站内链接关系来计算网页的权值,从而找出站内的Hub网页;接着再分析站间的链接关系进一步计算各网页的最终权值,从而找出站间的Hub网页.两组对比的实验结果表明,HAC算法能找到切合主题的更大的Hub站点.  相似文献   

10.
通过分析基于内容的链接选择Best-First算法,引入能够体现链接价值的HITS(hyperlink induced topic search)算法,提出了新的链接选择策略.将两种算法相结合,新的爬虫不仅仅考虑页面内容,同时将链接结构加入进来,使得在下载的过程中能够保证主题相关性和权威性,缓解爬虫在爬行阶段的“近视”现象.结果表明:新的爬行策略比单一的Best-First算法具有更好的性能表现.  相似文献   

11.
基于随机森林的文本分类模型研究   总被引:1,自引:1,他引:1  
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.随机森林模型是决策树的集成,并且由一随机向量决定决策树的构造. 当森林中决策树的数目增大,随机森林的泛化误差将趋向一个上界.将随机森林模型应用于文本分类,在Reuter21578数据集上的实验表明,分类效果比较好,性能比较稳定,将其同C4.5, KNN, SM0, SVM 4种典型的文本分类器进行了比较,结果显示它的分类性能胜于C4.5,同KNN, SMO和SVM方法相当.  相似文献   

12.
Wu-Manber算法在大规模模式串下的改进   总被引:2,自引:2,他引:0  
对笔者在另一篇文章《一种改进的Wu-Manber多关键字匹配算法》中提出的算法进行了改进,把原算法中next链表中结点的Same-Subsuffix域中分裂成两个子域,使得搜索过程中字符比较的次数进一步减少,从而提高算法的效率.特别是在大规模模式串的情况下新算法的效率比原算法有进一步的提高.实验结果表明,当模式串较少时,新算法效率与原算法相比有一定的损失.而随着模式串的增加,新算法具有更高的效率.因此,新的算法比原算法具有更大的适用范围.  相似文献   

13.
王正  蒋卓勤  丁海洋  潘健  李娟 《科学技术与工程》2013,13(14):3879-3883,3907
对频谱共享下采用放大转发传输策略的基本三节点协作分集系统链路选择问题进行研究。提出了一种分布式链路选择算法。理论分析了系统采用建议算法时中断概率上界和下界的表达式。研究结果表明,建议算法能获得与传统算法相近系统性能的同时,能有效地减少系统链路选择的反馈开销和时延。  相似文献   

14.
对笔者在另一篇文章《一种改进的Wu—Manber多关键字匹配算法》中提出的算法进行了改进,把原算法中next链表中结点的Same—Subsuffix域中分裂成两个子域,使得搜索过程中字符比较的次数进一步减少,从而提高算法的效率.特别是在大规模模式串的情况下新算法的效率比原算法有进一步的提高.实验结果表明,当模式串较少时,新算法效率与原算法相比有一定的损失.而随着模式串的增加,新算法具有更高的效率.因此,新的算法比原算法具有更大的适用范围.  相似文献   

15.
基于LQI的链路评估算法及其在WSN中的应用   总被引:3,自引:0,他引:3  
在实验的基础上对一些链路质量评估参数进行对比之后,提出了一种基于LQI均值的链路评估算法.该算法能够在保障评估准确度的前提下减少冗余数据,从而降低能耗;采用该链路评估算法对ETX路由度量进行了修改,提出了一种IETX路由度量,并最终在Micaz节点上对该度量的选路性能进行测试.结果验证了基于LQI链路评估算法的IETX度量的选路可靠性与节能效果.  相似文献   

16.
为了解决无人机(UAV, Unmanned Aerial Vehicle)协作通信网络在完成任务时由于高机动性而会影响链路状态的问题,提出了一种基于UAV位置预测的信道中继选择算法。根据卡尔曼算法预测出UAV下一时刻的位置,提前判断链路优劣性,使更换UAV中继节点的时机更为精准。通过UAV源节点到UAV中继节点以及UAV中继节点到UAV目的节点的瞬时信道状态信息(CSI, Channel State Information)选出备选UAV中继节点集合。最优的备选UAV中继节点由贪婪算法计算而得。仿真结果证明了此方法的有效的性,链路中断的概率比随机选择算法降低了10%,且链路更加稳定。  相似文献   

17.
在A d Hoc网络中,节点的频繁移动导致链路经常失效,AODV路由协议对失效链路反应速度过慢,使网络中报文丢失率增加以及端到端平均传递时延增长。为了解决这个问题,文章提出了一种路由切换的算法。使活动路由中的每个节点收到数据报文时估算链路的状态,如果发现正在使用的链路即将失效,则节点在链路失效前将相关路由信息切换到合适的节点上。通过ns-2对增加切换算法的AODV协议进行仿真,结果表明,在节点移动的情况下,改进后的算法明显提高了AODV协议的报文投递率,降低了端到端平均传递时延,而路由开销仅有少量的增加。  相似文献   

18.
针对网络参数的不确定性和链路带宽的时变性,设计了一种主动队列管理(AQM)算法.该算法将可获得的链路带宽作为标称值,而不可获得的未知时变链路带宽作为干扰信号, 以状态空间的形式描述TCP/AQM模型,用时间域H∞控制方法解决网络拥塞问题.NS2仿真结果表明,该算法在往返时间时变和具有扰动业务流情况下,能够快速收敛于期望队列长度,且性能优于已有的控制算法.  相似文献   

19.
在公交车载网络等类型的容迟容断网络中,可以依靠全部或者部分网络拓扑信息进行路由计算.提出一种基于拓扑信息的双时隙路由算法.该算法将网络周期离散为时隙,计算路由时,采用当前时隙和下一时隙(即双时隙)内均有效的路径作为候选路径,从而保证多数业务在链路失效前完成转发.以传输延时和延时抖动率为依据,从当前和下一时隙内均有效的路径中优选路径,以容忍可预测的链路中断;通过提供备用路径,以容忍不可预测的链路中断,保证传输的可靠性和稳定性.对上述算法进行了仿真实现和性能分析,结果表明,该算法能容忍链路中断,报文递交率较高,平均传输延时较低.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号