首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 203 毫秒
1.
介绍基于线序划分(LOP)的时态拟序索引技术TQD-tree,基于前期研究成果实现增量更新.能否实现增量更新是时态索引技术成败的关键.首先,讨论TQD-tree所需数据结构和LOP实现算法;其次,讨论实现增量更新算法;再次,讨论批量更新的可行性;最后,完成仿真评估以表明更新技术可行性和有效性.实现批量更新,减少扫描重构TQD-tree次数,能大大提高系统效率.研究时态数据索引更新技术能解决大数据管理框架中实时响应和频繁更新的基本需求.  相似文献   

2.
基于主题划分的有组织P2P搜索算法   总被引:9,自引:0,他引:9  
提出一种基于主题划分的P2P搜索算法———主题覆盖网络搜索算法(TONS).TONS在有组织P2P网络基础上,将结点按主题组织成覆盖网络,使含有相似主题的结点链接在一起,因此可以根据内容将查询限定在P2P网络的局部范围内.通过在覆盖网络中随机添加一些长距离链接,使覆盖网络具有Small-World特性.TONS为有组织的P2P系统提供了一种能依据部分匹配、多关键词等复杂条件搜索结点数据对象的有效方法,与现有的有组织P2P系统相比,它可以将搜索的查全率提高74.7%,并减少P2P网络信息搜索的平均路径距离和平均消息数目.  相似文献   

3.
随着互联网信息的爆炸式增长,网络资源存档的数据范围在不断扩大,数据采集频率也在提高,这给服务器存储空间、采集服务器运行负载和网络带宽都带来了相当大的压力和挑战.因此,实践增量采集策略、剔除重复数据的采集是网络信息资源保存的必要策略.基于增量采集的研究和实践,详细介绍了增量采集的策略和技术实现,通过增量采集实例效果分析,说明增量采集不但可以使采集机制更加灵活,而且可以有效缓解服务器存储空间和网络带宽的压力.  相似文献   

4.
针对主题爬行器获取网页更新速度快的特点, 提出一种用于网络搜索引擎的增量索引结构. 在建立倒排索引时, 每个词项的记录表以链接块的形式存放于倒排索引文件中, 每次新分配的块大小递增. 该索引结构解决了倒排索引连续存储所带来的难以更新问题. 实验结果表明, 与支持实时更新的传统链表式存储方式相比, 这种索引结构能提供更高效的检索, 采用以空间换时间的方法有效地提高了索引的更新效率.  相似文献   

5.
随着网络的高速发展,其信息资源越来越庞大,面对巨量的信息库,搜索引擎起着重要的作用.主题爬虫技术作为搜索引擎的主要核心部分,计算搜索结果与搜索主题的关系,该关系被称为相关性.一般主题爬虫方法只计算网页内容与搜索主题的相关性,作者所提主题爬虫,通过链接内容和锚文本内容计算链接的重要性,然后利用贝叶斯分类器对链接进行分类,最后利用余弦相似函数计算网页的相关性,如果相关值大于阀值,则认为该网页与预定主题相关,否则不相关.实验结果证明:所提出主题爬虫方法可以获得很高的精确度.  相似文献   

6.
随着社会的发展,GPS导航已经得到了广泛的应用.人们对导航的要求也越来越高,其中导航电子地图的现势性已成为衡量导航优劣的重要标准之一.传统的版本式更新已不能满足需求,增量更新方法应运而生.对增量更新的方法进行·了研究,建立地图要素全局标识体系——MOGIS,并采用SIMG的格网划分方法,利用数据差分技术实现了导航电子地图的增量更新.  相似文献   

7.
P2P(peer-to-Peer)技术的应用近年来有显著增长,特别是在视频/音频文件、软件以及其他数据等的共享领域.本文首先简要介绍了传统网络教育模式,随之介绍了基于P2P技术的新型网络教育系统模型,虽然他们都为网络用户提供资源共享服务,但在资源管理方面有所不同.通过对P2P资源管理模式在服务质量(QoS)和性能方面存在的问题分析,提出可以将资源预约机制引入资源管理加以解决,并简要介绍了资源预约算法和主要的数据结构.最后通过分析认为使用资源预约机制进行网络教育资源管理可以很好地提升性能,并能使资源分布趋于合理.  相似文献   

8.
互联网的迅速发展,数据不断增加,使得个性化数据的获取难度越来越大.主题爬虫作为一种垂直检索方式,已经成为一个热门研究领域.传统的主题爬虫往往是通过网页链接之间的关系下载网页,然后再计算下载的网页与给定主题之间的相关关系.传统的主题爬虫一方面割裂了网页链接结构和网页内容主题之间的关系,使得两个部分分开计算; 另一方面下载过程的网页主题相关性不强,会下载大量的主题无关网页.本文提出一种新的基于PageRank 算法主题爬虫算法将网页主题相似度计算与传统的PageRank 算法相结合,将网页链接结构与网页主题相关性结合在一起.另外本文将语义相似性引入到主题爬虫里,实验结果表明本文提出的基于语义相似聚合的主题爬虫算法大大提高了主题爬虫的查全率.  相似文献   

9.
随着网络资源的不断丰富,人们获取信息的途径已被网络代替。维吾尔文,在语言信息处理,WEB应用等领域有了迅速的发展。文章针对网络爬虫的工作原理以及聚焦爬虫策略进行阐述,在此基础上结合维吾尔语信息提取的相关研究,研究了维吾尔文的网络爬虫技术的结构和策略,从而为维吾尔文搜索引擎的网页数据库建设和维吾尔文网络舆情分析研究提供海量的语料。  相似文献   

10.
网络舆情已经成为反映当今社会舆情重要组成部分,具有传播速度快、信息多元化等特点.建立舆情检测系统能够对大规模网络数据进行采集、挖掘和分析,对网络舆情热点话题进行及时的发现和追踪,为各单位和组织应对舆情危机提供科学、系统的支持.通过对网络爬虫搜索策略、大规模URL去重、页面识别等技术的研究和改进,实现一个高效、快捷的网络爬虫系统.  相似文献   

11.
介绍了搜索引擎的总体结构,分析了搜索引擎中爬行器的爬行策略和网页库的更新模式。介绍了其中一种较为合理的爬行和更新模式及其实现技术,实现了渐增式地爬行高质量网页和提高网页库新鲜度的目的。  相似文献   

12.
Focused crawlers are important tools to support applications such as specialized Web portals, online searching, and Web search engines. A topic driven crawler chooses the best URLs and relevant pages to pursue during Web crawling. It is difficult to deal with irrelevant pages. This paper presents a novel focused crawler framework. In our focused crawler, we propose a method to overcome some of the limitations of dealing with the irrelevant pages. We also introduce the implementation of our focused crawler and present some important metrics and an evaluation function for ranking pages relevance. The experimental result shows that our crawler can obtain more "important" pages and has a high precision and recall value.  相似文献   

13.
可在线增量自学习的聚焦爬行方法   总被引:9,自引:0,他引:9  
将Web爬行看作执行序列动作的过程,结合改进的快速Q学习和半监督贝叶斯分类器,提出一种新的具有在线增量自学习能力的聚焦爬行方法.该方法从获取的页面中抽取特征文本,根据特征文本评估页面的主题相关性,预测链接的Q值,然后基于Q值过滤无关链接.当得到主题相关页面时产生回报,将回报沿链接链路反馈,更新链路上所有链接的Q值,并选择相应的特征文本作为训练样本,增量地改善主题评估器和Q值预测器.实验结果表明,该方法具有很快的自学习能力,获取的页面数目和精度均优于离线聚焦爬行方法,更符合Web资源发现的要求.  相似文献   

14.
软件定义网络的出现为突破当前机载网络在航空集群作战应用中存在的固有技术瓶颈开辟了全新途径,然而软件定义机载网络动态的网络拓扑以及有限的链路容量导致网络更新过程中链路拥塞现象频发,造成网络更新过程极易引发网络拥塞,并降低网络更新的成功率.针对该问题,提出一种基于拥塞避免的软件定义航空集群机载网络更新策略.首先通过混合更新策略计算得到各业务流的初始更新操作序列;然后提出拥塞链路感知算法,实现更新过程中对潜在拥塞链路的感知;最后提出基于拥塞避免的软件定义机载网络更新算法,根据各业务流的初始操作序列以及感知到的潜在拥塞链路状态,计算无拥塞更新操作约束,并最大限度实现网络的无拥塞更新.仿真结果表明,与现有网络更新策略相比,所提更新策略能够有效避免网络更新过程中软件定义机载网络的拥塞,提升网络更新的成功率.  相似文献   

15.
目前我国第二次土地调查土地利用数据库已经基本建成,如何保障第二次土地调查成果的现势性和时效性十分重要。笔者提出了省、市、县三级联动的实时增量更新与监管模式和思路,分别从数据变化源的确定、时态数据模型与存储,以及实时增量更新生成与逐级汇交等几个方面进行了详细阐述。最后进行了系统设计和原型开发,并以辽宁省土地利用监管系统为典型案例对省、市、县三级联动的实时增量更新与监管模式进行了验证。  相似文献   

16.
采用计算向量之间相似度的方法, 通过实验分析验证了表格信息在主题爬行中的重要性. 研究结果表明, 与整个网页相比, 表格所能提供的与用户相关的信息占整个网页信息总量的80%以上, 因而在主题爬行领域可以充分利用这一结论进行网页解析. 在舍弃除表格和标题之外的其他元素后, 提高了爬行程序的效率.  相似文献   

17.
Nutch的网页更新预测方法采用的是邻比法,相关更新参数需要人为设定,不能自适应调整,无法应对海量网页更新的差异性.为解决这个问题,提出动态选择策略对Nutch的网页更新预测方法进行改进.该策略在网页更新历史数据不足时,通过基于MapReduce的DBSCAN聚类算法来减少爬虫系统抓取网页数量,将样本网页的更新周期作为所属类其他网页的更新周期;在网页更新历史数据较多时,通过对网页更新历史数据进行泊松过程建模,较准确地预测每个网页的更新周期.最后在Hadoop分布式平台下对改进该策略测试.实验结果表明,优化后的网页更新预测方法表现更优.  相似文献   

18.
安全多播中密钥更新机制的性能优化   总被引:1,自引:0,他引:1  
针对安全多播中密钥更新的可扩展性问题,提出了一种改进的逻辑密钥分层机制.在更新密钥树时,由密钥服务器产生随机数,而多播组成员使用单向散列函数可以直接计算出变动路径中的全部或部分密钥,减少了更新密钥的计算量和在多播信道中的通信量,因此使密钥服务器的平均代价减少约1/3.在此基础上提出了适合于这种改进机制的批处理更新算法,可以对多次成员变动仅进行一次更新操作.实验分析表明,与原机制的批处理更新算法相比,该算法又可使密钥服务器的代价至少减少1/3.因此,采用这种改进机制的批处理更新算法可以进一步提高计算和通信性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号