首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
结合主题爬虫和本体学习的研究现状,设计并实现了基于本体的主动学习主题爬行系统.通过更好地规划爬虫爬行流程,详细地划分功能相对独立的模块,提高了整个系统爬行工作效率和抓取相关网页的准确率.  相似文献   

2.
介绍了分布式爬虫系统的背景、需求和实现目标,提出分布式爬虫系统的结构及任务调度策略,核心思想是以总控式的分布式结构设计整个爬虫系统,任务调度策略上采用二次Hash算法对把URL发送到指定附属机上机型爬行抓取。通过主控服务器和附属服务器的任务分工,多机协同合作,提高爬行整个网络的效率。  相似文献   

3.
搜索引擎Google的体系结构及其核心技术研究   总被引:2,自引:0,他引:2  
Google采用了并行,索引桶,数据压缩,PageRank算法等的技术,建立了复杂的体系结构,包括网络爬行机器人crawler、知识库Repository、索引系统(包括索引器indexer,桶barrels,文件索引等)、排序器Sorter和搜索器Searcher五个部分.Google的rank系统综合了词频,类型,相邻度,网页重要性等因素.其中最值得一提的是计算网页重要性的PageRank算法,它把文献检索的引用理论应用到Web中,即一个网页有很多网页指向它,或者一些重要的网页指向它,则这个网页很重要.PageRank算法大大提高了检索效率.  相似文献   

4.
针对现有的主题爬行方法存在收益率不高和不稳定的问题,融合本体和最小二乘支持向量机理论,提出一种主题爬行方法 Ontology-LSSVM.该方法将本体作为抓取主题的背景知识表示,得到一组主题相关概念的集合,再将其在网页文本中出现的词频作为输入,构造一个主题相关度LS-SVM分类器,用于网页的分类.使用舆论热点的食品安全问题作为爬行主题领域,建立问题食品本体,进行实验.结果表明:在本实验条件下,本文方法相比基于LS-SVM、基于本体和基于关键字的主题爬行,能够维持更高的收益率.  相似文献   

5.
机器人多指抓取的研究进展与展望   总被引:4,自引:1,他引:4  
对机器人多指抓取和操作的研究现状进行综述 ,在对人手结构和功能进行分析的基础上 ,着重从形封闭和力封闭的角度对多指抓取进行定性分析 ,研究抓取的封闭性、可操作性、稳定性和抓取的定量评价问题 ,并对该领域未来的发展趋势作系统的分析和讨论 .  相似文献   

6.
文中对机床在低速运动时爬行现象产生的原因进行分析。建立数学模型,通过对数学模型进行分析,得出进给系统有三种运动的爬行:不发生爬行、时停时走爬行、时快时慢爬行。并提出解决爬行现象措施。  相似文献   

7.
为了弥补互联网信息爆炸带来的搜索引擎用户满意度低的问题,提出了一种基于本体的垂直搜索引擎模型。该模型构建一个本体知识树,利用增加了属性提取和相似度算法的NWeb-Crawler对网页进行抓取,并将非相关信息进行隔离;然后,进行网页源代码格式信息和语义信息两方面的抽取;抽取的数据信息通过分词后建立二维索引表,用户的请求通过本体知识树扩展概念集和二维索引表进行检索。该系统模型从入口网页到出口数据逐步贴近检索需求,具有良好的扩展性,对垂直搜索引擎的研究有一定的参考借鉴作用。  相似文献   

8.
本文对液压系统的爬行机理进行了理论分析与推导,从而得到液压系统产生爬行的主要影响因素,从根本上找出消除爬行的方法。  相似文献   

9.
设计并实现了一种通用的具有高可靠性和可扩展性的分布式网络数据抓取系统.给出了服务器和抓取节点的执行算法,并利用实时数据库Influx DB和可视化框架Grafana设计了抓取节点的性能监控系统.利用系统可以跟据需求对互联网的数据进行快速地抓取和收集.  相似文献   

10.
针对主题爬行器获取网页更新速度快的特点, 提出一种用于网络搜索引擎的增量索引结构. 在建立倒排索引时, 每个词项的记录表以链接块的形式存放于倒排索引文件中, 每次新分配的块大小递增. 该索引结构解决了倒排索引连续存储所带来的难以更新问题. 实验结果表明, 与支持实时更新的传统链表式存储方式相比, 这种索引结构能提供更高效的检索, 采用以空间换时间的方法有效地提高了索引的更新效率.  相似文献   

11.
0 IntroductionTIon tceorpneet w ,itthhefr cerqauwelnetr sch oafn sgeeasr cohf tehneg iinnfeo rnemeadti toon uopnd tahteethe web pages visited. Different pages have different changefrequencies[1].Sothe crawlers must firstly esti mate which pa-ges need to b…  相似文献   

12.
随着网络的高速发展,其信息资源越来越庞大,面对巨量的信息库,搜索引擎起着重要的作用.主题爬虫技术作为搜索引擎的主要核心部分,计算搜索结果与搜索主题的关系,该关系被称为相关性.一般主题爬虫方法只计算网页内容与搜索主题的相关性,作者所提主题爬虫,通过链接内容和锚文本内容计算链接的重要性,然后利用贝叶斯分类器对链接进行分类,最后利用余弦相似函数计算网页的相关性,如果相关值大于阀值,则认为该网页与预定主题相关,否则不相关.实验结果证明:所提出主题爬虫方法可以获得很高的精确度.  相似文献   

13.
针对传统数据库检索中检索速度较慢、 检索结果不完整、 检索结果排列无序等问题, 基于全文检索工具Lucene索引的结构, 设计一种基于Lucene的数据库索引结构, 并提出记录倒排索引链表的概念, 使网站不用再按照传统顺序查找方式进行检索, 而是以索引库中的关键词进行检索, 提高了检索效率. 实验结果表明, 基于
Lucene的数据库全文检索具有查全率高、 检索结果排列有序等优点.  相似文献   

14.
大型指纹数据库的广泛应用,使得记录数量的增长和检索效率的矛盾日益尖锐,这就需要建立一种多级索引指纹数据库.文章提出使用指纹纹形、脊线数目和基于Gabor滤波的指纹特征———指纹码构建多级索引指纹数据库和在此基础上检索多级指纹数据库的方法.通过实验数据对两级和多级索引指纹数据库作比较,并作算法性能分析.  相似文献   

15.
基于Map/Reduce的网页消重并行算法   总被引:1,自引:0,他引:1  
网页消重模块是搜索引擎系统的重要组成部分,其作用是对搜索引擎的爬虫系统下载的网页进行过滤,去除重复内容的网页,从而提高搜索引擎爬虫系统的性能和检索的质量。提出了一种网页消重的并行算法以及基于Map/Reduce的实现机制,并通过实际网站的实验验证了该消重算法的稳定性和处理大量网页时的并行性能。  相似文献   

16.
检索调研环境是按照搜索引擎线上检索端模块搭建的供策略研发工程师进行策略调研的线下实验环境。验证策略生效最直接的方式是检索结果评估。策略调研效果评估的一个重要方式是搭建两套调研环境,原始环境和策略升级后环境,用一批query抓取这两个环境,然后对抓取结果送评,通过人工对比打分,由策略研发工程师对送评结果分析,决定是否上线策略。这应该是一个快速迭代的过程;但每个环节都有可能拉长迭代周期。调研环境的稳定性、资源不足、抓取效率等原因影响了策略调研阶段的时间,调研效率提升问题日渐突出。对调研过程中调研环境抓取改进进行研究,并实现了具有自适应性的在线学习抓取算法,极大地提升了抓取效率,减少抓取给调研效率上带来的负面影响。  相似文献   

17.
介绍了垂直搜索引擎和网络爬虫的基本概念,以及Heritrix系统的体系结构,分析了Heritrix工作流程,针对Hefifirx中存在的一些不完善的地方,引入了ELFHash算法并通过扩展Heritrix实现了电信信息搜索平台信息的定向与多线程抓取,为建立面向电子信息的垂直搜索引擎提供了信息源.  相似文献   

18.
 随着搜索引擎在信息化生活中的指导作用越来越强,建立完整的评价体系已经成为搜索引擎优化的基础。本文从搜索引擎评价体系的现状入手,结合搜索引擎特点,采用定性和定量相结合的分析方法,排除相关性高的指标,确定最终索引数据库性能、检索效果、用户便利度三大类13个评价指标。在此基础上,运用基于比例标度的层次分析法(Analytic Hierarchy Process,AHP)构建层级结构,借鉴专家意见确定评价指标的权重;结合TOPSIS法(Technique for Order Preference by Similarity to an Ideal Solution)进行评价指标数值的规范化处理并排序计算,构建了较为完整的评价体系。选择四大热门中文搜索引擎作为评价对象,进行实证分析,结论表明,本文所述评价指标体系和方法思路可行,有较强可操作性和指导作用。  相似文献   

19.
如何高效利用网络资源一直是人们关注的焦点。XML可扩展性标记语言不仅支持自定义标记,还能表达语义,因而为提高网络搜索的准确性提供了可能。文章主要介绍了基于XML可扩展标记语言搜索引擎技术实现的核心部分——索引数据库的建立和查询,并提出了现行网络环境下的XML搜索引擎模型。  相似文献   

20.
研究了试题信息数据库的系统结构及试卷智能生成方法。提出采用启发式搜索策略中的A*算法来改善智能组卷的智能化指标;给出一种逻辑组合检索方法来实现大容量试题信息的快速查询与检索;同时还介绍了系统的应用及其性能分析。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号