首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对单机爬虫效率低、可扩展性差等问题,本文设计并实现了一种基于MapReduce的网络爬虫系统。该系统首先采用HDFS和HBase对网页信息进行存储管理,基于行块分布函数的方法进行网页信息抽取;然后通过URL和网页信息相似度分析相结合的去重策略,采用Simhash算法对抓取的网页信息进行相似度度量。实验结果表明,该系统具有良好的性能和可扩展性,较单机爬虫相比平均抓取速度提高了4.8倍。  相似文献   

2.
介绍了网页可达性原理、一种知识建模方法以及知识模型与网页知识之间的映射机制;阐述了知识型网络爬虫的组件及其实施的关键技术,提出了一种知识相关度计算模型,可计算页面的知识含量.这种知识提取方法可用于构建新一代智能搜索引擎.  相似文献   

3.
利用用户指定的关键字和搜索引擎生成URL种子,通过分布式网络爬虫抽取符合用户需求的网页作为研究所用的语料.实验结果表明:分布式网络爬虫可以较好地解决在短时间内抽取大量语料的需求.  相似文献   

4.
分析了最好优先搜索策略中遇到的隧道问题,设计并实现了一种基于本体的主题爬虫系统。  相似文献   

5.
随着互联网发布的各种数据在急剧增长,人们正常进入网站精确获取信息的速度较慢而且信息量较小,按照一定的规则编写的计算机指令——网络爬虫应运而生,它可以在较短的时间内从网络上自动抓取大量数据信息。该文研究的是基于Scrapy框架的一种招聘信息主题网络爬虫的设计与实现。主题网络爬虫只搜索与主题信息有关的资源数据,用来服务于高校毕业生群体,作为就业前收集招聘信息的辅助手段。  相似文献   

6.
随着互联网的快速发展,其信息量和相关服务也随之快速增长.如何从海量的信息中快速、准确地抓取所需要的信息变得越来越重要,因此负责互联网信息收集工作的网络爬虫将面临着巨大的机遇和挑战.目前国内外一些大型搜索引擎只给用户提供不可制定的搜索服务,而单机的网络爬虫又难当重任,因此可定制性强、信息采集速度快和规模大的分布式网络爬虫便应运而生.通过对原有Scrapy框架的学习和研究,将Scrapy和Redis结合改进原有的爬虫框架,设计并实现了一个基于Scrapy框架下的分布式网络爬虫系统,然后将从安居客、58同城、搜房等网站抓取的二手房信息存入MongoDB中,便于对数据进行进一步的处理和分析.结果表明基于Scrapy框架下的分布式网络爬虫系统同单机网络爬虫系统相比效率更高且更稳定.  相似文献   

7.
提出了一种基于移动代理的图像搜索引擎(MAISE,Mobile Agent based Image Search Engine)的爬虫系统,系统中爬虫代理运行在远程Web服务器上,它将集中在服务器端的任务如:特征提取、建立索引等分散到远程的Web服务器上并行运行,而且代理个数是可控的,最后将少量的数据回传到服务器端,这不仅提高了效率而且减小了网络传输量.最后对MAISE爬虫系统进行了测试,实验结果表明,MAISE爬虫的网络数据传输量和爬行时间等指标上均优于传统爬虫.  相似文献   

8.
针对传统通用网络信息采集系统自身固有的缺陷,根据语义分析的相关理论,本文提出了基于语义的网络爬虫的相关模型,该模型构建知识概念集合,并对其进行关键字切割与划分,生成能表达主题的主题关键词集合。结合中国《知网》的相关理论与技术,对传统抓取的网页在语义的角度进行分析,对已抓取的网页页面内容及其中链接的扩展元数据等相关信息进行分词及语法语义等相关处理,获取网页内容关键词集合及超链接的关键词集合,然后分别对获取的网页内容关键词与链接关键词进行与主体关键词集合采用语义分析算法进行语义相关性的判定,保存需要的网页,并预测及提取与主题相关的URL,从而提高网络资源信息采集相关率。  相似文献   

9.
公交分析查询等功能是城市电子地图中的重要内容.利用赋权有向图理论分析了城市公交网络的特点及其拓扑模型,针对WebGis环境特点提出了基于SuperMap IS.NET的城市公交网络模型,并给出了在该模型下的公交线路查询方法.将该模型应用于德州市电子地图的开发中,通过实际应用证实了该模型的有效性和可行性.  相似文献   

10.
介绍了当前的几种常用Web测试生成技术,提出了基于爬虫的Web测试生成技术,设计并实现了Web测试生成系统,该系统可以自动化完成爬取目标Web应用、处理分析爬取结果、生成测试用例、执行测试用例的功能,并且系统执行过程中输出的分析结果和测试用例可以被其他相关系统如测试覆盖分析系统利用。  相似文献   

11.
金鹏 《科技信息》2010,(20):222-223
由于民用搜索引擎无法在军队中使用,随着部队人员对提供的各项信息服务的要求越来越高、越来越细,基于整个Web的信息采集越来越力不从心.同时它也无法迅速地搜集到足够的最新的网络信息,也不能满足人们日益增长的个性化需求.本文希望通过开发一个军事教育类主题方面的爬虫以满足用户专门检索军事教育类信息的要求.  相似文献   

12.
目的:主题爬虫是用户获取领域知识的一种有效途径。为实现此方法用户首要解决的问题是主题向量的训练数据的选择和初始URLs的选择。但传统的主题爬虫对于初始URLs的选取并没有过多论述,为此,本文探讨了初始URLs对于主题爬虫的影响,并提出了一种基于元搜索和本体结合的算法来选择并确定初始URLs。方法:采用元搜索方法获取与主题相关的初始URLs,然后根据返回结果采用本体领域知识进行重排序,选择前排的URLs。自动而不是人工地进行初始URLs的确定,同时将页面信息作为训练主题向量的语料。结果:通过对比实验,本文选取的初始URLs比随机选择的要有更高的收获比。从获取总量上看,本文的方法能获得更多的相关网页。结论:通过实验证明主题团的存在,通过本文方法能够选择质量更好的初始URLs,获取主题向量训练语料,发现更多主题团,并且方便用户对于主题爬虫的定制。  相似文献   

13.
大数据背景下,数据和信息以前所未有的方式增长,对于人们来说,如何从纷杂的网页中获得需要的信息,或者有价值的信息成为研究热点,因此,爬虫技术近几年研究很多,发展很快.python语言是目前爬虫使用最多的语言,python语言近几年在语言领域占据着重要的地位,目前很多高校已经开始python语言相关课程.本文对几种爬虫技术...  相似文献   

14.
如何从海量的Web资源中获取有用的信息是Web研究领域的重要研究内容。针对特定领域信息的获取,目前主要采用聚焦爬虫策略。该策略只爬取与主题相关的页面,忽略不相关页面。但目前的聚焦爬虫技术在爬行效率和页面质量两个方面仍存在一定的不足。因此,本文主要从这两个方面进行改进,并在此基础上设计和实现了一个面向大学领域的聚焦爬虫系统。该系统采用基于改进的Context Graphs方法的搜索策略和基于支持向量机(SVM)的目标页面分类器方法获取有用的资源。实验结果表明该系统在爬虫结果的收益率和准确率上分别提高了10%和8%。  相似文献   

15.
交互式网络教学模型设计与实现   总被引:2,自引:0,他引:2  
在分析现有网络教学方式基础上,提出了交互式网络教学模型,阐述交互式网络教学的功能。介绍了socket、广播与多播、PHP网页设计等关键实现技术,最后给出了网络教学系统的主要程序代码。  相似文献   

16.
针对页面中的大量动态链接,提出了模拟浏览器的解析方式进行页面链接的提取,并设计实现了基于JaveScript等多链接分析的主题爬虫系统.  相似文献   

17.
基于概念分析的主题爬虫设计   总被引:1,自引:0,他引:1  
研究改进主题爬虫设计的方法,用高效的主题爬虫取代传统搜索引擎中的普通爬虫,以更高的精度完成定向信息采集.在成功实现基于关键词的主题爬虫的基础上,提出了基于概念的主题相关度分析算法,给出了基于概念分析的主题爬虫的实现方案.比较两种主题爬虫工作的实验结果,显示爬虫的性能得到了提高,论证了该设计的可行性与可操作性,为实现准确的定向信息采集奠定了良好的基础.  相似文献   

18.
陈丽君 《科技资讯》2009,(16):21-21
传统网络爬虫只处理页面中的超链接,而忽略了大量有价值的深层网搜索表单。本文设计了一个表单检测器用于检测搜索表单,介绍了其功能模块及具体实现,最后用实验验证该检测器的有效性。  相似文献   

19.
利用传统的基于节点连接的道路网络模型来表达真实世界中的道路网络,其存在的缺陷越来越突出,大大降低了导航系统的鲁棒性。为了消除这些缺陷,首次提出一个新的道路网络模型,即基于虚拟节点连接的道路网络模型,其虚拟节点是汇交路段的各个端点所围成的区域,具有真实道路路口的形状,与传统模型相比,该模型更能表达真实世界道路网络中的交通流,所以它能更好地满足地图匹配理论要求。另外,该模型能很好的表达真实道路路口参数,所以它在交通规划,交通管理和交通流模拟中都有着十分广阔的应用前景。  相似文献   

20.
为了研究在机会网络路由协议下黑洞攻击对网络性能的影响,分析了机会网络的网络特征及黑洞攻击的攻击机制,在ONE仿真器下搭建了机会网络的黑洞攻击模型,并应用模型在多种机会网络路由协议下进行仿真,通过分析网络的消息交付率等性能,得出黑洞攻击强度与网络性能之间的关系。该模型能较为准确地模拟黑洞攻击,并且适用于不同种类的机会网络路由协议,具有一定的拓展性,为机会网络安全的研究提供了重要的参考依据和实验研究手段。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号