首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
分析了最好优先搜索策略中遇到的隧道问题,设计并实现了一种基于本体的主题爬虫系统。  相似文献   

2.
基于概念分析的主题爬虫设计   总被引:1,自引:0,他引:1  
研究改进主题爬虫设计的方法,用高效的主题爬虫取代传统搜索引擎中的普通爬虫,以更高的精度完成定向信息采集.在成功实现基于关键词的主题爬虫的基础上,提出了基于概念的主题相关度分析算法,给出了基于概念分析的主题爬虫的实现方案.比较两种主题爬虫工作的实验结果,显示爬虫的性能得到了提高,论证了该设计的可行性与可操作性,为实现准确的定向信息采集奠定了良好的基础.  相似文献   

3.
刘红梅 《科技信息》2013,(24):252-253
主题爬虫是垂直搜索引擎的关键构建,其搜索算法的优劣直接影响到搜索引擎的查全率和查准率。本文简要介绍了垂直搜索引擎中主题爬虫的工作原理;归纳了常见的几种搜索策略算法;分析了主题爬虫的搜索策略的特点,并比较了几种搜索策略的优缺点;总结了提高主题爬虫搜索效率的关键因素及发展趋势;为后期的学习和研究打下基础。  相似文献   

4.
提出了一种可定制聚焦网络爬虫技术.该技术采用简单的主题描述方法提高网络爬虫的可定制性,利用基于站点页面链接结构的链接导航技术实现对主题信息的高效抓取,通过配置文件实施定制,从而构建一个资源消耗小、数据采集准确性高、可控性强的轻量级聚焦网络爬虫,以满足P2P搜索的需求.文中进一步提出一种增量更新和批量更新相结合的网络爬虫数据更新机制,这种混合更新机制降低了增量更新的实现复杂性,相比批量更新具有更小的资源消耗,实验表明采用这种机制能达到较高的数据新鲜度和召回率.  相似文献   

5.
目的:主题爬虫是用户获取领域知识的一种有效途径。为实现此方法用户首要解决的问题是主题向量的训练数据的选择和初始URLs的选择。但传统的主题爬虫对于初始URLs的选取并没有过多论述,为此,本文探讨了初始URLs对于主题爬虫的影响,并提出了一种基于元搜索和本体结合的算法来选择并确定初始URLs。方法:采用元搜索方法获取与主题相关的初始URLs,然后根据返回结果采用本体领域知识进行重排序,选择前排的URLs。自动而不是人工地进行初始URLs的确定,同时将页面信息作为训练主题向量的语料。结果:通过对比实验,本文选取的初始URLs比随机选择的要有更高的收获比。从获取总量上看,本文的方法能获得更多的相关网页。结论:通过实验证明主题团的存在,通过本文方法能够选择质量更好的初始URLs,获取主题向量训练语料,发现更多主题团,并且方便用户对于主题爬虫的定制。  相似文献   

6.
目的针对百度和360等通用搜索引擎搜索旅游信息速度不够快、不准确和分类不明确的缺点,设计和实现了一个面向游客查找旅游信息的网络爬虫,给出了该网络爬虫所采用的自适应垂直搜索算法.方法基于领域本体,建立相应的知识模型和查询模型,并在基于知识模型和查询模型的基础上设计一个综合查询方法,拓展所需要查询的信息.结果设计了一种自适应旅游信息垂直搜索算法和相应的网络爬虫,并用软件实现了该网络爬虫.用设计的网络爬虫对辽宁省公园、辽宁省儿童公园和辽宁省森林公园进行的搜索,采用自适应算法搜索时,Per(用户搜索百分比)为92%,采用基于网页内容的URL选取算法搜索时,Per为82%.对吉林省旅游景点、吉林省公园和吉林省森林公园进行的搜索,采用自适应算法搜索时,Per为91%,采用基于网页内容的URL选取算法搜索时,Per为80%.与经典的搜索方法相比,搜索结果更准确,分类效果更好.结论所设计的垂直搜索算法对旅游信息的搜索是有效的,在查询的准确率和信息的分类上都有一定的提高和改进.  相似文献   

7.
随着互联网发布的各种数据在急剧增长,人们正常进入网站精确获取信息的速度较慢而且信息量较小,按照一定的规则编写的计算机指令——网络爬虫应运而生,它可以在较短的时间内从网络上自动抓取大量数据信息。该文研究的是基于Scrapy框架的一种招聘信息主题网络爬虫的设计与实现。主题网络爬虫只搜索与主题信息有关的资源数据,用来服务于高校毕业生群体,作为就业前收集招聘信息的辅助手段。  相似文献   

8.
随着网络的高速发展,其信息资源越来越庞大,面对巨量的信息库,搜索引擎起着重要的作用.主题爬虫技术作为搜索引擎的主要核心部分,计算搜索结果与搜索主题的关系,该关系被称为相关性.一般主题爬虫方法只计算网页内容与搜索主题的相关性,作者所提主题爬虫,通过链接内容和锚文本内容计算链接的重要性,然后利用贝叶斯分类器对链接进行分类,最后利用余弦相似函数计算网页的相关性,如果相关值大于阀值,则认为该网页与预定主题相关,否则不相关.实验结果证明:所提出主题爬虫方法可以获得很高的精确度.  相似文献   

9.
针对传统搜索方式和查询界面的不足,提出了基于Deep Web 的地图搜索系统框架,前台采用活动地图与用户进行交互,后台采用领域本体和Deep Web 爬虫进行识别和相关信息的收集。此系统应用于与地理位置相关的主题信息类网站,使用户能够直观便捷地搜索到所需的信息,提出了一种信息搜索的新思路。  相似文献   

10.
基于XQuery的Deep Web搜索系统的设计与实现   总被引:2,自引:0,他引:2  
孙彬  王东  李娟 《科学技术与工程》2007,7(16):4080-4084
随着Web技术的发展,越来越多的信息需要通过Deep Web来获取,爬虫搜索系统是完成Deep Web搜索的重要技术手段。提出一种基于XPath的Web搜索系统的设计方法,它通过采集URL目标,分析目标URL的Web结构,维护URL本体知识库,达到深度积累页面的目的。  相似文献   

11.
目前CBIR系统采用单一特征进行图像检索的效果不是很理想.在单一特征进行图像检索的基础上,结合权值确定技术,提出了一种利用图像综合特征进行检索的方法,并在Visual C++ 6.0中实现了基于此方法的CBIR系统. 实验结果表明,该检索方法可行且在查准率上大大优于单一特征的检索方法.  相似文献   

12.
分别介绍了图像边缘和颜色特征的提取方法,及基于内容的图像检索系统的实现。试验结果表明,在图像检索时合理利用图像的边缘和颜色特征,可有效地提高系统的检索性能。  相似文献   

13.
基于内容的图像检索(CBIR)系统传统上仅仅使用颜色特征和纹理特征进行图像的底层分析,不足以满足检索性能的要求.要提高基于内容图像检索的鲁棒性,需要检索系统能分析更多的图像底层特征.对于包含大范围人造对象(比如:建筑物、高塔、桥梁和其他结构对象)的图像,提出应用感知分组(perceptual grouping)规则抽取图像的结构特征,并结合使用该结构特征,对特定的图像库进行分类和客观评价.  相似文献   

14.
为解决中文网页主题特征项抽取不精确的问题, 对中文网页的主题特征项抽取算法进行了研究。网页的主题特征项抽取是主题网络爬虫进行网页相关度计算的基础, 结合主题网页的二分类情况对目前常用的文本特征项加权方法TF-IDF(Term Frequency-Inverse Document Frequency)进行了改进, 在此基础上结合网页的半结构化特征, 综合考虑特征项的位置信息及其包含的信息量, 提出了一种线性特征项加权计算方法。经实验验证, 该方法可有效提高主题网页的召回率和准确率。  相似文献   

15.
基于颜色共生矩阵的纹理检索算法MCM   总被引:1,自引:0,他引:1  
描述了一种基于颜色共生矩阵的纹理检索算法MCM,主要包括颜色共生矩阵纹理特征提取算法以及纹理特征的相似性度量函数,给出了利用MCM算法检索图像库的实例.通过MCM算法提取的特征除了反映图像的纹理关系外,还综合了其颜色构成特征,部分建立了与人的视觉感知之间的对应关系.实验表明,MCM算法优于一般的灰度共生矩阵纹理检索算法,并且具有较好的检索效果.  相似文献   

16.
一种新的彩色图像降维方法   总被引:5,自引:1,他引:5  
徐志节  杨杰  王猛 《上海交通大学学报》2004,38(12):2063-2067,2072
基于内容的图像检索(CBIR)是图像检索的重要分支,而基于颜色的特征提取是CBIR的常用方法之一.如果对图像颜色的特征数提取过多、维数过大,则不利于对图像的快速匹配.本文将图像的色彩直方图作为输入向量,然后采用局部线性映射(LLE)算法对原始数据进行降维,并分别在4种色彩空间下对降维后的彩色图像进行分类.实验证明,在处理非线性数据降维时,LLE较主成分分析(PCA)具有明显的优势.  相似文献   

17.
科技资源具有海量、复杂、异构、地理分布广的特点。为了高效查找和使用科技资源的图像,综合运用TB IR(基于文本的图像检索)和CB IR(基于内容的图像检索)共同检索科技资源图像,设计了科技资源图像检索系统,并对系统中的图像分割、特征提取和相似度度量3种关键技术进行了研究。  相似文献   

18.
基于内容的图像检索技术综述   总被引:5,自引:1,他引:5  
随着多媒体技术的发展,传统的基于关键字的信息检索技术已逐渐不能满足要求.因此,基于内容的图像检索技术(CB IR)应运而生.本文主要讨论CB IR研究中的一些关键问题:图像的内容特征及提取、特征之间的相似度计算、相关反馈、检索性能的评价等等,并指出了一些可值得深入研究的方向.  相似文献   

19.
基于内容的图像检索技术研究   总被引:1,自引:0,他引:1  
阐述了基于内容的图像检索(CBIR)近年来的发展及特点,探讨了基于内容的图像检索的体系结构,重点介绍了基于颜色特征、纹理特征、形状特征以及空间关系的图像检索等的相关技术和算法。  相似文献   

20.
IntroductionIn these years , with the quick development ofmulti media and computer networks ,the increased numberof digital i mages is astonishing .In many application fieldssuch as biomedicine , military , education, commerce ,entertainment , manufacturing , cri me prevention andWorld Wide Web searing ,large volume of data appear ini mage for m. This envisages the need for fast and effectivei mage retrieval mechanis ms in an efficient manner . Thetraditional text-based technique annotates t…  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号