首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 188 毫秒
1.
主题爬虫搜索策略的研究   总被引:1,自引:0,他引:1  
由于信息多元化的发展,通用的搜索引擎无法满足专业化用户的需求,分类细致、精确、更新及时的面向特定主题的垂直搜索引擎便应运而生了。主题网络爬虫是垂直搜索引擎获取数据的自动化程序。以何种策略有效地访问网络资源是主题爬虫研究的主要问题。本文重点对主题爬虫的搜索策略进行研究,并对各种搜索策略进行了比较。  相似文献   

2.
根据校园舆情和信息安全管理的需要,结合垂直搜索的特点,提出了一种面向主题的域内垂直搜索引擎模型.给出了模型在信息采集、分词处理、主题识别、网页索引、检索处理5个功能模块的实现过程,并对模型涉及的中文分词方法、隐形关键词组的扩展运算、检索正态化因子的调整等关键技术进行了讨论.建成的搜索引擎能够很好地满足用户主题检索服务的需要.  相似文献   

3.
面向行业主题的搜索在特定主题信息覆盖方面与通用搜索引擎有着截然不同的要求,为解决行业信息搜索的问题对基于向量空间算法的化工相关度计算以及对经典的Page-Rank页面排序算法做了研究与改进并且在Nutch搜索引擎架构基础上,搭建了一个面向化工行业信息资源的垂直搜索引擎。相对于通用搜索引擎来说剔除掉了不必要的搜索结果信息量,提升了系统速度,提高了行业信息搜索的准确度。  相似文献   

4.
随着互联网的信息以指数级增长,用户希望搜索引擎能够提供面向专业的更准确智能搜索服务,主题搜索引擎的研究显得越来越有意义。本文对基于本体语义主题搜索引擎系统的关键技术进行研究。首先建立主题搜索引擎系统流程,对主题网络爬虫,网页主题相关度、网页主题分类进行了算法研究。最后以服装纺织领域的主题搜索实现为例,说明主题搜索引擎系统能更准确快速实现专业搜索服务。  相似文献   

5.
刘红梅 《科技信息》2013,(24):252-253
主题爬虫是垂直搜索引擎的关键构建,其搜索算法的优劣直接影响到搜索引擎的查全率和查准率。本文简要介绍了垂直搜索引擎中主题爬虫的工作原理;归纳了常见的几种搜索策略算法;分析了主题爬虫的搜索策略的特点,并比较了几种搜索策略的优缺点;总结了提高主题爬虫搜索效率的关键因素及发展趋势;为后期的学习和研究打下基础。  相似文献   

6.
面向语义搜索的推荐模型研究   总被引:2,自引:1,他引:1  
随着Web信息量的不断增多,人们不得不花费大量时间去搜索、浏览和选择自己需要的信息,改善和提升搜索引擎信息检索的能力已经越来越迫切.提出基于专家用户搜索历史的信息推荐模型,并重点介绍普通用户和专家用户Profile以及基于此的2个计算模型.在此基础上结合Nutch搜索引擎平台,开发面向语义搜索的推荐系统,实际使用证明推荐效果良好.  相似文献   

7.
基于混合向量空间模型的主题网站识别   总被引:1,自引:0,他引:1  
为了实现面向特定领域网站的网络资源搜索,提出了一种描述网站主题特征的混合向量空间模型.利用链接文本信息来描述同类主题网站的内容和组织结构所具有的相似特点,而不是由网站链接的树或图结构反映.在向量空间模型的基础上,抽取反映网站结构和内容的文本特征信息,建立网站主题的特征向量模型.在此基础上进行制造企业网站的主题搜索,采用类中心向量法进行了网站主题分析.结果表明该模型适合于网站主题的特征描述,有助于提高网站主题识别与分类的准确性和效率,在主题搜索和网站分类等应用中具有较好的适用性.  相似文献   

8.
Web信息的急剧增长使搜索引擎专用化成为发展趋势.采用了基于概念空间的主体爬虫结构,构造了一个快速、有效的主题信息搜索机器人系统.试验结果表明,该方法具有较高的召回率和精确率.  相似文献   

9.
利用超链接信息改进网页爬行器的搜索策略   总被引:5,自引:0,他引:5  
网页爬行器在Web空间中爬行时,要面对如下两个问题:1)由于Internet上的信息量十分巨大,网络搜索引擎不可能包含整个Web网页;2)受到硬件资源的限制,它所能存储的网页是有限的.爬行器如果按照传统的宽度优先搜索策略在Web空间中爬行,它对所有的网页都采取一视同仁的态度,这样爬行的结果就导致了它所爬行回来的网页质量不高.为此,给出了利用超链接信息改进网页爬行器搜索策略的算法.该算法充分考虑了网页之间的超链接信息,克服了传统的宽度优先搜索策略的盲目性爬行.实验表明,利用该算法爬行得到的网页与某一特定主题相关的网页超过50%.  相似文献   

10.
通信和计算机技术的进步,使社会向数字化方向发展.互联网上的信息,则呈爆炸式增长.搜索引擎若在全面和详尽两方面都下功夫,只能导致既不全面也不详尽.因此衍生出面向专门人群的垂直搜索.网面分类是实现搜索引擎的定题爬虫的重要技术之一.在新的需求下,提出一个新的网页分类判定算法,在原有基础上,对搜索的速度和质量进行提升.  相似文献   

11.
如何有效地构建面向领域的垂直搜索引擎,是信息检索领域众多研究者关注的问题.本文提出了一种通用的基于专业词汇表构建垂直搜索引擎的方法,通过分析网页特征,提出了基于链接结构和文本内容的启发式网页爬取策略.该策略结合网页的结构信息特征,在网页和主题相关度计算中考虑了特征词汇在网页中的权重,有效地提高了专业搜索引擎的查询效率.通过具体实现一个面向医疗领域的垂直搜索引擎,验证了本文所提出的方法的有效性.  相似文献   

12.
搜索引擎是互联网最广泛的应用之一,对搜索引擎优化策略进行评价,对企业开展该项工作有着重要的指导意义。从信息生态的角度展开该领域的研究,有助于判断网站搜索引擎优化的稳定性和持续发展能力。该研究从信息生态的视角,利用层次分析法,构建了搜索引擎优化策略的评价指标体系,并采用模糊综合评价的方法,对华为在线商城进行了实证研究。从研究结果来看,该文构建的评价指标体系具有较强的可操作性和较高的实践应用价值,能够较好地判断网站搜索引擎优化的生态性,也为信息生态系统的研究提供了新的视角。  相似文献   

13.
基于概念检索的中文搜索引擎   总被引:7,自引:0,他引:7  
随着Internet中文信息的增加,智能化引擎已成为中文检索技术未来的发展目标与趋势,概念检索作为一种实现技术有着广泛的应用前景,文中阐述了概念检索的意义,介绍了一种基于概念语义网络且针对特定领域的中文搜索引擎模型与实现。  相似文献   

14.
阐述了目前网络上的搜索引擎主要是基于关键词索引查询技术而设计的,这种技术的搜索范围很大,但由于关键词难于表达丰富的概念和用户信息需求中的丰富语义,导致查准率很低。以语义W eb和基于语义的网络信息检索技术为理论根据,从克服目前信息组织和信息检索的矛盾出发,用XML/RDF作为语义描述、组织、存储、查询的工具,试图在未来搜索引擎发展方面做一些尝试性的研究,提出了一个基于自然语言查询的搜索引擎模型。  相似文献   

15.
介绍了中文搜索引擎的概念和工作原理,针对目前中文搜索引擎存在的问题,提出了应采取增加检索途径。加强网络信息资源的标引和组织以及充分利用中文信息处理技术成果等措施来推进中文搜索引擎的发展。  相似文献   

16.
中文农业主题搜索引擎的设计与实现   总被引:2,自引:1,他引:1  
用户对农业信息的需求越来越多,农业搜索引擎的开发变得十分必要.从农业搜索引擎发展状况出发,在分析研究通用搜索引擎工作原理、系统架构的基础上,设计并实现了中文农业主题搜索引擎,给出了开发过程中采用的关键技术.结果表明,能满足用户实际需求.  相似文献   

17.
中文搜索引擎发展现状和使用技巧   总被引:1,自引:0,他引:1  
随着网络技术的发展,网上信息量急剧增长,中文搜索引擎为人们在网络信息中实现个性化查询提供了方便。简述了中文搜索引擎的发展现状和工作流程,介绍了常用的网络中文搜索引擎及其使用技巧,指出有针对性地选择合适的搜索引擎,并利用检索中的一些经验技巧,可以达到事半功倍的效果。  相似文献   

18.
利用基于校园网的搜索引擎来搜索学校局域网内的信息已成为人们关注的热点,一方面是因为校园网内信息量不断增加,利用搜索引擎可以提高搜索效率;另一方面是因为由于网络设计的限制,百度等搜索引擎搜索不到局域网内的很多信息.在研究搜索引擎基本原理和技术的基础上,设计了基于Lucene的校园网搜索引擎.测试表明,本系统能很好地完成用户的搜索要求.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号