首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
研究了普通搜索引擎技术特点和实现过程,系统地分析比较研究基于主题改进爬虫程序算法,设计实现一个能更好地满足用户不同搜索需求的主题搜索引擎,该搜索引擎具有科学性、高效性、实用性、易操作性等优点.使用本搜索引擎,对多个大型网站进行查询搜索,通过实验数据对比,结果表明,该引擎的数据查全率和查准率都高于普通搜索引擎,具有较高的...  相似文献   

2.
刘红梅 《科技信息》2013,(24):252-253
主题爬虫是垂直搜索引擎的关键构建,其搜索算法的优劣直接影响到搜索引擎的查全率和查准率。本文简要介绍了垂直搜索引擎中主题爬虫的工作原理;归纳了常见的几种搜索策略算法;分析了主题爬虫的搜索策略的特点,并比较了几种搜索策略的优缺点;总结了提高主题爬虫搜索效率的关键因素及发展趋势;为后期的学习和研究打下基础。  相似文献   

3.
本文在研究元搜索引擎及排序算法的基础上,提出了一种基于元搜索引擎的加权Borda排序算法,该算法通过权重信息来推荐成员搜索引擎,为元搜索引擎在海量数据搜索中提高查全率和查准率提供帮助。  相似文献   

4.
相关排序技术是搜索引擎结果处理的一个核心技术,其排序算法的优劣直接影响查准率.笔者阐述了现有排序算法的优缺点,分析了不同排序算法对查准率的影响,从根集的质量、噪音链接、查询分类几方面进行了优化并考虑了综合因素,提出了一种切实可行的相关排序实现方案.  相似文献   

5.
基于概念的搜索引擎   总被引:2,自引:0,他引:2  
唐成 《科技信息》2007,(9):174-175
本文分析了传统搜索引擎的不足,提出了一种基于概念的搜索引擎,并对该系统的设计和实现进行了简单的介绍。该搜索引擎把基于关键字层面的检索提高到基于概念(知识)层面的检索上来,克服了传统搜索引擎的不足,提高了查全率与查准率。  相似文献   

6.
针对目前搜索引擎图像检索技术存在语义鸿沟及搜索结果需进一步优化等问题,提出一种基于搜索引擎检索结果的图像过滤方法,以提高图像检索的查准率。以西安为例对其8个著名景点和5种著名饮食的检索结果进行了优化,结果表明:优化后查准率提高了12.7%,验证了该方法的有效性。该方法对展现城市的视觉文化形象具有重要意义。  相似文献   

7.
针对搜索引擎查找准确率低、检索效果差的问题,提出了基于本体的搜索引擎.该搜索引擎首先构建相关主题本体知识库,再利用网络爬虫下载网页内容和网页结构特征,并对内容进行智能识别,找出与本体相关内容识别为相关本体,通过与本体知识库内容对比,筛选特定的统一资源定位器(URL)地址及与计算机网络安全相关的本体,从而发现计算机网络安全相关信息,同时建立不同服务提供者之间的关联关系及服务提供者之间的层级关系,最后将抽取出的计算机网络安全信息存储到以本体为模型创建的数据库中,并成为用户搜索服务的最终数据来源.实验结果表明,本体可提高搜索引擎的查准率,减少冗余信息,从而提高查询精度.  相似文献   

8.
为提高垂直搜索引擎中面向服务行业的页面搜索查准率,提出了一种语义模型的设计与实现方法.该模型以面向服务行业的垂直搜索引擎为研究对象,根据服务行业领域知识将查询词分成三种语义(品牌词、类别词、服务项目),针对三种语义设计差异化搜索方案;并改进了页面搜索排序方法.该语义模型首先通过识别查询词的类型,得到相应的过滤条件;然后由过滤条件限制搜索范围,去掉不相关的搜索结果;最终通过改进页面搜索排序算法,提高搜索准确率.实验结果表明,应用该语义模型得到搜索过滤条件,使用过滤条件限制搜索范围,搜索的正确率提高了2个百分点~7个百分点,有效提高搜索引擎的查准率,提升用户体验和工作效率,对其他领域或行业也有一定的借鉴意义.  相似文献   

9.
随着信息化步伐的加快,网络求职越来越普及,通用搜索引擎以及招聘网也成为大学生获取就业信息的主要渠道。针对大多通用搜索引擎搜索的就业信息精准度不高以及招聘网站内容繁杂等问题,研究面向大学生的就业主题搜索引擎系统。借助Heritrix爬虫工具以及Solr全文搜索引擎进行二次开发,并对Heritrix爬虫工具默认的爬取策略以及队列分配策略进行优化,同时引入IK Analyzer改进Solr的中文分词的准确率。系统原型测试结果表明,系统具有较好抓取效率以及查准率。  相似文献   

10.
文章提出了一种基于用户兴趣的网页预分类的PageRank算法,改进后的算法是根据用户对某一类别网页的兴趣,将网页进行预分类.经验证,改进后的算法可以提高搜索引擎的查准率.  相似文献   

11.
从全局上限定采集范围可以有效地提高主题爬虫的查准率.结合Web链接分析和页面内容特征分析,提出了一种基于复杂网络局部社区发现的主题爬行方法,将主题爬行分为两个阶段,第一阶段采用复杂网络的局部社区发现算法进行Web链接分析,构建主题网站群,缩小爬行范围.在第二阶段,在限定的范围内,对爬取到的页面进行主题相似度判定,并对下一步的链接目标进行预测.实验证明,该方法显著提高了主题爬虫的查准率.  相似文献   

12.
针对通用搜索引擎在当前网络搜索应用中出现的搜索结果冗余度过大、信息定位不准确的问题,对垂直搜索引擎进行了研究,剖析了通用搜索引擎和垂直搜索引擎的体系结构,比较了两者的工作流程和搜索结果进行,利用垂直搜索引擎专注于某一领域从而降低了"一词多义"现象的特性,有效提高了查全率和查准率。针对垂直搜索引擎在无法满足不同用户的个性化需求方面的不足,分析了垂直搜索引擎的个性化信息检索和推荐技术,然后从实际应用出发,设计和实现了基于用户和文档特征向量矩阵的个性化检索和推荐算法。  相似文献   

13.
为解决因网络中共享文件大量增加而造成的现有文件搜索引擎查准率和查全率低、查询结果可用性不强的问题,在分析用户查询日志的特征和统计文件服务器文件特点的基础上,提出了一种新的文件搜索引擎实现方案,在查询中使用基于资源的匹配来替代传统的字符串匹配,并对查询结果进行个性化排序,从而有效地提高了查询结果的质量,并提供了自动纠错等功能.在天网千帆文件搜索引擎上通过了该方案的系统实现,实验结果证明了该设计的有效性.  相似文献   

14.
基于网页分块的Shark-Search算法   总被引:1,自引:0,他引:1  
Shark-Search算法是一个经典的主题爬取算法. 针对该算法在爬取噪音链接较多的Web页面时性能并不理想的问题, 提出了基于网页分块的Shark-Search算法, 该算法从页面、块、链接的多种粒度来更加有效的进行链接的选择与过滤. 实验证明, 改进的Shark-Search算法比传统的Shark-Search算法在查准率和信息量总和上有了质的提高.  相似文献   

15.
针对现有搜索引擎算法不能完整依据用户的查询需求,导致检索质量差的问题,提出一种基于聚类和用户兴趣模型的个性化车辆图像搜索算法,实现个性化搜索。根据用户感兴趣目标特点,选择目标多特征集合;采用多核线性融合方法计算相似度;在此基础上,提出使用优化降维支撑向量机进行基于多核的动态聚类,建立用户兴趣模型,并将个性化的搜索结果返回给用户。研究结果表明:与传统的搜索算法相比,新算法增加了用户的参与方式,解决了底层视觉特征与高层语义间的鸿沟问题,能够明显提高平均查全率和查准率;新算法比基于颜色的传统搜索算法的平均查全率和查准率分别提升了9%和24.6%,比基于纹理的传统搜索算法的平均查全率和查准率分别提升了28%和42.6%。  相似文献   

16.
面向行业主题的搜索在特定主题信息覆盖方面与通用搜索引擎有着截然不同的要求,为解决行业信息搜索的问题对基于向量空间算法的化工相关度计算以及对经典的Page-Rank页面排序算法做了研究与改进并且在Nutch搜索引擎架构基础上,搭建了一个面向化工行业信息资源的垂直搜索引擎。相对于通用搜索引擎来说剔除掉了不必要的搜索结果信息量,提升了系统速度,提高了行业信息搜索的准确度。  相似文献   

17.
为提高组合检索系统的性能,提出一种基于混合模型的多搜索引擎融合方法.该方法利用高斯、指数密度函数分别描述相关、非相关文档的相关分值分布,用基于混合模型的算法规范化处理相关分值,估计非相关文档的相关分值,并进行分值合并.这样做既考虑到相关、非相关文档在分值分布上的差异,又考虑了用户对成员搜索引擎的性能评价.实验结果表明,利用该方法的平均查准率要比成员搜索引擎平均提高37.8%,也明显高于Sum-CombSUM、Sum-CombMNZ和Standard-CombSUM3种常用的融合方法。  相似文献   

18.
校园网园区搜索引擎的设计与实现   总被引:1,自引:0,他引:1  
Google、百度等通用搜索引擎不能适用于所有的情况和需要,现有的校园网搜索引擎存在查准率、查全率不高,升级维护困难等局限性.本着整合校园网资源的目的,为方便广大师生对校园网信息的获取和使用,设计并实现了校园网园区搜索引擎中文检索系统.该系统由搜索引擎机器人、信息分析器和Web服务器查询软件3部分组成,能够对园区网上的...  相似文献   

19.
基于分块的网页主题信息自动提取算法   总被引:3,自引:0,他引:3  
对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用该算法改进了网页分类的预处理过程,提高了分类的速度和准确性.实验表明,对网页进行主题信息提取后再进行分类,可以提高分类系统的查全率和查准率.  相似文献   

20.
萃智(teoriya resheniya izobreatatelskikh zadatch,TRIZ)理论可以用于分析传统搜索引擎系统用户体验不足的问题,是对系统进行改进的有效工具.首先采用TRIZ理论中的三轴分析法来分析传统系统的技术矛盾,包括原因轴、系统轴和操作轴分析,以确定导致系统个性化和人性化体验不足的根本原因.在对问题进行描述和分析后,利用TRIZ理论来指导改进传统搜索引擎中的缺陷,并提出了系统设计方案.最后,为了进一步测试改进后系统的查准率和有效性,进行了查准率实验.实验结果表明,改进后的系统查准率比传统的系统提高了10%左右.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号