首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 593 毫秒
1.
针对基于关键词匹配的搜索引擎存在的问题,提出一种基于语义词典的局部查询扩展方法,首先利用共现分析法和语义相似度选取扩展词,再对原始查询词和扩展词加权,最后计算文档相似度从而获得排序后的扩展查询结果.该方法克服了其它局部扩展方法将大量无关词加入查询的问题.实验表明,该方法有效地提高了查询结果的查准率.  相似文献   

2.
分析了现有元搜索引擎的功能,指出其不足并提出一种智能型的元搜索引擎模型.通过建立本地数据库,自动提供用户需求的扩展、分发和对搜索结果的过滤、排序,提高网络信息搜索的查全率和查准率.  相似文献   

3.
面向行业主题的搜索在特定主题信息覆盖方面与通用搜索引擎有着截然不同的要求,为解决行业信息搜索的问题对基于向量空间算法的化工相关度计算以及对经典的Page-Rank页面排序算法做了研究与改进并且在Nutch搜索引擎架构基础上,搭建了一个面向化工行业信息资源的垂直搜索引擎。相对于通用搜索引擎来说剔除掉了不必要的搜索结果信息量,提升了系统速度,提高了行业信息搜索的准确度。  相似文献   

4.
搜索引擎是用户利用网络资源不可或缺的工具,但目前搜索引擎的查准率有待提高。对于不同的用户而言,即便是相同的查询词其期望的查询对象可能不同,那么搜索引擎此时的查准率其实就是让搜索引擎具有个性化搜索的特点。个性化搜索引擎的关键是用户兴趣的确定和文档兴趣值的确定,只有把抽象的个性化兴趣量化成数值类的模型,才可以了解用户真正的需求和量化文档与兴趣的相关程度,从而准确地对网页进行筛选并达到个性化排序的功能。  相似文献   

5.
信息检索效率在很大程度上取决于用户看到的搜索引擎结果页面所提供的内容.目前,红色突显查询词是商业搜索引擎结果页面主要采用的文本展示方式,但由于查询词可能表达模糊或者包含噪音,与用户的查询意图往往不能完全一致.为了能够充分地反映用户的查询意图,同时突显对于满足用户查询意图最重要的词语,基于人工标注的结果提出一种新的关键词突显策略;综合结构化支持向量机、隐马尔科夫、最大间隔马尔科夫网络及条件随机场4种基础的序列标注机器学习模型,进一步提出一种新的联合序列学习模型并进行用户搜索实验.实验结果表明:该种模型优于4种基础模型,与人工标注的结果相比取得了93.30%的准确率;所提出的关键词突显策略明显优于传统的查询词突显策略,提高了用户的满意度及搜索效益.  相似文献   

6.
本文在已建立的家电领域本体的基础上,提出一种面向家电领域的语义检索模型,该模型一改传统检索方法中机械式字符匹配的弊端,支持基于本体的语义理解.利用SVM分类器、自然语言处理、语义标注等技术,在对查询条件预处理以及资源语义标注的基础上,对标注资源库进行检索,提高了查准率和查全率。  相似文献   

7.
阐述了目前网络上的搜索引擎主要是基于关键词索引查询技术而设计的,这种技术的搜索范围很大,但由于关键词难于表达丰富的概念和用户信息需求中的丰富语义,导致查准率很低。以语义W eb和基于语义的网络信息检索技术为理论根据,从克服目前信息组织和信息检索的矛盾出发,用XML/RDF作为语义描述、组织、存储、查询的工具,试图在未来搜索引擎发展方面做一些尝试性的研究,提出了一个基于自然语言查询的搜索引擎模型。  相似文献   

8.
利用信息检索、本体和个性化搜索等相关知识,构建一种基于本体的个性化搜索引擎模型PSMBO.该模型由用户界面、查询请求处理模块、检索模块、查询结果处理模块、兴趣学习模块以及用户兴趣知识库和本体知识库七个部分组成.该模型在一定程度上提高了搜索引擎在查准率和查全率方面的性能.  相似文献   

9.
针对目前搜索引擎图像检索技术存在语义鸿沟及搜索结果需进一步优化等问题,提出一种基于搜索引擎检索结果的图像过滤方法,以提高图像检索的查准率。以西安为例对其8个著名景点和5种著名饮食的检索结果进行了优化,结果表明:优化后查准率提高了12.7%,验证了该方法的有效性。该方法对展现城市的视觉文化形象具有重要意义。  相似文献   

10.
目的针对百度和360等通用搜索引擎搜索旅游信息速度不够快、不准确和分类不明确的缺点,设计和实现了一个面向游客查找旅游信息的网络爬虫,给出了该网络爬虫所采用的自适应垂直搜索算法.方法基于领域本体,建立相应的知识模型和查询模型,并在基于知识模型和查询模型的基础上设计一个综合查询方法,拓展所需要查询的信息.结果设计了一种自适应旅游信息垂直搜索算法和相应的网络爬虫,并用软件实现了该网络爬虫.用设计的网络爬虫对辽宁省公园、辽宁省儿童公园和辽宁省森林公园进行的搜索,采用自适应算法搜索时,Per(用户搜索百分比)为92%,采用基于网页内容的URL选取算法搜索时,Per为82%.对吉林省旅游景点、吉林省公园和吉林省森林公园进行的搜索,采用自适应算法搜索时,Per为91%,采用基于网页内容的URL选取算法搜索时,Per为80%.与经典的搜索方法相比,搜索结果更准确,分类效果更好.结论所设计的垂直搜索算法对旅游信息的搜索是有效的,在查询的准确率和信息的分类上都有一定的提高和改进.  相似文献   

11.
对电子商务环境下货源信息搜索问题进行了分析研究,并以Internet网络为信息源,采用信息检索和人工智能相关技术,提出了基于Hopfield神经网络的货源信息搜索方法.该方法将货源信息的特征保存在Hopfield神经网络的连接权中,根据用户输入的查询词,通过网络的运行,自动生成一组查询扩展词,利用这组查询扩展词在通用搜索引擎中进行扩展搜索,并分析排序搜索结果.此方法扩大了货源搜索范围,提高了搜索精度,为企业提供了有价值的相关货源信息.  相似文献   

12.
本文在研究元搜索引擎及排序算法的基础上,提出了一种基于元搜索引擎的加权Borda排序算法,该算法通过权重信息来推荐成员搜索引擎,为元搜索引擎在海量数据搜索中提高查全率和查准率提供帮助。  相似文献   

13.
一种元搜索引擎的查询结果处理模型   总被引:5,自引:0,他引:5  
为克服元搜索引擎查询速度慢、独立性差的缺点,设计了一个元搜索引擎的结果处理模型.在该模型中引入了一种4级结果集的结构,从而提高了元搜索引擎结果处理的效率.在结果提取部分提出了根据反馈信息自动调整权重的算法(FBWM),从而能够在没有人工干预的情况下自动监视各独立搜索引擎的性能变化,并随之动态调整其权重.在结果排序部分提出了改进的位置/全文排序法(IPFTS),在算法中引入了词条匹配等级的概念,提高了搜索结果和查询串的相关度的精度,保证了排名在前的搜索结果中链接地址的有效性.  相似文献   

14.
一种编辑距离算法及其在网页搜索中的应用   总被引:1,自引:0,他引:1  
针对传统方法不能很好地处理网页中简短域与用户查询之间的相关性排序问题,提出一种基于改进的编辑距离排序算法.将以词为单位的用户查询和简短网页域通过匹配编码转化为2个字符串,再利用改进的编辑距离计算2个字符串之间的相似性.由于在用户查询与待比较的简短网页域之间引入了查询词分布的位置、顺序和距离等,以及含有查询词修饰关系的重要信息,所以编码字符串之间的相似程度可以衡量对应的查询与简短网页域之间的相关性.经大规模真实搜索引擎实验表明,该算法较之传统的相关性排序算法,可以显著地提高网页搜索中的简短网页域相关性排序性能,尤其适用于简短域与用户查询之间的相关性比较.  相似文献   

15.
在农业科研办公过程中,科研人员进行信息检索的频率高,信息需求精度高,但传统的综合性搜索引擎检索农业实用技术、政策法规、专题数据等方向性比较强的农业信息,通常返回结果数据量庞大、主旨范围宽泛,导致内容不精准、搜索面太广,筛选结果专业性不足;且现阶段主流的农业领域的垂直搜索引擎的搜索策略主要建立在传统的文本检索上,在自身领域数据量有限的情况下,搜索结果查全率不高,且搜索结果没有排序依据(大多仅仅按信息发生时间为排序依据).本文对农业互联网信息搜索引擎进行了研究,通过对各级农业管理部门网站、农业科研院所网站、农业新闻网站、农业商业网站等数据源的模块进行定位,通过爬虫进行数据更新检测与定时抓取,从数据源上有效减少不相关信息;基于数百个互联网数据源农业相关模块的信息抽取,采用word2vec和本文提出的基于文本特征表达的doc2vec,分别创建农业词向量、文档向量空间,用来应对搜索关键词为无序词组和有序语句的搜索场景,确保垂直搜索的智能和返回结果的准确.经过实验验证,本文提出的doc2vec+tf-idf搜索算法能够在有序搜索中达到较高的准确率,结合word2vec进行的无序搜索,有针对地进行语义搜索,可以进一步提高搜索引擎的查准率,满足日益增长的对农业领域信息搜索的高效高质的需求.  相似文献   

16.
为了提高专业领域内信息检索的查准率,使检索结果在语义层面能够重新进行排序以去除非相关条目,利用语义Web中的本体技术和本体标准描述语言OWL建立了证券领域本体,并且基于证券领域本体提出了面向专业领域的信息资源检索系统IRS—SA,该系统有助于机构或者个人投资者获得及时有效的证券信息.系统接受输入检索关键词从而利用查询转化器自动构造或扩展用户查询,将自然语言查询转化为系统内部的格式后,使检索获得的结果按照本体中定义的概念及关系进行语义再排序,并将最后所得结果返回给用户,提高了文档语义相关性程度.  相似文献   

17.
李大林 《科技信息》2007,(7):69-69,117
本文主要研究并分析了搜索引擎算法查准率相关的问题,针对特定主题的搜索引擎构建问题,给出了一种主题搜索引擎的体系结构,并在此基础上,提出了面向主题的专业网页索引集构造算法.模拟实验表明,以该算法为基础的主题搜索引擎能使用户搜索到该主题的权威页和中心页,可以有效地提高搜索引擎的查准率。  相似文献   

18.
区别于传统的信息检索,地理信息检索通过一个查询范围词来限制用户的兴趣区域.目前的技术一般是把该查询范围词作为一个过滤器,将在该范围之外的文档排除在查询结果外.但是,词在地理空间的频率分布并不是均匀的,因此词在排序结果中的重要性应该随着查询范围的变化而有所改变.为此,提出了一种新的基于语言模型的地理信息查询模型,把查询范围引入到传统的语言模型中.在该模型中,引入了一个local model来描述查询词的地理分布特性.实验结果表明,新的检索模型优于TF-IDF与传统的语言模型.  相似文献   

19.
针对传统查询词临近性(QTP)分析方法无法有效提高查准率的问题,提出了一种孤立项过滤的信息检索查询词分析方法.该方法根据词汇相似度较高的查询词对之间具有强可替代性这一事实,从查询词及其实例中分解出查询内的孤立项和文档内的孤立项,在分析查询词临近性之前预先进行孤立项过滤,使之不参与QTP统计量的计算,由此减小了过分强调临近性对查准率的影响.实验结果表明,对于词汇相似度差异比较显著的查询,进行孤立项过滤的查询词临近性分析方法的平均检索精确度比传统分析方法提高14%.  相似文献   

20.
根据全信息理论,认识论信息是语法信息、语义信息和语用信息的三位一体.在信息检索的过程中加入语用信息能有效的提高信息检索的质量.基于查询与内容的文档表示模型较好的利用了语用信息,对站内搜索引擎的查准率的提高有着很好作用;Lucene是一个用java语言开发的开源的全文搜索引擎架构.本文利用Lucene设计和实现一个基于查询与内容的文档表示模型的站内搜索引擎,实验结果表明该模型能有效的提高信息检索的查准率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号