首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 937 毫秒
1.
搜索引擎是目前最主要的WWW信息检索的工具 ,然而 ,用户对当前搜索引擎的检索效果并不满意。论文给出了基于文档文本内容和文档间超链信息的混合相似度计算方法,并给出了基于混合相似度的模糊(软 )聚类算法HTSC。对HTSC算法进行了理论分析 ,并对其中的核心算法进行了初步的实验验证。该算法可对搜索引擎返回的结果进行模糊聚类 ,以方便用户从中找到真正需要的信息。  相似文献   

2.
利用标签的层次化搜索结果聚类方法   总被引:2,自引:0,他引:2  
为了提高搜索引擎返回结果的可浏览性,满足用户对查询质量的要求,提出了一种层次化搜索结果聚类方法.首先,从搜索引擎的返回结果提取出文档集,并对每一个文档进行词干化、去除停用词等操作.然后,根据词共现信息来发现文档集中的频繁2元组,再将2元组扩展为n元组,对所有元组进行去冗余、重要性排序,从而获得候选聚类标签.最后,基于该标签对返回结果中的文档进行分配与聚集,形成层次化聚类结果.实验结果表明,所提方法可以通过获得的准确、可读性较好的聚类标签,帮助用户有效地浏览搜索引擎返回的结果.与Vivisimo、STC、Lingo算法比较,以及在多个评价指标上的综合实验结果也表明,该方法是有效的.  相似文献   

3.
构建了一种新型文献检索系统,能够摘要一篇文献中引起读者研究工作关注的那些内容,并返回读者对这些内容的评论,从而帮助用户快速了解该文献的学术价值及不足之处等重要信息。利用文献间的引用关系从其他文献中找到指向一篇文献的评论上下文,借鉴查询-检索模式,将评论转化为一元语言模型所生成的查询,并将原文献划分为句子所构成的文档集,基于KL-divergence检索模型找到原文献中与评论对应的句子。选取得分最高的若干句子构成体现原文献对外影响的摘要。系统基于北京大学研制的智能搜索引擎平台Platform for Applying,Researching And Developing Intelligent Search Engine(PARADISE),具有快速构建可扩展好的优点。  相似文献   

4.
在网络信息搜索过程中会经常出现大量垃圾信息,这些垃圾信息,提高了用户查询有效信息的难度,浪费了用户查询有效信息的时间。本文提出一种利用行为模式识别技术,对网络搜索引擎获得信息结果进行过滤的方式,通过这种方式来提高网络搜索信息的准确率。  相似文献   

5.
基于XML的藏文图书检索系统的设计与研究   总被引:1,自引:0,他引:1  
通过设计一个藏文图书查询系统,并给出该系统的总体结构图,对基于XML的搜索引擎中涉及的关键技术进行了研究,提出对XML这种半结构化文档建立索引和查询时采用的数据结构和算法.它在不丢失文档中结构信息的情况下,能充分利用XML的标签所带来的上下文信息,能够大幅度提高查询的准确率.  相似文献   

6.
李强 《甘肃科技》2012,28(3):27-29
Internet的发展,为我们提供了海量的信息资源,但由于Web的复杂性,目前传统的搜索引擎只能检索出其中一部分信息.大量的隐藏信息对这些搜索引擎是不可见的.这些信息隐藏在Web页面的搜索表单中,存在于大型的数据库.用户必须通过查询其后端的数据库才能获得这些Deep Web信息.首先介绍了Deep Web引擎的一般原理,列举了目前Deep Web的流行技术,以及Deep Web搜索引擎的研究现状,并给出了Deep Web搜索引擎的完整实现内容框架,同时探讨了数据库自动发现、数据库自动选择、返回结果自动抽取、结果聚合等4个实现Deep Web搜索引擎的关键技术.  相似文献   

7.
提出了一种基于模糊语言方法的搜索引擎,通过引入语言变量和模糊约束的概念,把隐含在模糊查询中的模糊约束显示化,从而使搜索引擎返回真正与用户查询相关的信息.与现有的搜索引擎相比,该模型能对自然语言进行某种程度的语义理解,更好地满足了用户的检索需求.  相似文献   

8.
传统的WEB查询是基于HTML文档中的全文信息的,只要文档中包含某一待查询的词语,文档就会被选中,而不管该单词在文档中的作用和地位如何.提出了一种基于文档的Dublin Core元数据的查询方法,首先从HTML文档中提取出相应的Dublin Core元数据放入索引库中.当用户提出查询请求时,在索引库查找与用户请求相匹配的文档条目,然后将它们返回给用户.由于元数据是对文档资源的精确描述,因此这种查询方法得到的文档具有较高的相关性,避免了出现大量无关的查询结果.  相似文献   

9.
Web用户模式     
根据用户的浏览操作,对用户相似的浏览过程提出了一个基于文档关键词的聚类算法,进而生成了Web个性化的用户模式,它能帮助Web用户从搜索引擎所返回的大量文档中筛选出自己所需要的文档,从而提高用户信息检索的准确性和效率。  相似文献   

10.
基于XML的站内搜索引擎的实现研究   总被引:4,自引:0,他引:4  
分析了传统基于HTML的站内搜索引擎的不足和目前XML技术的特点,提出了一种利用XML文档保存查询信息、通过DOM解析文档、采用Xpath实现检索的站内搜索引擎的实现模式,并具体阐述了这种基于XML的站内搜索引擎的技术实现方式。  相似文献   

11.
识别和抽取XML文档中的关系信息及其出现模式   总被引:3,自引:0,他引:3  
Web中存在着大量描述实体间相互关联的信息,而目前的搜索引擎缺乏知识的处理和理解能力,无法对Web中的关系信息进行识别.该文以XML作为研究对象,提出了一种XML文档中识别和抽取关系信息及其出现模式的方法.该方法按照用户的挖掘请求搜集XML文档;通过计算XML文档的相似度来识别目标文档;建立用户挖掘模式并与目标文档进行模式匹配实现关系数据的抽取.实验结果表明提出的XML相似度计算方法能较好的实现目标文档的识别,同时采用的模式表达和匹配方式也能较准确地从目标文档中抽取出用户所需的关系数据.  相似文献   

12.
搜索结果的合成是元搜索引擎系统中一个重要的技术问题。为了提高元搜索引擎的查询精度,提出了一种改进的元搜索结果合成算法。通过分析搜索结果列表中包含的文本信息,综合考虑搜索结果与查询的匹配完全程度和相关程度给出了文本分析的规范化方法,并结合搜索结果的排序信息计算文档的相关分值,据此实现对局部相似度的调整。利用成员搜索引擎的性能评价,提出了改进的影子文档方法估算非相关文档的相关分值。然后,采用基于群决策的合成方法对搜索结果进行一致性排序。在实际Web环境中进行了测试,实验结果表明采用本算法,搜索结果的相关性比Round-robin、CombSum和CombMNZ三种合成算法有较大提高。  相似文献   

13.
陈玉娥 《科技信息》2012,(30):55+57-55,57
本文首先从网页文档中抽取出关键词建立用户模型,然后从语义的角度出发,基于"知网"进行词语相似度计算,进而判定搜索引擎返回的网页与用户模型的相似度从而达到过滤信息的目的。实验表明,系统比传统的利用向量空间模型进行信息过滤具有更好的精度。  相似文献   

14.
为了在浩渺的信息海洋中快速、准确查找到用户所需的信息,各搜索引擎一般都提供了先进的检索和筛选技术,用户可以通过提炼查询关键词、用好逻辑运算符、精确或模糊匹配、限定文档类别或来源、垂直搜索等技巧来有效地查询信息。  相似文献   

15.
搜索引擎是用户利用网络资源不可或缺的工具,但目前搜索引擎的查准率有待提高。对于不同的用户而言,即便是相同的查询词其期望的查询对象可能不同,那么搜索引擎此时的查准率其实就是让搜索引擎具有个性化搜索的特点。个性化搜索引擎的关键是用户兴趣的确定和文档兴趣值的确定,只有把抽象的个性化兴趣量化成数值类的模型,才可以了解用户真正的需求和量化文档与兴趣的相关程度,从而准确地对网页进行筛选并达到个性化排序的功能。  相似文献   

16.
搜索用户根据搜索引擎结果页面的搜索结果来决定他们是否点击特定的网页,其展示形式在用户整个搜索交互过程中起到重要作用。查询词飘红是目前商业搜索引擎结果文本主要采用的展现形式,存在着满篇红和缺乏有用信息的现象,该文旨在提出一种新的飘红策略,从而提高用户的搜索效率。该文基于人工标注的结果提出了3种文本飘红策略,分别是缩减查询词飘红策略、任务级飘红策略和结果级飘红策略,通过实验分析了4种不同的摘要飘红策略对用户搜索行为的影响,结果表明:该文提出的3种文本飘红策略,其性能均优于目前商业引擎采用的查询词飘红策略,通过控制飘红次数、飘红比例和提供有价值的信息,可以对用户搜索行为产生非常积极的影响。  相似文献   

17.
为了提高专业领域内信息检索的查准率,使检索结果在语义层面能够重新进行排序以去除非相关条目,利用语义Web中的本体技术和本体标准描述语言OWL建立了证券领域本体,并且基于证券领域本体提出了面向专业领域的信息资源检索系统IRS—SA,该系统有助于机构或者个人投资者获得及时有效的证券信息.系统接受输入检索关键词从而利用查询转化器自动构造或扩展用户查询,将自然语言查询转化为系统内部的格式后,使检索获得的结果按照本体中定义的概念及关系进行语义再排序,并将最后所得结果返回给用户,提高了文档语义相关性程度.  相似文献   

18.
查询推荐是一种帮助搜索引擎更好的理解用户检索需求的方法.基于查询的上下文片段训练词汇和查询之间的语义关系,同时结合查询和URL的点击图以及查询中的序列行为构建Term-Query-URL异构信息网络,采用重启动随机游走(Random Walk with Restart,RWR)进行查询推荐.综合利用语义信息和日志信息,提高了稀疏查询的推荐效果.基于概率语言模型构造查询的词汇向量,可以为新的查询进行查询推荐.在大规模商业搜索引擎查询日志上的实验表明本文方法相比传统的查询推荐方法性能提升约为3%~10%.  相似文献   

19.
中文文本挖掘的特征导航机制   总被引:9,自引:0,他引:9  
文本挖掘是从非结构化的文本中发现潜在的概念以及概念间的相互关系·鉴于中文文本的特点,提出了基于因子分析的文本特征抽取机制·通过识别文本中潜在的概念结构来抽取特征项,而且有助于改善向量空间模型中各个分量间的斜交现象·同时给出了基于概念的信息导航机制,按概念层次和上下文环境展现用户所关心的内容  相似文献   

20.
观点检索是自然语言处理领域中的一个热点研究课题。现有的观点检索模型在检索过程中往往无法根据上下文将词汇进行知识、概念层面的抽象,这种稀疏空间下的检索方式影响了观点检索模型的性能。文章提出一种基于文本概念化的观点检索方法,通过知识图谱计算概念空间下不同文本之间的相似度以改善特征空间的稀疏问题。这一方法首先利用知识图谱分别将用户查询和文本概念化到概念空间,同时在概念空间计算查询与文本的主题相似度,接着基于词典计算文档的观点得分,最后将相关度得分与文本的观点得分二次组合成相关观点得分并用于观点检索。实验表明,在两个数据集上,本文方法相比基准工作在MAP评价指标上分别提升了4.2%和12.6%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号