首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
为能在搜索引擎返回的结果集上构建贴近用户意图的主题层,并在文档词与主题间建立映射,将社会化标注引入经典的LDA模型,构建一种基于主题-标签-文档词之间关系的三层主题模型,并将其用于伪相关反馈查询扩展词的选取.实验结果表明,该模型提取的查询扩展词能描述标签的语义,模型用于伪相关反馈后,提取的扩展词能覆盖查询条件,在多数情况下结果列表的NDCG值高于基本伪相关反馈和结果集聚类方法.  相似文献   

2.
为了解决基于内容的图像检索(content-Based Image Retrieval,CBIR)中存在的“语义鸿沟”问题,本文提出了一种CBIR检索模型,在模型中使用了基于近邻传播的半监督聚类算法和语义传播的算法,通过近邻半监督算法对图像库中的图像进行聚类,根据示例图像的视觉特征相似度在对应的聚类图像中进行相似度检索,在检索的结果中根据用户提供的关键字进行关键字标注检索,最后根据用户的反馈,通过语义传播算法对图像库中的图像进行自动语义标注.实验表明丈中的模型是可行的,其检索效果受到反馈次数的影响.  相似文献   

3.
针对现有专利检索中的用户意图理解及查询扩展不足问题,提出了一种基于自动查询扩展的专利文档检索方法。首先结合专利文档特点,采用基于改进TF-IDF公式的专利领域词表提取方法,构建专利领域词表。在检索阶段,对查询输入串进行分析得到查询关键词汇,同领域词表相结合,确定查询所在领域及查询扩展难度。利用基于伪相关反馈的自动查询扩展技术,根据伪相关文档的术语分布差异分析,生成查询扩展项并排序,最后将扩展项与原始查询条件相结合,重新组成查询条件,完成专利查询。实验结果表明,该方法具有较高的召回率和平均准确率。  相似文献   

4.
利用标签的层次化搜索结果聚类方法   总被引:2,自引:0,他引:2  
为了提高搜索引擎返回结果的可浏览性,满足用户对查询质量的要求,提出了一种层次化搜索结果聚类方法.首先,从搜索引擎的返回结果提取出文档集,并对每一个文档进行词干化、去除停用词等操作.然后,根据词共现信息来发现文档集中的频繁2元组,再将2元组扩展为n元组,对所有元组进行去冗余、重要性排序,从而获得候选聚类标签.最后,基于该标签对返回结果中的文档进行分配与聚集,形成层次化聚类结果.实验结果表明,所提方法可以通过获得的准确、可读性较好的聚类标签,帮助用户有效地浏览搜索引擎返回的结果.与Vivisimo、STC、Lingo算法比较,以及在多个评价指标上的综合实验结果也表明,该方法是有效的.  相似文献   

5.
基于词间语义相关度的搜索结果聚类算法   总被引:1,自引:1,他引:0  
将查询结果根据内容进行聚类是提高搜索引擎服务质量的关键技术之一.搜索结果聚类时只能从文档标题和文档片段中抽取有限信息,传统聚类方法难以准确计算其相似度.提出了一种基于词间语义相关度的搜索结果聚类算法,该算法以词为聚类的核心,词所出现的文档为词的属性,根据词在搜索结果文档中共现的情况来划分类别.该方法可以充分利用词间的语义相关性,类别划分后即可确定类名.实验结果表明,对搜索结果聚类时与K-Means和STC算法相比,质量上有所提高.  相似文献   

6.
一种新的用于三维检索的快速邻域搜索方法   总被引:1,自引:0,他引:1  
在传统的层次聚类算法上,对孤立聚类进行特殊处理,并在此基础上提出了与传统内容检索方法不同的三维模型索引检索技术.首先提取三维模型的深度图像特征并将特征值存入数据库;其次利用改进的层次聚类算法对特征值进行聚类并计算聚类中心值;之后计算每个三维模型内容特征与其所在聚类中心的距离并保存到数据库中,查询时计算待查询模型特征与各个聚类中心的距离并排序;最后在每个聚类里面进行检索,与聚类中心的距离位于待检索模型与该聚类中心距离的邻域就是查询结果.在该方法中,将每个模型特征与其所在聚类中心的距离作为其索引.实验结果表明,该方法在保证检索质量的基础上大大提高了检索速度.  相似文献   

7.
基于模糊多类SVM的图像检索相关反馈   总被引:3,自引:3,他引:0  
提出一种基于模糊多类SVM(FSVMs)的图像检索相关反馈算法.首先,将图像检索的相关反馈过程看成是一个正样本类和多个负样本类之间的多分类问题,改善了反馈固有的正负样本不对称问题;其次,将受限随机选择(CRS)扩展为多类受限随机选择(MCRS)来扩充多类负样本,解决小样本问题;并以记忆性标注的方式降低用户多类标注的疲劳和误差.实验结果表明,该方法能在较少的反馈次数内得到较满意的检索结果.  相似文献   

8.
文本聚类作为一种自动化程度较高的无监督机器学习方法,能够实现对文本信息的有效组织、摘要和导航,近年来已经广泛应用在信息检索领域。笔者针对使用向量空间模型进行聚类时对于同义词和多义词的处理存在的缺陷,提出了基于本体的文本聚类模型。首先使用WordNet词典对文档中的词进行语义标注,得到文档的概念集合;然后对每个文档的概念集合进行概念聚类,生成文档的概念主题;最后通过计算主题的相似度完成文本聚类。该模型减少了相似度计算量,改善了聚类结果和聚类性能。  相似文献   

9.
提出了一种文档聚类方法,对用户的检索结果中类似的文档进行聚类,提供目录结构,辅助用户浏览检索结果.首先分析了现有的文本聚类方法,讨论了它们的优势和不足,然后提出了基于后缀树的中文文本聚类算法,并详细描述了该算法的原理和构造使用过程,及在算法实现的过程中遇到的关键问题及解决方案.  相似文献   

10.
由于网络信息的激增,如何充分利用大量的信息,并有效地为Web用户服务成为一个急需解决的问题。相关研究表明利用Web文档聚类的方法可以缩小信息检索的范围,提高查询准确率。通过分析Web文档的特征以及常用Web文档聚类方法的优缺点,提出了一种基于互信息理论的Web文档聚类的方法。在聚类的过程中,计算特征词之间的互信息值,根据阈值判断特征词是否属于同一类别。实验结果表明,该方法与K-Means聚类算法相比较,在准确率和召回率方面均有提高。  相似文献   

11.
基于多查询数据融合和正相关反馈的检索算法   总被引:4,自引:0,他引:4  
为提高信息检索系统的性能,提出了一种多查询数据融合与正相关反馈相结合的检索算法.算法的核心思想是:利用基于向量表示的余弦相似度测度计算查询与文档之间的相似度,采用多查询数据融合技术将多个检索结果融合,以及从上一次检索结果中取出前M个相关文档和初始查询一起构成新的查询,将新查询提交给系统并继续下一次的检索,如此反复,直到获得满意的结果.实验结果表明,该算法相对于仅使用了多查询数据融合技术的算法和仅使用了正相关反馈技术的算法,其平均准确率分别提高42.6%和23.17%.  相似文献   

12.
To eliminate the mismatch between words of relevant documents and user's query and more serious negative effects it has on the performance of information retrieval,a method of query expansion on the basis of new terms co-occurrence representation was put forward by analyzing the process of producing query. The expansion terms were selected according to their correlation to the whole query. At the same time, the position information between terms were considered. The experimental result on test retrieval conference (TREC) data collection shows that the method proposed in the paper has made an improvement of 5%~19% all the time than the language modeling method without expansion. Compared to the popular approach of query expansion, pseudo feedback, the precision of the proposed method is competitive.  相似文献   

13.
提出了一种基于八邻域网格聚类的多样性XML近似查询算法.首先给出了支持XML文档间语义距离计算的3种编辑操作代价模型,再利用XML文档间的语义距离建立XML文档的向量模型并设计基于八邻域网格的XML文档聚类算法,进而利用聚类过程中得到的物理和逻辑聚类中心对静态有序选择算法的查询评估策略进行优化,这样做只需定位聚类中心所在组群的局部范围,并在该范围内进行目标查询,而无需遍历整个XML数据库,从而快速返回满足用户需求的查询结果.经汽车外形智能化设计实验表明,所提算法的查询速度比静态有序选择算法平均提高了3~4倍.  相似文献   

14.
当搜索日志存在查询词稀疏性和时效性问题时,基于搜索日志的查询扩展方法无法保证查询扩展的质量,无法满足具有时效性查询请求的需求.提出了基于搜索日志与局部上下文的查询扩展方法,通过发掘搜索日志中用户查询词和相关文档的关联关系,抽取查询扩展词,并用局部上下文从相关文档集中提取出频率较大,同时具有时效性的查询扩展词.通过对查询扩展词的查询性能和时效性的计算,该方法为原始查询补充更高质量的查询扩展词.实验结果表明,该方法能够有效地提升准确率和召回率,使原始查询获得更好的查询性能.  相似文献   

15.
A clustering algorithm for semi-supervised affinity propagation based on layered combination is proposed in this paper in light of existing flaws. To improve accuracy of the algorithm,it introduces the idea of layered combination, divides an affinity propagation clustering( APC) process into several hierarchies evenly,draws samples from data of each hierarchy according to weight,and executes semi-supervised learning through construction of pairwise constraints and use of submanifold label mapping,weighting and combining clustering results of all hierarchies by combined promotion. It is shown by theoretical analysis and experimental result that clustering accuracy and computation complexity of the semi-supervised affinity propagation clustering algorithm based on layered combination( SAP-LC algorithm) have been greatly improved.  相似文献   

16.
针对各类网络数据中存在着大量的无标记数据,导致了SNS(social network service)隐私保护中数据可用性相对较差的问题,本文提出一种基于Bagging的ELM(extreme learning machine)集成算法,并将其与基于Seeds集的半监督聚类算法相结合应用于隐私保护.该算法首先利用ELM-Bagging集成方法对无标记数据进行标记,并将新标记的数据加入Seeds集以扩大其规模,然后采用基于Seeds集的半监督聚类实现K-匿名.实验结果表明,该算法在有效保护隐私的同时,提高了发布数据的可用性.  相似文献   

17.
基于概念分组的Web搜索结果聚类算法   总被引:2,自引:0,他引:2  
为了便于用户浏览搜索引擎返回的搜索结果,快速有效地定位有价值的Web文档,提出了基于概念分组的Web搜索结果聚类算法.首先,建立特征词同现网络,利用概念分组技术挖掘特征词之间的语义关联,形成主题概念类;然后,计算文档与各概念类之间的距离,据此实现Web搜索结果的聚类;最后,综合考虑特征词在类内和文档集中的重要性进行类别标签的选择.实验结果表明本算法具有较好的聚类性能,明显优于k-均值算法,且产生的类别标签容易理解.  相似文献   

18.
提出了一种混合约束的半监督聚类算法HCSCAP,综合考虑了已标号点和成对点约束信息,使2类先验信息在聚类的过程中能发挥各自的作用.通过调整相似性矩阵添加成对点约束,已标号点以宏结点的方式添加到相似性矩阵.给出了具体的算法步骤并进行了测试,实验表明:HCSCAP比只利用成对点约束信息的SAP算法和只利用标号点的SS-CA...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号