首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
针对用户搜索聚类的需求,以描述优先聚类算法为中心,利用提取高频短语获取候选聚类标签,并结合用户行为,提出一种基于搜索引擎的搜索结果可视化服务的实现机制.该机制包括聚类、可视化、用户反馈三个方面的算法,通过将用户的搜索结果动态转化及总结为相关聚类形态,基此进行可视化搜索呈现,引导用户快速获得搜索结果,并统计用户的使用习惯.实验表明:该机制可有效将用户搜索的结果进行汇聚,减少用户选择的选项,利用聚类等呈现手段辅助用户搜索.  相似文献   

2.
卢希 《科技信息》2012,(24):271-271
聚类搜索是建立在专业垂直搜索技术上的一种高效搜索方法,该方法能通过对用户数据分析而向用户提供相对准确的搜索结果,其智能聚类、去重、覆盖性等能力在电子商务中将有更为广泛的应用,本文通过对当前聚类搜索引擎技术的了解,进一步探索其在电子商务领域中的应用。  相似文献   

3.
在传统层次聚类基础上,提出并实现了一种基于距离的增量式聚类算法,并应用于粮食智能决策支持系统中,算法在保持层次聚类优点的基础上,利用原有的聚类结果提高聚类速度,并可以根据用户需要在聚类精度和聚类速度两方面选取一个适当的平衡点,有效地提高聚类分析的效率。  相似文献   

4.
王会 《科技信息》2009,(18):72-72
文章的目的是在系统地回顾了万维网信息检索、数据挖掘、搜索引擎以及聚类的应用研究现状基础上,总结目前存在的问题,并提出了相应的解决方法。特别希望通过聚类方法自动组织搜索引擎的搜索方案,便于用户发现真正需要的万维网信息。  相似文献   

5.
利用标签的层次化搜索结果聚类方法   总被引:2,自引:0,他引:2  
为了提高搜索引擎返回结果的可浏览性,满足用户对查询质量的要求,提出了一种层次化搜索结果聚类方法.首先,从搜索引擎的返回结果提取出文档集,并对每一个文档进行词干化、去除停用词等操作.然后,根据词共现信息来发现文档集中的频繁2元组,再将2元组扩展为n元组,对所有元组进行去冗余、重要性排序,从而获得候选聚类标签.最后,基于该标签对返回结果中的文档进行分配与聚集,形成层次化聚类结果.实验结果表明,所提方法可以通过获得的准确、可读性较好的聚类标签,帮助用户有效地浏览搜索引擎返回的结果.与Vivisimo、STC、Lingo算法比较,以及在多个评价指标上的综合实验结果也表明,该方法是有效的.  相似文献   

6.
为了加快传统聚类方法的计算速度,提高实际工作的效率,在传统层次聚类算法基础上,探讨了一种基于距离的增量聚类算法,并应用于粮食智能决策支持系统中。算法在保持层次聚类优点的基础上,利用旧的聚类结果提高聚类速度,根据用户需要在聚类精度和聚类速度方面选取一个适当的平衡点,有效地提高了聚类分析的效率。由此得出结论:可以利用旧的历史数据提高分析效率,缩短实际业务中的统计计算时间。  相似文献   

7.
基于分类和聚类相结合的个性化检索方法研究   总被引:1,自引:0,他引:1  
目前检索工具的设计大多面向所有用户,而没有考虑到用户个人的兴趣,导致查准率较低。由此提出一种基于分类和聚类相结合的个性化信息检索方法。该方法首先利用聚类技术,对用户的历史浏览记录进行聚类,产生一个初步的用户兴趣分类,然后根据ODP对用户兴趣分类进行调整得到最终的用户兴趣分类,并利用该分类对传统搜索引擎返回的结果进行分类,以产生有意义的分类搜索结果。该方法克服了单独利用分类或聚类技术的局限性,提高了搜索引擎的可用性。  相似文献   

8.
元搜索引擎的个性化   总被引:1,自引:0,他引:1  
提出一种通过产生用户动态偏好来达到个性化搜索的方法.利用RDF的语义表达能力存储和优化基于访问记录的用户偏好,并采用聚类方法划分用户群,实现对用户偏好的有效管理。给出了元搜索引擎选择算法和搜索结果排序算法,实现了一个个性化的元搜索引擎,实验表明,该搜索引擎提高了查询准确率和使用效率,并能够根据用户及其所在群的历史偏好信息重新组织搜索结果.  相似文献   

9.
基于词间语义相关度的搜索结果聚类算法   总被引:1,自引:1,他引:0  
将查询结果根据内容进行聚类是提高搜索引擎服务质量的关键技术之一.搜索结果聚类时只能从文档标题和文档片段中抽取有限信息,传统聚类方法难以准确计算其相似度.提出了一种基于词间语义相关度的搜索结果聚类算法,该算法以词为聚类的核心,词所出现的文档为词的属性,根据词在搜索结果文档中共现的情况来划分类别.该方法可以充分利用词间的语义相关性,类别划分后即可确定类名.实验结果表明,对搜索结果聚类时与K-Means和STC算法相比,质量上有所提高.  相似文献   

10.
基于概念分组的Web搜索结果聚类算法   总被引:2,自引:0,他引:2  
为了便于用户浏览搜索引擎返回的搜索结果,快速有效地定位有价值的Web文档,提出了基于概念分组的Web搜索结果聚类算法.首先,建立特征词同现网络,利用概念分组技术挖掘特征词之间的语义关联,形成主题概念类;然后,计算文档与各概念类之间的距离,据此实现Web搜索结果的聚类;最后,综合考虑特征词在类内和文档集中的重要性进行类别标签的选择.实验结果表明本算法具有较好的聚类性能,明显优于k-均值算法,且产生的类别标签容易理解.  相似文献   

11.
搜索引擎是目前最主要的WWW信息检索的工具 ,然而 ,用户对当前搜索引擎的检索效果并不满意。论文给出了基于文档文本内容和文档间超链信息的混合相似度计算方法,并给出了基于混合相似度的模糊(软 )聚类算法HTSC。对HTSC算法进行了理论分析 ,并对其中的核心算法进行了初步的实验验证。该算法可对搜索引擎返回的结果进行模糊聚类 ,以方便用户从中找到真正需要的信息。  相似文献   

12.
结合Web用户浏览行为的特点,提出了一种基于路径的Web页面相似度聚类算法,使用用户的浏览行为描述和用户对页面的访问次数建立Web站点的访问矩阵,并在此基础上对站点进行URL用户聚类。最后,使用标准数据集进行了试验,证明基于此种相似度计算方法的URL聚类算法对Web用户聚类是有效的。  相似文献   

13.
A new method for Web users fuzzy clustering based on analysis of user interest characteristic is proposed in this article. The method first defines page fuzzy categories according to the links on the index page of the site. then computes fuzzy degree of cross page through aggregating on data of Web tog. After that, by using fuzzy comprehensive evaluation method, the method constructs user interest vectors according to page viewing times and frequency of hits. and derives the fuzzy similarity matrix from the interest vectors for the Web users. Finally. it gets the clustering result through the fuzzy clustering method. The experimental results show the effectiveness of the method.  相似文献   

14.
一种用于文本聚类的改进k-means算法   总被引:2,自引:0,他引:2  
k-means是目前常用的文本聚类算法,针对其最终搜索的局部极值与全局最优解偏差较大的缺点,采用一种基于局部搜索优化的思想来改进算法,并推导出目标函数的变化公式。根据目标函数值的改变对聚类结果作再次划分后,继续k-means迭代,拓展其搜索范围。理论分析和实验结果表明修改后的算法能有效地提高聚类的质量,且计算复杂度仍与数据集文本总数呈线性变化。  相似文献   

15.
针对基于最短路径的路径规划方法只关注路径长度,而基于轨迹的路径规划方法过度依赖用户偏好的问题,提出一种同时考虑用户出行偏好和路径长度的路径规划方法.首先,利用长短期记忆模型从历史出行轨迹中提取用户的出行偏好;其次,采用Markov链Monte Carlo采样技术将用户的出行偏好引入启发式搜索算法A*中,在道路网络中搜索...  相似文献   

16.
K中心点算法是一个常用的聚类算法,它的主要缺陷是容易陷入局部极值,计算代价太高.本文先构造一个运用余弦相似度的K中心点文档聚类算法,然后提出一个改进算法,该算法不增加计算的复杂性,显著改进文档的聚类结果.最后,将该改进算法作为局部搜索过程嵌入到迭代局部搜索结构中,构造一个基于K中心点的迭代局部搜索文档聚类算法,进一步改进了文档聚类结果.试验结果表明该算法显著改进了文档聚类结果.  相似文献   

17.
基于互信息的Web文档聚类方法   总被引:2,自引:2,他引:0  
由于网络信息的激增,如何充分利用大量的信息,并有效地为Web用户服务成为一个急需解决的问题。相关研究表明利用Web文档聚类的方法可以缩小信息检索的范围,提高查询准确率。通过分析Web文档的特征以及常用Web文档聚类方法的优缺点,提出了一种基于互信息理论的Web文档聚类的方法。在聚类的过程中,计算特征词之间的互信息值,根据阈值判断特征词是否属于同一类别。实验结果表明,该方法与K-Means聚类算法相比较,在准确率和召回率方面均有提高。  相似文献   

18.
为提高Web 搜索精度和检准率, 在后缀树聚类算法基本模型的基础上, 提出了一种改进的基于后缀树的搜索结果聚类算法。将向量空间模型与后缀树聚类相结合, 改善了基类合并的效果, 综合基类节点对应文本数、短语包含词语长度、短语权重及是否包含查询词作为聚类标签的筛选条件, 改进了聚类标签的合理性和可读性。以搜狗语料库中的文本分类语料库为数据源进行的实验结果表明, 该方法在一定程度上提高了聚类结果的准确率。  相似文献   

19.
当前主流的搜索引擎根据查询词在网页中的出现频率,辅以网页权威性等信息,生成查询结果.但用户提供的查询词往往非常简单,因此搜索引擎难以确定用户的查询意图.为此,给出了一种利用海量clickthrough数据进行网页内容相关性挖掘的方法,在此基础上给出了一种反馈式搜索引擎(FSE)框架及相关算法.FSE根据网页相关性动态生成查询结果,以期提供给用户更中肯和个性化的信息.基于真实点击数据,进行了网页相关性矩阵的压缩实验和有效性实验,证明了该框架的可行性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号