首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于概念分组的Web搜索结果聚类算法   总被引:2,自引:0,他引:2  
为了便于用户浏览搜索引擎返回的搜索结果,快速有效地定位有价值的Web文档,提出了基于概念分组的Web搜索结果聚类算法.首先,建立特征词同现网络,利用概念分组技术挖掘特征词之间的语义关联,形成主题概念类;然后,计算文档与各概念类之间的距离,据此实现Web搜索结果的聚类;最后,综合考虑特征词在类内和文档集中的重要性进行类别标签的选择.实验结果表明本算法具有较好的聚类性能,明显优于k-均值算法,且产生的类别标签容易理解.  相似文献   

2.
一种使用属性表的快速概念聚类算法   总被引:1,自引:0,他引:1  
形式概念分析是一种用于概念聚类的无监督机器学习技术,在数据挖掘、信息检索等很多领域中得到了应用.将概念搜索空间重新组织成一棵前缀树,并构造了一张属性表,利用表中保存的数据对前缀树进行剪枝,使概念聚类的过程仅在一些有效的子空间中执行,进而提出了一种使用属性表的快速概念聚类算法.实验结果表明,该算法在稠密和稀疏的形式背景下均优于NextClosure算法.  相似文献   

3.
针对 Web应用挖掘中聚类算法中的问题 ,提出加权 Web访问模式聚类算法 .该算法利用服务器日志库中保存的网页访问次数信息 ,提高了聚类的客观性和准确性 .  相似文献   

4.
为解决文档聚类问题,提出一种基于差分进化的聚类算法,通过把文档聚类问题建模为优化问题,对聚类准则函数进行优化,来寻找初始最优聚类中心.在此基础上,进一步提出两种差分进化算法与K均值结合的混合方法,来获得更好的聚类结果.实验表明,与经典K均值算法相比,新提出的两种混合方法能够获得较好的聚类质量.  相似文献   

5.
搜索引擎是目前最主要的WWW信息检索的工具 ,然而 ,用户对当前搜索引擎的检索效果并不满意。论文给出了基于文档文本内容和文档间超链信息的混合相似度计算方法,并给出了基于混合相似度的模糊(软 )聚类算法HTSC。对HTSC算法进行了理论分析 ,并对其中的核心算法进行了初步的实验验证。该算法可对搜索引擎返回的结果进行模糊聚类 ,以方便用户从中找到真正需要的信息。  相似文献   

6.
分析Web聚类,并针对Web用户聚类提出了使用二值属性描述对象.利用Zipf定律将时间属性进行二值化,然后采用ROCK算法进行聚类.通过实验证明,以Zipf定律为准则的ROCK算法具有很好的聚类效果.  相似文献   

7.
通过改进清晰有理数均值的方法, 提出一种新匹配聚类算法. 首先计算每条数据的清晰有理数均值, 然后与匹配项比较, 得出聚类结果, 解决了人工标注型数据的聚类问题. 将该方法在反欺诈网页领域中进行了检测和验证, 并与使用同一名称但不同类型数据集的K最近邻算法进行比较, 实验结果表明, 该方法在反欺诈网页领域中比K最近邻算法更有效, 同时也证明了新匹配聚类算法在人工标注型数据上聚类具有合理性.  相似文献   

8.
In this paper, an improved algorithm, named STC-I. is proposed for Chinese Web page clustering based on Chinese language characteristics, which adopts a new unit choice principle and a novel suffix tree construction policy. The experimental results show that the new algorithm keeps advantages of STC, and is better than STC in precision and speed when they are used to cluster Chinese Web page.  相似文献   

9.
挖掘Web日志中有价值的信息,对于市场决策有着非同一般的意义;其中用户聚类能将潜在的用户划分出来,为商家提供有更有参考价值的信息.用户聚类算法,不仅克服了所需运算空问大、数据预处理复杂的弱点,而且能简洁准确的确定用户的类型,将其进一步改造还可以用于页面聚类中.对该算法给予理论阐述并加以具体的应用.  相似文献   

10.
在用户访问网站点击流形成频繁序列的基础上,提出基于距离函数的聚类分析算法.首先对数据流分区做K均值聚类生成中间聚类结果,然后对这些均值参考点进行离线聚类,以获取用户访问模式.理论分析和实验表明,算法具有较好的聚类效果.  相似文献   

11.
Web文本聚类是使文本之间具有最大的簇内相似性,同时具有最小的簇间相似性,它是一个将文本集分组的全自动处理过程。本文首先提出了Web文本聚类模型,然后对Web文本聚类关键技术进行了深入的研究,讨论了分词、特征表示、特征选择和K-means算法等相关技术。最后,实现了该文本聚类系统,对采集到的Web文本进行聚类,实验证明此算法具有很好的聚类结果。  相似文献   

12.
一种新的Web事务模糊聚类算法的研究   总被引:11,自引:1,他引:11  
提出了一种新的Web事务模糊聚类算法。首先,在Web日志预处理后建立Web站点用户访问矩阵,矩阵元素为用户访问离散化时间,在此基础上进行Web事务群体的模糊聚类,最后对在线的活动Web事务进行类别归属。经实验证明,该算法比已有的算法准确性高,运行时间少,扩展性好,它可以广泛地应用于电子商务领域,如个性化Web和Web推荐系统等。  相似文献   

13.
To alleviate the scalability problem caused by the increasing Web using and changing users' interests, this paper presents a novel Web Usage Mining algorithm-Incremental Web Usage Mining algorithm based on Active Ant Colony Clustering. Firstly, an active movement strategy about direction selection and speed, different with the positive strategy employed by other Ant Colony Clustering algorithms, is proposed to construct an Active Ant Colony Clustering algorithm, which avoid the idle and "flying over the plane" moving phenomenon, effectively improve the quality and speed of clustering on large dataset. Then a mechanism of decomposing clusters based on above methods is introduced to form new clusters when users' interests change. Empirical studies on a real Web dataset show the active ant colony clustering algorithm has better performance than the previous algorithms, and the incremental approach based on the proposed mechanism can efficiently implement incremental Web usage mining.  相似文献   

14.
随着信息爆炸时代的到来,如何有效的从网络上获取有价值的信息成为当前研究的热点.Web文本挖掘技术就是解决上述问题的一种方法,它从大量半结构化、异构的Web文档集中发现潜在的、有价值的知识.本文着力于研究Web文本挖掘过程中的重要技术,并通过分析当前研究热点和各种算法,提出一种改进的投影聚类算法,实验证明其正确率比k-均值算法高.最后,本文设计了基于Web文本挖掘的证券投资系统,并将改进的聚类算法应用其中.  相似文献   

15.
针对传统单纯聚类算法实现网页推荐精确度欠缺的问题, 提出一种基于Web日志挖掘的个性化网页推荐模型, 并实现了相应的网页推荐算法, 算法结合聚类分析和关联规则挖掘, 能有效实现网页推荐. 实验结果表明, 在保障网页页面推荐覆盖率的条件下, 该方法有较高的精确度、 有效性和实用性.  相似文献   

16.
提出一种Web日志挖掘算法,该算法首先以Web站点的URL为行、以用户的UserID为列,建立URL- UserID关联矩阵,元素值为用户的访问次数;然后,对行向量进行相似性度量获得用户会话粗聚类,最后,利用层次结构对比聚类算法,对用户会话粗聚类进行进一步地处理得到更高精度的聚类,实验表明该算法在提高聚类精度方面卓有成效。  相似文献   

17.
分析了典型的聚类算法及其适用范围,针对其处理Web点击流数据的不足,提出了一种用于Web点击流的增量挖掘的聚类算法WCSCluster,给出了相关定义及存储结构,并用实例说明了算法的运行过程.最后对比同类算法给出实验结果.实验结果表明该算法具有良好的性能,能够发现更优的簇.  相似文献   

18.
基于兴趣相似性的Web用户聚类   总被引:8,自引:0,他引:8  
按照访问兴趣对用户进行聚类分析是Web挖掘的一项重要内容. 在用户访问兴趣度量中综合考虑网页内容和浏览路径因素;在聚类分析中,依据访问兴趣定义提出新的相似度计算方法. 利用传递闭包法对用户进行聚类. 算法可以提高用户聚类的准确性,试验结果验证此算法是有效的.  相似文献   

19.
本文讨论了基于Web使用挖掘的Web个性化技术,针对个性化系统的功能及特点,论述了相关数据采集、数据预处理技术和模式发现及其在个性化服务中的应用,提出了一个关于个性化系统的实时聚类算法.实验结果表明,该算法不仅有效,而且具有较高的准确度,能适应用户短期浏览的变化.  相似文献   

20.
针对现有事务聚类算法复杂度高、精确性不够的问题,提出了基于用户访问兴趣度的事务聚类算法。首先,在Web日志预处理阶段,通过用户兴趣度生成算法得到用户兴趣度事务,减少了聚类操作的数量,提高了聚类结果的准确性;其次,给出了事务相似度的度量方法,并得到事务相似度矩阵以实现事务聚类。该算法减轻了数据挖掘的任务,提高聚类结果的准确性,能广泛地应用于电子商务领域。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号