首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 640 毫秒
1.
本文给出了一种Web用户和页面的模糊聚类算法.在该算法中,通过Web日志中的数据,根据用户对Web页面的浏览情况分别建立Web用户和页面的模糊集,在此基础上用最大-最小法的模糊相似性度量构造模糊相似矩阵,并由此构造模糊动态聚类算法.  相似文献   

2.
将改进的蚁群聚类算法应用于Web使用挖掘中,可对Web事务进行聚类,以便了解Web用户的兴趣以及它们之间的联系,从而为用户提供个性化的服务。同时定义一个Web会话为一个带权值的多维向量,也定义了两个会话间的相似度度量。实验表明在广西大学网站抽取的会话数据集上执行蚁群聚类算法得到的聚类是稳定的。结果显示该算法执行得很好,能找到没有噪音的聚类。  相似文献   

3.
将改进的蚁群聚类算法应用于Web使用挖掘中,可对Web事务进行聚类,以便了解Web用户的兴趣以及它们之间的联系,从而为用户提供个性化的服务。同时定义一个Web会话为一个带权值的多维向量,也定义了两个会话间的相似度度量。实验表明在广西大学网站抽取的会话数据集上执行蚁群聚类算法得到的聚类是稳定的。结果显示该算法执行得很好,能找到没有噪音的聚类。  相似文献   

4.
在用户访问网站点击流形成频繁序列的基础上,提出基于距离函数的聚类分析算法.首先对数据流分区做K均值聚类生成中间聚类结果,然后对这些均值参考点进行离线聚类,以获取用户访问模式.理论分析和实验表明,算法具有较好的聚类效果.  相似文献   

5.
在非结构化数据挖掘结构模型——发现特征子空间模型(DFSSM)——的运行机制下,提出了一种新的Web文本聚类算法——基于DFSSM的Web文本聚类(WTCDFSSM)算法.该算法具有自稳定性,无须外界给出评价函数;能够识别概念空间中最有意义的特征,抗噪声能力强.结合现代远程教育网应用背景实现了WTCDFSSM聚类算法.结果表明:该算法可以对各类远程教育站点上收集的文本资料信息自动进行聚类挖掘;采用网格结构模型,帮助人们进行文本信息导航;从海量文本信息源中快速有效地获取重要的知识.  相似文献   

6.
提出一种Web日志挖掘算法,该算法首先以Web站点的URL为行、以用户的UserID为列,建立URL- UserID关联矩阵,元素值为用户的访问次数;然后,对行向量进行相似性度量获得用户会话粗聚类,最后,利用层次结构对比聚类算法,对用户会话粗聚类进行进一步地处理得到更高精度的聚类,实验表明该算法在提高聚类精度方面卓有成效。  相似文献   

7.
文中介绍了Web挖掘的基本概念,提出了一种基于加权关联矩阵聚类的Web日志挖掘算法——多标记传播聚类算法,设计了一个面向电子商务的Web日志挖掘系统模型。  相似文献   

8.
Web文本聚类是文本挖掘的重要组成部分。该文章分析了Web文本挖掘的方法,通过比较现有的几种聚类算法之后,着重研究了一个基于DBSCAN的聚类算法.以及它在文本挖掘中的具体实现过程。  相似文献   

9.
 为了解决申贷信用等级评价问题,介绍了解决银行申请贷款信用等级评价中聚类分析采用的基本概念及术语,提出了2种聚类算法包括基于信贷数据的聚类算法δ-kmeans;基于高维信贷数据的聚类算法ASC,并通过实验对其性能进行比较分析,实验表明:①δ-kmeans算法在信贷风险的控制上取得较好效果;②相比传统k-means和Coweb算法,ASC算法在聚类高维信贷数据上更加有效.利用k-means算法对银行信贷数据的聚类动力学关系进行分析.最后,给出了聚类分析算法在银行信贷领域应用的的难点.  相似文献   

10.
一种新的Web事务模糊聚类算法的研究   总被引:11,自引:1,他引:11  
提出了一种新的Web事务模糊聚类算法。首先,在Web日志预处理后建立Web站点用户访问矩阵,矩阵元素为用户访问离散化时间,在此基础上进行Web事务群体的模糊聚类,最后对在线的活动Web事务进行类别归属。经实验证明,该算法比已有的算法准确性高,运行时间少,扩展性好,它可以广泛地应用于电子商务领域,如个性化Web和Web推荐系统等。  相似文献   

11.
对于具备空间特性的数据来说,基于密度的聚类方法是一种基本且行之有效的聚类技术.尽管现有很多基于密度的空间聚类算法和技术,但是这些算法多数都假设数据分布于平滑空间.弯曲空间与平滑空间只局部存在相似性.本文的目的在于探讨一种新的基于密度的流形空间聚类,即基于弯曲空间的算法.此算法主要来源于切空间,并适用于非均匀、非线性的数据分布,同时给出了性能分析和实验测试.  相似文献   

12.
针对传统自组织聚类方法处理数据在多维空间中存在多样性和从基本或低层次概念上发现强关联规则中的不足,提出了一种基于自组织分级聚类的数据挖掘方法.该方法采用最大似然分类自组织特征网络(MAXNET)聚类过程,利用自下而上聚合层次聚类方法,对有畸变的二值化输入模式作最大似然分类.最后对一个销售电脑商场中,与任务相关的交易数据集进行了分析,描述了从低层次概念到高层次概念的相互关系.并用matlab仿真软件把该方法和传统方法进行比较,表明了该方法的有效性.  相似文献   

13.
针对目前的轨迹聚类隐私保护方法仍然存在适用性较窄、可用性较低以及难以在实际应用中实施的问题,提出了支持轨迹聚类的差分隐私保护方法,首先给出了典型轨迹聚类算法的通用框架模型及其差分隐私定义,然后根据定义设计满足差分隐私机制的二维拉普拉斯噪声,最后将直角坐标系中得到的噪声形式变换到极坐标系,并加入到原始轨迹点中以进行实际应用实现.实验结果表明,本文算法具有更好适用性,与当前的轨迹聚类隐私保护方法相比,在相同保护强度下,本文算法具有更好的聚类效果.  相似文献   

14.
The problem of scalable classification by clustering in large databases was discussed. Clustering based classification method first generates clusters using clustering algorithms. To classify new coming da-ta points, it finds the κ nearest clusters of the data point as neighbors, and assign each data point to the dominant class of these neighbors. Existing algorithms incorporated class information in making clustering decisions and produced pure clusters (each cluster associated with only one class). We presented hybrid cluster based algorithms, which produce clusters by unsupervised clustering and allow each cluster associ- ated with multiple classes. Experimental results show that hybrid cluster based algorithms outperform pure ones in both classification accuracy and training soeed.  相似文献   

15.
The k-means clustering algorithm is one of the most commonly used algorithms for clustering analysis. The traditional k-means algorithm is, however, inefficient while working on large numbers of data sets and improving the algorithm efficiency remains a problem. This paper focuses on the efficiency issues of cluster algorithms. A refined initial cluster centers method is designed to reduce the number of iterative procedures in the algorithm. A parallel k-means algorithm is also studied for the problem of the operation limitation of a single processor machine when given huge data sets. The analytical results demonstrate that these improvements can greatly enhance the efficiency of the k-means algorithm, i.e., allow the grouping of a large number of data sets more accurately and more quickly. The analysis has theoretical and practical importance for work on the improvement and parallelism of cluster algorithms.  相似文献   

16.
针对k-means算法对初始值敏感、易陷入局部极小值等缺点,结合遗传算法的思想,提出了一种基于遗传算法和k-means算法的混合聚类方法,为了测试该聚类算法的性能,用k-means 算法和改进的算法进行了1组实验,并对2种算法的聚类结果进行比较,实验结果表明算法能够有效地解决聚类问题.  相似文献   

17.
基于文本库的完全加权词间关联规则挖掘算法   总被引:11,自引:0,他引:11  
提出了基于文本数据库的完全加权词间关联规则挖掘算法,给出了与其相关的定理及其证明过程。该算法采用三种剪枝策略,候选项集数量和挖掘时间明显减少,提高了挖掘效率。实验结果表明该算法的有效性,和现有算法比较,挖掘效率确实得到改善和提高。  相似文献   

18.
作为大数据的重要组成,产生于传感器、移动电话设备、社交网络等的不确定流数据因其具有流速可变、规模宏大、单遍扫描及不确定性等特点,传统聚类算法不能满足用户高效实时的查询要求.首先利用MBR(minimum bounding rectangle)描述不确定元组的分布特性,并提出一种基于期望距离的不确定数据流聚类算法,计算期望距离范围的上下界剪枝距离较远的簇以减少计算量;其次针对簇内元组的分布特征提出了簇MBR的概念,提出一种基于空间位置关系的聚类算法,根据不确定元组MBR和簇MBR的空间位置关系排除距离不确定元组较远的簇,从而提高聚类算法效率;最后在合成数据集和真实数据集进行实验,结果验证了所提出算法的有效性和高效性.  相似文献   

19.
一种简单有效的基于密度的聚类分析算法   总被引:1,自引:0,他引:1  
对数据挖掘中基于密度聚类的相关概念和算法进行了讨论,对OPTICS(O rdering Pointers to Iden-tify the C lustering Structure)算法聚类分析的正确性给以了证明。以DBSCAN,OPTICS为基础,提出了一种基于密度的简单有效的聚类算法。新算法主要在ε-邻域查询和种子队列的更新两个方面作了改进,给出了一种简单、效率较高的邻域查询方法-哈希表法,即对整个数据集合或部分数据作网格化处理。测试结果表明新算法能够有效地对大规模数据进行聚类,效率较高。  相似文献   

20.
聚类布尔和分类数据   总被引:1,自引:0,他引:1  
提出了一种判别布和分类属性相似度的准则,并在此基础上提出了一种新的聚类的算法CAC,该算克服了传统聚类算法不适合聚类布尔和分类属性数据的缺点,实验表明CAC算法比传统的聚类算法有更好的聚类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号