首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 203 毫秒
1.
针对数据流具有数据量无限且流速快的特点,将高斯混合密度降解模型应用于数据流聚类问题,在数据流中找出有效的高斯分量,并且合并相等的高斯分量.通过采用真实数据进行实验的结果表明,此方法能够有效解决数据流的聚类问题.  相似文献   

2.
针对传统K-均值方法不能有效处理动态变化的数据聚类的问题,本文提出了一种改进的数据流聚类技术——流式K-均值聚类(Streaming K-means Clustering,SKC).该方法首先对数据流中已经产生的初始数据块进行K-均值聚类,当数据流的新数据块到来时,通过衡量已经得到的聚类结果与新进入样本块的距离,对样本进行初步简单归类,并计算聚类结果的性能,若聚类结果性能在可接受范围内,则该数据块聚类结束,否则采用K-均值方法对新类进行深层次聚类.采用SKC的流式数据聚类方法处理数据流的聚类问题,对于整个数据流中的多数数据块都进行简单归类,只有少数数据块进行K-均值聚类,有效提高了数据流聚类的效率.实验结果表明,流式K-均值聚类方法能够有效处理数据流的聚类问题.  相似文献   

3.
在海量的动态数据流中发现有价值的知识,是数据挖掘技术研究的重要问题.研究数据流聚类,根据数据流的特点,提出了一种基于滑动窗口的一趟数据流挖掘的算法,对原有的一趟数据流聚类算法进行了改进,增强了一趟数据流聚类算法的扩展性,改进了数据流聚类的质量.  相似文献   

4.
一种网格和分形维数的数据流聚类算法   总被引:1,自引:0,他引:1  
针对常规算法不能适应数据流的动态环境问题,提出一种基于网格和分形维数的数据流聚类算法,有效地完成了对数据流的分析任务,克服了传统聚类方法的不足,把整个挖掘过程分为在线进程和离线进程,最终实现数据流的聚类.  相似文献   

5.
空间数据库中存储了海量的实时数据,常规的算法在数据挖掘过程中无法根据空间数据流的特征进行聚类.针对该问题,我们提出一种基于网格和距离阈值的空间数据流聚类算法,该算法分为离线和在线部分,为实时数据赋予时间相关的距离值,利用网格进行聚类.实验证明此算法对于空间数据流聚类具有理想的结果.  相似文献   

6.
针对基于聚类的离群点检测算法在处理高维数据流时效率和精确度低的问题,提出一种高维数据流的聚类离群点检测(CODHD-Stream)算法。该算法首先采用滑动窗口技术对数据流划分,然后通过属性约简算法对高维数据集降维;其次运用基于距离的信息熵过滤机制的 K-means 聚类算法将数据集划分成微聚类,并检测微聚类的离群点。通过实验结果分析表明:该算法可以有效提高高维数据流中离群点检测的效率和准确度。  相似文献   

7.
为了提高数据流的聚类质量与效率,提出了一种基于密度的数据流聚类算法,该算法采用双层聚类框架,对于历史数据的遗忘问题采用了消逝策略和粒度调整策略,消逝策略能够处理噪声,节约内存;粒度调整策略检测当前的内存消耗,提高了聚类质量。基于标准数据集和仿真数据集的实验表明,此算法是可行有效的,适合处理和分析大规模的快速数据流。  相似文献   

8.
针对隶属关系不明确的情况,即样本点属于多个类别的概率接近,高斯混合模型聚类存在较大的误判风险的问题,将三支决策思想融入高斯混合模型中,提出一种基于三支决策的高斯混合聚类算法.新算法计算出数据对象属于各个类簇的后验概率作为决策评价函数,用于确定聚类结果的正域和边界域.由于新算法对边界对象采取了比一般高斯混合聚类算法更加谨慎的操作,避免了直接做出对象属于某一类或不属于某一类的决策所需承担的风险,从而有效减小了误判代价.实验进一步表明,所提出的算法不仅继承了高斯混合聚算法的特点,具有良好的聚类性能,而且还对于非球形数据簇表现出优良的聚类效果.  相似文献   

9.
针对目前流聚类算法无法有效处理数据流离群点的检测和处理,以及增量式数据流聚类效率较低等问题,提出了一种基于密度度量的异常检测、删除的增强型仿射传播流聚类算法。在仿射传播流聚类算法的基础上,所提算法通过引进异常检测和删除机制改善了异常点对聚类精度、聚类效率的影响。利用仿射传播聚类实现在线数据流的聚类过程,同时检测数据漂移现象,即数据流分布特征随时间发生变化,并采用基于密度度量的局部异常因子检测技术(LOF)对储备池数据进行异常检测和删除处理,通过对当前类簇和处理过的储备池数据重聚类来重建动态数据流模型。在真实网络数据(KDD’99)上进行了实验,结果表明,所提算法不仅减少了重聚类构建动态模型的次数,改善了聚类效率,而且在同时考虑聚类精度、纯度和熵3种聚类评价标准下,均优于传统的仿射传播流聚类算法。  相似文献   

10.
聚类是数据挖掘领域非常重要技术之一,能发现数据中隐含的知识和价值,在数据流分析中有重要的意义.针对现有数据流聚类算法的不足,根据数据流特点提出了一种高效、可扩展的数据流聚类算法ABCClu Stream.该算法借鉴了经典Clu Stream算法的在线—离线两阶段框架,根据蜂群算法的相关理论定义聚类过程中相关的参数、微簇聚类特征结构等,设计出了一种全新的算法.通过实验表明,本文所设计出的ABCClu Stream算法具有聚类纯度高、可扩展性好的特点,能够产生高质量的聚类结果,适用于大规模的动态数据流聚类的分析和研究.  相似文献   

11.
增量聚类算法综述   总被引:2,自引:1,他引:1  
给出了增量聚类的概念,分析了增量聚类方法可以用于解决数据的变化和大量存储空间的需求问题。增量聚类算法选择恰当时,可以保证数据在变化时有效地提高聚类的精度和效率。从传统聚类、生物智能聚类和数据流聚类三个角度研究了增量聚类问题,分析了增量聚类问题的研究进展,包括发展的过程及特点,阐述了研究增量聚类问题的关键技术,最后给出了未来的发展趋势。  相似文献   

12.
针对交通数据流聚类分析过程中生成顺序的不确定性,提出了采用基于网格和密度的D-Stream算法对交通数据流进行聚类分析,并将粒子群优化算法引入聚类过程,从而对数据流聚类分析方法进行了改进,使数据聚类能够根据本身的密度极大值有序生成,增强了用户对聚类过程的控制能力.通过昆明市实测交通数据流进行聚类分析,得到了能够反映交通状况不同特征的聚类结果和动态的控制策略,并对交通数据流的相关研究工作提供决策支持.  相似文献   

13.
在用户访问网站点击流形成频繁序列的基础上,提出基于距离函数的聚类分析算法.首先对数据流分区做K均值聚类生成中间聚类结果,然后对这些均值参考点进行离线聚类,以获取用户访问模式.理论分析和实验表明,算法具有较好的聚类效果.  相似文献   

14.
介绍了科学管理流数据的流数据管理系统及根据BIRCH算法中聚类特征的概念,利用簇特征设计与实现了一种新的动态流数据聚类算法。这种新算法改善了基于滑动窗口流数据聚类的有效性以及空间和时间复杂度问题。理论分析和实验结果证明该算法能够有效地处理滑动窗口流数据集,使聚类算法具有良好的可扩展性。  相似文献   

15.
为了发现分布式数据流环境下的微簇,针对数据流的遗忘特性,提出一种基于时间衰减的数据流聚类算法.根据衰减模型增量式的处理局部站点,将局部模型发送给中心站点.中心站点对局部站点的微簇进行合并,生成全局聚类模型.通过真实数据和仿真数据的实验表明,该算法能够得到较好的聚类质量,并且有较好的伸缩性.  相似文献   

16.
一种基于局部信息的聚类密度度量   总被引:1,自引:0,他引:1  
为有效处理密度不均匀聚类问题,以数据集蕴涵的局部信息为出发点,提出一种数据点密度度量———松散度,用以揭示数据点与其相邻数据点的相对紧密程度及类属关系,从而解决密度不均匀聚类问题.依据松散度的性质实现了一种基于松散度的聚类方法,以验证松散度度量的有效性.实验结果表明,使用松散度来度量数据点的聚类密度信息可以有效处理密度不均匀聚类问题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号