首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 456 毫秒
1.
林辉 《河南科学》2012,30(9):1243-1245
针对现有数据流聚类算法的不足,提出了改进模糊聚类算法,给数据对象的隶属度加上一个权值,以及在算法中用有效性函数来确定聚类数目C.理论分析与实验结果表明,在数据流环境下所提出的改进模糊聚类算法比传统算法有更好的聚类效果,更快的聚类速度.  相似文献   

2.
一种网格和分形维数的数据流聚类算法   总被引:1,自引:0,他引:1  
针对常规算法不能适应数据流的动态环境问题,提出一种基于网格和分形维数的数据流聚类算法,有效地完成了对数据流的分析任务,克服了传统聚类方法的不足,把整个挖掘过程分为在线进程和离线进程,最终实现数据流的聚类.  相似文献   

3.
空间数据库中存储了海量的实时数据,常规的算法在数据挖掘过程中无法根据空间数据流的特征进行聚类.针对该问题,我们提出一种基于网格和距离阈值的空间数据流聚类算法,该算法分为离线和在线部分,为实时数据赋予时间相关的距离值,利用网格进行聚类.实验证明此算法对于空间数据流聚类具有理想的结果.  相似文献   

4.
聚类是数据挖掘领域非常重要技术之一,能发现数据中隐含的知识和价值,在数据流分析中有重要的意义.针对现有数据流聚类算法的不足,根据数据流特点提出了一种高效、可扩展的数据流聚类算法ABCClu Stream.该算法借鉴了经典Clu Stream算法的在线—离线两阶段框架,根据蜂群算法的相关理论定义聚类过程中相关的参数、微簇聚类特征结构等,设计出了一种全新的算法.通过实验表明,本文所设计出的ABCClu Stream算法具有聚类纯度高、可扩展性好的特点,能够产生高质量的聚类结果,适用于大规模的动态数据流聚类的分析和研究.  相似文献   

5.
一种基于可变滑动窗口的数据流分段聚类算法   总被引:2,自引:2,他引:0  
数据流的应用越来越广泛,数据流挖掘成为数据挖掘的重点研究方向之一。在分析各种数据流聚类算法的基础上,提出了一种基于可变滑动窗口的数据流分段聚类算法。算法以时间序列数据流模式表示技术为参考,以去除噪音和压缩数据为目的,实现了数据流的特征提取和概要存储。实验表明,算法具有低时空复杂度、自适应等特点。  相似文献   

6.
针对交通数据流聚类分析过程中生成顺序的不确定性,提出了采用基于网格和密度的D-Stream算法对交通数据流进行聚类分析,并将粒子群优化算法引入聚类过程,从而对数据流聚类分析方法进行了改进,使数据聚类能够根据本身的密度极大值有序生成,增强了用户对聚类过程的控制能力.通过昆明市实测交通数据流进行聚类分析,得到了能够反映交通状况不同特征的聚类结果和动态的控制策略,并对交通数据流的相关研究工作提供决策支持.  相似文献   

7.
数据流中噪声数据的处理是当前数据流分类挖掘中重要的研究分支,近些年来得到了广泛的关注.本文提出了一种称为FDBCA的数据流分类算法.它使用基于密度的带有噪声的空间聚类(DBSCAN)的改进算法Fast-DB-SCAN(FDBSCAN)处理噪声数据,并利用错误率方差(MSE)来检测概念漂移.同已有的数据流分类算法相比,实验结果表明了FDBCA算法可以提高噪声数据流的分类精度.  相似文献   

8.
针对传统K-均值方法不能有效处理动态变化的数据聚类的问题,本文提出了一种改进的数据流聚类技术——流式K-均值聚类(Streaming K-means Clustering,SKC).该方法首先对数据流中已经产生的初始数据块进行K-均值聚类,当数据流的新数据块到来时,通过衡量已经得到的聚类结果与新进入样本块的距离,对样本进行初步简单归类,并计算聚类结果的性能,若聚类结果性能在可接受范围内,则该数据块聚类结束,否则采用K-均值方法对新类进行深层次聚类.采用SKC的流式数据聚类方法处理数据流的聚类问题,对于整个数据流中的多数数据块都进行简单归类,只有少数数据块进行K-均值聚类,有效提高了数据流聚类的效率.实验结果表明,流式K-均值聚类方法能够有效处理数据流的聚类问题.  相似文献   

9.
针对目前流聚类算法无法有效处理数据流离群点的检测和处理,以及增量式数据流聚类效率较低等问题,提出了一种基于密度度量的异常检测、删除的增强型仿射传播流聚类算法。在仿射传播流聚类算法的基础上,所提算法通过引进异常检测和删除机制改善了异常点对聚类精度、聚类效率的影响。利用仿射传播聚类实现在线数据流的聚类过程,同时检测数据漂移现象,即数据流分布特征随时间发生变化,并采用基于密度度量的局部异常因子检测技术(LOF)对储备池数据进行异常检测和删除处理,通过对当前类簇和处理过的储备池数据重聚类来重建动态数据流模型。在真实网络数据(KDD’99)上进行了实验,结果表明,所提算法不仅减少了重聚类构建动态模型的次数,改善了聚类效率,而且在同时考虑聚类精度、纯度和熵3种聚类评价标准下,均优于传统的仿射传播流聚类算法。  相似文献   

10.
不确定性的出现使传统算法无法直接用于聚类不确定数据流。该文提出一种不确定数据流环境下基于密度的聚类算法,其中提出不确定度的概念以衡量不确定数据的分布信息,并在改进面向确定数据的聚类算法DENCLUE的基础上,提出一种可处理数据不确定度的UDENCLUE算法,以降低数据的不确定性对聚类结果产生的影响;提出滑动窗口下基于密度的不确定数据流聚类算法USDENCLUE,通过聚类特征指数直方图技术实现快速剪枝,可以高效处理噪音数据、演化数据流并生成任意形状的簇;采用真实数据集及人工合成数据集对USDENCLUE与CluStream聚类算法进行比较,实验结果表明了所提出算法的高效性和有效性。  相似文献   

11.
为了提高数据流的聚类质量与效率,提出了一种基于密度的数据流聚类算法,该算法采用双层聚类框架,对于历史数据的遗忘问题采用了消逝策略和粒度调整策略,消逝策略能够处理噪声,节约内存;粒度调整策略检测当前的内存消耗,提高了聚类质量。基于标准数据集和仿真数据集的实验表明,此算法是可行有效的,适合处理和分析大规模的快速数据流。  相似文献   

12.
一种改进的SOFM聚类算法研究   总被引:2,自引:0,他引:2       下载免费PDF全文
针对常规SOFM(self-organizing feature map)无监督的神经网络,提出了一种改进的自组织特征映射SOFM神经网络算法。在常规SOFM网络数据聚类算法基础上,分析了其在实际应用中存在的不足,对初始权值设定以及邻域范围选择等方面进行了算法的优化和改进,进而提高了SOFM神经网络聚类算法的正确率、收敛速度和实时性,并利用仿真实验进一步对提出的改进算法进行了验证。  相似文献   

13.
为了发现分布式数据流环境下的微簇,针对数据流的遗忘特性,提出一种基于时间衰减的数据流聚类算法.根据衰减模型增量式的处理局部站点,将局部模型发送给中心站点.中心站点对局部站点的微簇进行合并,生成全局聚类模型.通过真实数据和仿真数据的实验表明,该算法能够得到较好的聚类质量,并且有较好的伸缩性.  相似文献   

14.
作为大数据的重要组成,产生于传感器、移动电话设备、社交网络等的不确定流数据因其具有流速可变、规模宏大、单遍扫描及不确定性等特点,传统聚类算法不能满足用户高效实时的查询要求.首先利用MBR(minimum bounding rectangle)描述不确定元组的分布特性,并提出一种基于期望距离的不确定数据流聚类算法,计算期望距离范围的上下界剪枝距离较远的簇以减少计算量;其次针对簇内元组的分布特征提出了簇MBR的概念,提出一种基于空间位置关系的聚类算法,根据不确定元组MBR和簇MBR的空间位置关系排除距离不确定元组较远的簇,从而提高聚类算法效率;最后在合成数据集和真实数据集进行实验,结果验证了所提出算法的有效性和高效性.  相似文献   

15.
许颖梅 《河南科学》2014,(5):777-780
数据流聚类算法是当前数据流研究领域里的重要分支,而滑动窗口是数据流中一种关注近期数据的近似方法,提出一种采用滑动窗口处理数据的优化算法SWStream.算法采用双层架构思想,在线阶段利用滑动窗口树存储概要结构,动态调整窗口大小.而在离线阶段对上一阶段的结果进行宏聚类,得到最后的结果.实验验证本算法有更高的处理效率,也相对节约内存.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号