首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 674 毫秒
1.
提出了一种基于簇特征的文本增量聚类算法:充分利用简单、有效的k-means算法来进行初始聚类,并保留聚类后每个簇的簇中心、均值、方差、文档数、3阶中心矩和4阶中心矩作为该簇的簇特征,当出现新增数据时,利用初始簇的簇特征对新增数据进行聚类.在20newsgroups数据集上的实验结果表明:相比于对整个数据集进行重新聚类,该算法具有一定的优势.  相似文献   

2.
已有的大多数聚类算法都假设数据集保持不变,然而,很多应用中数据集是会随时间变化的。为此,提出了一种新的三支决策软增量聚类算法。采用区间集的形式表示类簇,区间集的上界、边界与下界就对应着三支决策产生的正域、边界域和负域,并提出了一种基于代表点的初始聚类算法。采用同样的方式对新增数据集进行一次预聚类,以消除数据处理顺序对最终聚类结果产生的影响。为了快速查找新增数据的相似区域,建立了代表点搜索树,并且给出了查找和更新搜索树的策略。运用三支决策策略完成增量聚类。实验结果表明提出的增量聚类算法是有效的。  相似文献   

3.
针对MinMax k-means算法易产生空解、 收敛速度慢和计算效率低的问题, 提出一种增量式MinMax k-means聚类算法. 该算法从给定的初始聚类个数开始, 以固定步长递增式产生新的聚类中心, 采用基于数据均衡的快速分裂方法产生增量聚类中心, 从而避免了传统增量聚类中心选择中遍历数据、k-means聚类算法运行次数过多导致的大计算量问题. 与MinMax k-means及相关算法的对比实验结果表明, 该算法在计算效率和求解精度上均优于对比算法, 有效改善了MinMax k-means聚类对初始化中心敏感和易产生空解的问题.  相似文献   

4.
为了定量分析聚类算法的聚类结果,提出了基于引力概念的聚类质量评估算法.该算法将数据空间中的数据点视为带有单位质量的质点,通过分析聚类结果中数据点之间的引力关系来评估聚类结果的质量.在一个聚类结果中,各类中的数据点之间引力大并且噪音数据受到的引力小,这样的聚类结果视为质量较高的聚类结果.相反,如果类中数据间的引力较小而噪音数据所受到的引力较大,这样的聚类结果就是一个质量不高的聚类结果.在几个不同的数据集上,对算法的有效性和高效性进行了测试.实验结果表明,该算法能在极短的响应时间内得到聚类结果评估值,正确地反映聚类结果的优劣.提出的算法可以引导聚类方法自动发现最佳聚类结果而无需人工干预.  相似文献   

5.
为了弥补K-Means算法对孤立点数据敏感的缺陷,提高K-Means算法对包含孤立点数据集的聚类效果,在深入研究K-Means算法的基础上,提出了基于PAM和簇阈值的改进K-Means聚类算法。该算法首先对待聚类数据进行抽样,然后利用PAM算法获取样本数据的聚类中心,以样本数据的聚类中心作为KMeans算法的初始聚类中心。在聚类迭代过程中动态计算各簇阈值,利用簇阈值准确地过滤孤立点数据。实验结果表明,本文提出的算法不仅聚类时间短,而且具有较高的聚类准确率。  相似文献   

6.
聚类分析要求较高聚类质量和快速响应能力,各行业数据仓库中的大量、高维数据对算法的效率提出了更大的挑战.CURE算法能够提供高质量聚类结果但不满足联机聚类要求.结合数据仓库数据不定期批量、增量更新的特点,提出了一种新的增量式CURE聚类算法——InCURE,利用对象的互连性和近似度,保持原算法的动态聚类特性的同时大大缩短聚类时间.5维、20维、50维的大量数据实际测试表明无论低维还是高维数据,InCURE都比CURE具有更高的效率,适合数据仓库环境下的增量式聚类分析.  相似文献   

7.
随着现代档案管理数据量的不断增长,有效地对档案文本进行聚类划分能够提升档案分类和检索的效率。文中提出2种增量多模态文本数据聚类方法,通过对文本内容进行多视角分析,融合挖掘文本的潜在主题特征,提升文本聚类的准确性。此外,设计文本聚类多模态增量学习模型,提升海量、动态文本划分的效率。在文本数据集上的实验结果表明,文中提出的增量多模态文本聚类方法优于单模态和多模态聚类算法,能够对文本数据进行有效划分。  相似文献   

8.
为了更好地在复杂多目标环境下进行汽车雷达数据的实时聚类,使用扩展卡尔曼滤波算法(EKF)对基于密度的聚类算法(DBSCAN)进行改进,并通过仿真和实测实验进行验证。结果表明:新算法在进行增量聚类时每次耗时可以保持在一个稳定且较低的水平;新聚类在不增加时间复杂度的情况下进行自适应聚类,可以解决汽车雷达数据密度不均匀的情况。可见新算法同时实现了增量和自适应DBSCAN聚类,同时保证聚类的效率和准确度。  相似文献   

9.
聚类集成是集成学习中的一个重要分支,其目标是解决无监督聚类分析中聚类算法的选择性、偏差性与数据特殊性等导致聚类结果不理想的问题。文章提出了一种基于数据关联的聚类集成方法(CEBDR),该算法先提取出在聚类成员中体现有关联关系的数据对象来组成新的类,然后对这些类进行二次聚类得到最终的集成结果。文中选用了一些标准数据集,采用CEBDR算法、已有的基聚类和聚类集成算法来进行对比实验,实验结果表明,该算法能够有效地提高聚类质量。  相似文献   

10.
随着现有数据体量的迅速增长,超大规模中高维数据集的聚类问题变得越来越重要;而现有的子空间聚类算法大多是单机串行执行,处理此类问题效率极低。讨论了利用MapReduce对这类数据集进行并行聚类的方法,提出了基于MapReduce的抽样-忽略子空间聚类算法(sample-ignore subspace clustering using MapReduce,SISCMR)。该算法将串行聚类算法用作插件,具有很好的通用性。在人造和真实数据集上进行了大量实验,其中最大为0.2 TB的数据集在128个核心的集群中仅用不到10 min就完成了聚类,验证了该算法良好的聚类质量、近线性的可扩展性和高效的聚类性能,证明了基于MapReduce的并行聚类的可行性。  相似文献   

11.
一种用于云计算的数据容灾分配算法的改进   总被引:1,自引:1,他引:0  
在云计算环境下进行数据容灾分配,可以提高云计算数据资源调度能力。传统算法采用粒子群数据聚类方法进行数据的容灾分配,数据负载均衡差,同时消耗数据任务调度的吞吐率。提出一种新的数据容灾分配改进算法。首先建立云计算环境下数据容灾分配层次结构模型,计算整个数据资源处理平台的整体响应时间,将云计算下的数据资源容灾分配优化问题转化为数据资源分配响应时间最小化问题;利用多用户QoS开销适应度运算机制和粒子群聚类算法对云计算中数据资源任务进行权衡分配,减少数据权衡调度时间,提高数据容灾备份能力。实验结果表明,采用改进算法可以提高数据容灾分配时数据的召回率和云计算数据任务权衡调度能力,在云计算信息处理中具有较好的应用价值。  相似文献   

12.
基于GFCM聚类算法的飞机故障诊断方法   总被引:1,自引:0,他引:1  
为解决FCM算法对初始值敏感而易于陷入局部极小点的问题,针对FCM算法应用于系统原位测试时小数据量特点,提出了一种增量方式全局最优模糊c均值算法,进行了收敛速度优化并给出了算法步骤,机载武器系统信息通道原位故障诊断实验验证了此算法在小数据量情况下可以较好地解决FCM算法收敛局部最优的问题。  相似文献   

13.
作为最小均准则的拓广,本文从数据熵,数据熵差引进最小均熵差准则,并应用于数据与模式聚类;给出基予最小均熵差准则的动态聚类算法与系统聚类算法,最后通过一个应用示例说明这一最小均熵差准则模式聚类的有效性与优越性。  相似文献   

14.
研究了联机数据挖掘系统中的并行和增量聚类算法,并给出了算法伪码。实验表明,联机增量聚类算法相对于传统的Apriori算法具有较大优势,同时证明了增量聚类算法及其联机数据挖掘系统的实用性。  相似文献   

15.
针对动态心电图波形数据量大,且具有明显个体差异性的特点,本文提出了一种新的动态心电图波形聚类策略.该策略融合了自组织特征映射神经网络、凝聚聚类和k-means算法,以达到将大量的相似心电图波形聚类的目的.实验结果表明该策略具有较好的聚类效果和较高的聚类精度.  相似文献   

16.
提出了一种基于自适应模型数据库入侵检测方法(ASIDS).该方法基于矩阵和最小支持度函数的AprioriZ关联算法,依据在训练和自适应入侵检测阶段产生数据库的操作特征,用户根据实际需求动态调整最小支持度函数的值,更高效挖掘操作特征.结合层次聚类算法产生动态规则库,通过计算待检测数据操作特征与规则库中聚类的距离是否超过聚类间最大距离来判断异常,以避免已有检测系统中判断"边界尖锐"问题,并实时把正常操作特征归入动态规则库,通过对报警信息的关联分析降低误警率.实验结果表明,ASIDS能够实时地进行入侵检测,具有很高的检测率和较低的误警率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号