首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 505 毫秒
1.
Gustafson 和 Kessel 等人为试图识别在同一个数据集合中不同子集类可以有不同拓扑结构这一事实而给出一种最佳 Fuzzy 聚类方法,本文在此基础上,在目标函数中用 Sugeno 测度替代 Fuzzy 划分 m 次幂的权因子,并在不同的子集类中引入不同的拓扑度量,从而建立了一种改进了的 Fuzzy 聚类算法,即 SMFGM 算法(Sugeno's Measure Fuzzy-C Means)。本方法既避免了原有算法中对参数 m 的确定缺乏合理的规则这一困难,又能适用对具有不同子结构形状的数据集进行识别,因而可看作是 Gustafson、Kessel 及 Leszczynski 等人所给出方法的扩充。最后,用本文所提出的方法对四个实例进行了计算,获得了较满意的结果。  相似文献   

2.
子空间聚类已经广泛应用于多个涉及高维数据聚类应用领域,受到机器学习研究者的广泛关注.子空间聚类方法是一种使用特征选择的聚类分析技术,通过选择重要特征子集实现对高维空间的低维表示,在实际应用中能够取得更好的性能,成为流行的高维数据聚类方法.与硬聚类方法相比,软聚类能够给出复杂数据更有意义的划分.扩展k-均值聚类并提出基于可靠性的正则化加权软k-均值新的子空间聚类方法(Reliability-based regularized weighted soft k-means clustering algorithm,RRWSKM),该方法能够计算每个特征对每个聚类的贡献度,从而找到与不同聚类相关的重要特征子集.另外,该方法能够通过调整模型参数准确地辨识数据模式,具有良好的聚类性能.该方法把维度加权熵和划分熵作为正则化项引入到目标函数,避免过拟合问题同时使更多的特征参与辨识聚类.为了提高算法的鲁棒性,使用可靠性测度获得特征权重初始值,提高算法的可靠性和性能.考虑到该算法是非凸优化问题,使用迭代优化方法得到优化问题的最优解.使用多个实际数据集对本文算法进行仿真验证,结果表明,与其他子空间聚类算法相比,该算法能够有效发现高维数据的低维表示,具有良好的聚类性能,适合高维数据的聚类.  相似文献   

3.
基于Fuzzy c-means算法聚类有效性函数的纹理分割   总被引:2,自引:1,他引:1  
Fuzzy c-means(FCM)算法用于图像分割是一种非监督模糊聚类后再标定的过程.本文利用聚类有效性函数对Fuzzy c-means算法的聚类结果进行评价,从而获得最优的聚类结果,较好地解决了Fuzzy c-means算法的一些不足,如聚类数目无法自动确定、其聚类结果是否最优.最后,利用纹理图像分割实验验证了该算法的有效性.  相似文献   

4.
常见的决策树分类算法、贝叶斯分类算法、神经网络分类算法为数据挖据分类算法研究提供了重要基础。但面对海量数据时,在时间效率、鲁棒性和精确性上都显示出了不足。为此,本文将模糊聚类的思想引入到神经网络分类算法中,首先通过模糊聚类子模型,将样本数据聚为几个数据子集,然后再采用不同的神经网络对各个数据子集同时进行训练学习。由于经过了模糊聚类子模型的预处理,每个神经网络训练学习样本的复杂性大大减少,使神经网络的学习效率大大提高。最后通过UCI下的实际数据库,对提出的分类算法进行了检验,结果显示了基于模糊聚类的神经网络在数据挖掘分类中应用的有效性。  相似文献   

5.
谱聚类是利用样本数据集的相似性矩阵中特征向量的性质对样本数据集进行聚类.而随着数据规模的增加,谱聚类算法所耗时间会因为大规模的特征分解而明显增大.采用抽样方法可以有效降低算法所耗时间,但是简单随机抽样子集之间关联性太弱,通常无法准确反映数据集的分布特征.基于此,设计了一种新的抽样策略,利用该方法进行多次抽样,生成多个既具有关联性又具有差异性的数据子集.在每个数据子集上分别利用NJW算法(由Ng A Y、Jordom M I和Weiss Y提出)进行谱聚类,并根据最近邻原则将聚类结果映射到全体数据集,生成若干基聚类,最后,将聚类结果集成,得到最终的聚类划分.实验证明,该方法与传统NJW算法以及简单抽样集成算法相比,算法的效率及有效性有了一定的提高.  相似文献   

6.
聚类分析是重要的数据挖掘方法,在商务智能、地理信息系统、医学等方面有广泛的应用.随着聚类分析的蓬勃发展,涌现出了许多聚类算法,其中最重要的算法之一是基于密度的空间聚类以及其多种变种——基于密度连通链、基于加权密度、基于引力连通集合的算法.这些算法在概念上相似但没有统一的描述.本文针对基于密度的空间聚类及其变种提出了拓扑的概念.给出了聚类拓扑结构的定义,把簇定义为拓扑连通集合.此外,本文运用全新的拓扑思想改进典型的算法,提出了一种拓扑聚类的新算法.实例证明此算法有效.  相似文献   

7.
双聚类是微阵列基因表达数据分析中很实用的一种数据挖掘技术,它是一种同时对微阵列基因和条件进行聚类的方法,用来挖掘基因子集在条件子集下所体现出来的生物模式。传统的双聚类算法对于庞大的基因表达数据处理效率很弱,考虑在j Metal平台上实现基因表达数据的双聚类的一种新的研究方法及思路。同时考虑加入并行策略,提高算法的效率。在酵母啤酒细胞基因表达集和人类B-细胞两个标准数据集上对两个算法进行实验验证,表明所提出算法比其他多目标双聚类算法呈现出更好的优越性。  相似文献   

8.
张选平  祝兴昌  马琮 《西安交通大学学报》2007,41(12):1387-1390,1395
针对基于密度的聚类算法由高密度区到低密度区的处理顺序所带来的不能识别低密度对象类别的缺陷,通过对聚类过程中可能存在的边界识别进行讨论,提出了一种基于边界识别的聚类算法.该算法的思想是:同簇优先权高于密度优先权,即在选择下一个对象进行聚类时,在已聚类的对象中优先选择同一簇的对象,当对象沿某一方向扩展到达簇边界时停止扩展,转而向其他方向扩展,这种处理顺序能使得类别最大化.通过分析簇边界的密度变化特征,建立了边界识别准则,并根据该准则对数据进行聚类.通过在合成数据和美国加州大学提供的知识挖掘数据库数据集上的实验结果表明,所提算法能有效地处理低密度区域的数据,与识别聚类结构的对象排序算法相比,聚类效果可提高4%左右,而时间性能相当.  相似文献   

9.
适用于大规模文本处理的动态密度聚类算法   总被引:2,自引:0,他引:2  
针对传统的基于密度的聚类算法对海量数据处理时, 存在参数输入复杂及时间复杂度高的问题, 给出新的密度定义方法, 并在此基础上提出一种只需一个简单输入参数就能动态识别密度不均匀聚类簇的聚类算法, 同时将其扩充为可以处理海量数据的两阶段动态密度聚类算法。在人造数据集、大规模数据集以及中英文文本语料数据集上的实验表明, 所提出的算法具有输入参数简单和聚类效率高的特点, 可以应用于海量文本数据的聚类处理。  相似文献   

10.
基于传统的Fuzzy等价关系聚类法,由Fuzzy相似矩阵构建Fuzzy等价矩阵,对传递闭包采用Warshall算法求解,并选择不同置信水平下的分类,利用偏差度得到最优聚类.结合北京市朝阳区近3个月新开楼盘的数据,选择可靠性指标,在最佳置信水平的基础上对其进行最优聚类,实验结果与事实吻合.  相似文献   

11.
在借鉴空间数据挖掘技术的基础上,定义了移动对象轨迹之间的时态距离和平均距离,提出了标准差法和置信区间法两种轨迹聚类算法。两种方法能够找出所有具有相似轨迹的对象对,在不同距离采样点数的基础上配合使用两种方法能够明显降低轨迹聚类算法的时间复杂度。基于标准差法和置信区间法的轨迹聚类算法在仿真数据集和真实数据集进行了验证。表明两种方法能够为其他轨迹聚类算法进行数据筛选,筛选后的数据量将大大减少,从而可提高算法效率。  相似文献   

12.
储油罐液位时序数据模式发现对油田生产管理、灾害预警有重要意义,由于目前油气田领域的数据体系繁杂,并未对这些数据加以分类和标识。已有方法借助图形化工具进行人工筛选与检查,这样的方法不适用于长时间不间断生产的石油工业。面对上述问题及已有方法的不足,针对储油罐液位时序数据的特点,提出基于层叠分段与层次聚类模式发现的处理方法。将观测序列转换为离散的线性分段序列,并对各线性分段进行基于DTW(距离的无监督层次聚类,可自动发现时序模式并分配标识符标注时序序列。以储油罐液位时序数据进行实验,发现了隐含的变化模式和变化规律。方法对液位时序变化模式有很好的识别及分类能力,无需人工筛选与检查,并可根据需要,查看不同粒度的变化模式,可为时序数据模式识别,异常检测提供参考和途径。  相似文献   

13.
为有效掌握空中交通流的分布规律,提高飞行轨迹聚类效率与质量,提出了一种精确度高、运算快、自主识别异常轨迹的飞行轨迹聚类方法.首先,改进均匀参数化法降低了飞行轨迹数据规模.其次,提出一种基于核主成分分析(kernel prin-cipal component analysis,KPCA)和飞行轨迹降维方法,突出不同类点之...  相似文献   

14.
数据挖掘综述   总被引:59,自引:1,他引:59  
从人工智能、统计分析和数据库技术3个方面对数据挖掘技术进行了总结;从模式识别的角度讨论了数据挖掘技术的主要任务,包括分类、聚类、回归、关联、序列和偏差6种模式的识别.详细介绍了数据挖掘技术的常用方法,包括模糊理论、粗糙集理论、云理论、证据理论、人工神经网络、遗传算法以及归纳学习.列举了当前数据挖掘技术的实际应用场合,并指出其今后的发展趋势以及急需关注的问题.  相似文献   

15.
基于多阶段的模糊C-均值算法的模糊聚类分析研究   总被引:8,自引:0,他引:8  
对模糊聚类分析算法进行研究,在模糊C- 均值算法(FCM)的基础上加以改进,将聚类过程分为二个阶段,形成多阶段模糊C- 均值算法(MFCM),使其对Iris数据聚类.研究表明:多阶段的模糊C- 均值算法比模糊C- 均值算法性能优越.  相似文献   

16.
作为最小均准则的拓广,本文从数据熵,数据熵差引进最小均熵差准则,并应用于数据与模式聚类;给出基予最小均熵差准则的动态聚类算法与系统聚类算法,最后通过一个应用示例说明这一最小均熵差准则模式聚类的有效性与优越性。  相似文献   

17.
基于DHNN的油田产量递减曲线模型的识别   总被引:1,自引:0,他引:1  
基于离散Hopfield神经网络(DHNN)对油田产量递减曲线模型的识别进行研究,提出基于DHNN识别油田产量递减曲线模型的方法.采用模糊C均值聚类将原始产量数据样本分为4个类别,对应4种不同的递减曲线类型,将聚类中心单位化,借助网络吸引子图的对称性消除伪稳定态,创建能够同时且均匀地记忆在DHNN中的样本集,应用训练后的网络识别各种递减曲线模型.实际应用结果表明,用该方法可准确地识别产量数据所对应的递减曲线模型.  相似文献   

18.
在用户访问网站点击流形成频繁序列的基础上,提出基于距离函数的聚类分析算法.首先对数据流分区做K均值聚类生成中间聚类结果,然后对这些均值参考点进行离线聚类,以获取用户访问模式.理论分析和实验表明,算法具有较好的聚类效果.  相似文献   

19.
把模糊集理论和神经网络引入模式聚类的研究 ,在无须事先知道模式集数目的条件下 ,为提高聚类精度 ,提出模糊超球神经网络结构和聚类算法 ,同时给出仿真实验的结果 ,以说明模糊集理论和神经网络在模式聚类研究中的活力 .  相似文献   

20.
针对传统聚类算法效率低、效果差和稳定性弱等弊端,提出一种新的云计算环境下关联性大数据实时流式可控聚类算法。介绍了关联性实时流式数据的定义和特点。通过粗聚类对实时抵达的数据元组进行相应的预处理,确定类簇的数量与中心点位置,形成通过存在差异的宏簇构成的集合,粗聚类采用的算法为Canopy算法。将粗聚类得到的宏簇传至K-means算法,给出了K-means算法的详细步骤,通过K-means算法完成细聚类,介绍了整个细聚类详细步骤。实验结果表明,所提算法具有效率高、质量好、稳定性强等优势,可有效实现云计算环境下关联性实时流式大数据聚类。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号