首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 687 毫秒
1.
针对高维数据下的聚类效果需要提高,提出一种基于期望最大化的k-means聚类改进算法.该算法在没有降维和破坏原有数据结构的情况下,把期望最大化算法和k-means算法相结合,用期望最大化算法选取k-means的算法的初始聚类中心.并针对高维数据提出一种新的距离算法,代替传统的距离算法.实验结果表明提出的算法的可行性,并且在处理高维数据时的有效性.  相似文献   

2.
谱聚类是一种无监督学习方法,在许多环境中都能高效地进行应用,且易于实现,已经成为非常流行的聚类算法之一.然而谱聚类仍面临两个主要的问题:(1)如果数据量过大,在对拉普拉斯矩阵进行特征分解时,需要大量的计算;(2)k-means在面对大量数据时也会有计算时间过长的缺陷.为了克服这两个缺陷,文章提出了一种基于图滤波的快速谱...  相似文献   

3.
针对传统k-means聚类方法随机选择初始聚类中心而导致的收敛速度慢、聚类效果较差的问题,本文结合空间相似度度量提出一种改进的k-means初始聚类中心选择方法.该方法通过定义空间中样本的相似度,从而选择相似度较小的样本作为初始聚类中心,以减少达到聚类稳定状态的迭代次数,提高聚类的效率.UCI数据集上的实验结果表明,与传统k-means聚类方法相比,本文提出的改进的k-means初始聚类中心选择方法能够使聚类的收敛速度加快,得到良好的聚类效果.  相似文献   

4.
针对k-means算法必须事先指定初始聚类数k,并且对初始聚类中心点比较敏感,聚类准则函数对求解的最优聚类数评价不理想,提出一种基于局部密度的启发式生成初始聚类中心方法,在此基础上设计一种准则函数自动生成聚类数目,改进了传统k-means算法.实验表明改进的算法比传统k-means算法提高了聚类效率.  相似文献   

5.
聚类分析是数据挖掘的一个重要运用方法,它是一个把数据对象划分成子集的过程.k-means算法是一个基于划分且应用非常广泛的聚类算法,具有原理简单、便于理解和实现、能处理大数据集等优点.但是,该算法也存在着一些不可避免的缺点,本论述针对在多维空间k-means算法中聚类数需要事先给定以及该算法对初始中心点选取的敏感性这两方面的缺点给出了改进算法,并选取数据集对改进算法进行试验.结果表明笔者提出的改进算法比传统的k-means算法和基于最大最小距离算法的k-means聚类算法具有更高的有效性和稳定性.  相似文献   

6.
针对经典k-means聚类算法的弊端进行一定程度上的改进,提出一种新的基于距离相等函数决定最佳聚类值的改进方法.实验采用两大类标准数据集来测试该算法,并和k-means算法的结果进行了比较,证实了该改进算法的有效性,解决了聚类数目k值的难确定性问题.  相似文献   

7.
针对MinMax k-means算法易产生空解、 收敛速度慢和计算效率低的问题, 提出一种增量式MinMax k-means聚类算法. 该算法从给定的初始聚类个数开始, 以固定步长递增式产生新的聚类中心, 采用基于数据均衡的快速分裂方法产生增量聚类中心, 从而避免了传统增量聚类中心选择中遍历数据、k-means聚类算法运行次数过多导致的大计算量问题. 与MinMax k-means及相关算法的对比实验结果表明, 该算法在计算效率和求解精度上均优于对比算法, 有效改善了MinMax k-means聚类对初始化中心敏感和易产生空解的问题.  相似文献   

8.
结合谱聚类算法中的自适应尺度和最大最小距离算法的思想,提出了一种基于稀疏度和距离的初始类中心选择算法,并将提出的初始类中心选择算法应用于k-means和Fuzzy k-means算法的初始类中心选择,在UCI和真实数据上的实验结果表明提出的算法是有效和可行的。  相似文献   

9.
针对谱聚类算法在处理较大规模的样本时,在存储空间和计算时间上都存在瓶颈问题,文章分析了目前常见的两种解决方式,即基于稀疏化t近邻的谱聚类和基于Nystr9m矩阵低秩逼近的谱聚类方法.为了进一步提高这两种谱聚类算法的准确度,提出了采取基于信息熵属性赋权的欧式距离来计算样本间的相似度的方法.首先,计算样本各属性的权重;然后,计算样本间的相似度矩阵并应用到稀疏化t近邻的谱聚类和Nystr9m矩阵低秩逼近的谱聚类方法中;最后,在多个数据集上进行了验证.实验结果表明该方法在一些数据集上的聚类精确度要比原来谱聚类算法高,尤其在Pendigits数据集上,基于信息熵赋权的稀疏化t近邻谱聚类比稀疏化t近邻谱聚类方法精确度提高15.11%.  相似文献   

10.
为获得分布式数据集上用户所期望的聚类结果,提出了基于约束信息的并行k-means聚类算法.在分析并行k-means能够有效实现对水平分布式数据集进行聚类的基础上,修改并行k-means算法的目标函数,设计约束并行k-means算法,将站点用户的约束信息以chunklet的形式引入到分布式聚类过程,从而引导算法执行有偏搜...  相似文献   

11.
针对k-means算法对初始值敏感、易陷入局部极小值等缺点,结合遗传算法的思想,提出了一种基于遗传算法和k-means算法的混合聚类方法,为了测试该聚类算法的性能,用k-means 算法和改进的算法进行了1组实验,并对2种算法的聚类结果进行比较,实验结果表明算法能够有效地解决聚类问题.  相似文献   

12.
针对传统阴阳k-means算法未利用数据结构导致计算效率较低的问题, 提出一种高效阴阳k-means聚类算法. 该算法根据数据相似性将原始数据进行逐层分解, 并建立满m叉树结构存储各层数据, 以树结构各叶子节点中存储的数据信息建立加权数据, 运行加权阴阳k-means算法得到收敛中心. 在原始数据中以加权数据收敛中心为初始化条件运行传统阴阳k-means算法进一步优化目标函数值. 在5组UCI数据集上与k-means、传统阴阳k-means及另外两种加速算法进行对比实验, 实验结果表明, 该算法具有较高的加速比, 且求解精度与传统阴阳k-means聚类基本相同.  相似文献   

13.
聚类是识别基因表达数据蕴含的关键基因调控模块的一种有效方法,基因表达谱的相似性度量是聚类的关键问题.然而,一般的相似性度量方法不能刻画时间序列基因表达谱数据所蕴含的时间延迟、反向相关和局部相关等复杂的基因调控关系.针对时间序列基因表达谱数据,提出一种基于近邻传播和动态规划的相似性度量方法和聚类算法.在大鼠再生肝细胞基因表达谱数据集上的聚类结果与基因功能富集分析结果高度一致,证明算法在时间序列基因表达谱数据聚类上的有效性.  相似文献   

14.
面对大量繁杂的新闻数据,为了让人们从大量的数据中了解主要类别信息,将采集到的11456条校园综合新闻作为研究对象,采用了基于词云和top3文章主题的k-means聚类方法.通过词频-反文档频率技术将采集到的11456条校园综合新闻进行主题提取,并用词云结果来估计k值,结果可将采集到的校园综合新闻数据聚为7个类别,与不基于文章主题的k-means聚类方法对比.评估结果表明,当将数据聚为2到10不同的类别数时,基于top3文章主题聚类的戴维森堡丁指数值整体小于不基于文章主题的聚类方法.因此,基于词云和top3文章主题的聚类方法比不基于文章主题的聚类方法稍好.聚类结果能为用户了解或查找想要的类别信息提供一定参考.  相似文献   

15.
谱聚类(Spectral Clustering)是建立在谱图理论基础上的一种聚类算法.与传统的聚类算法相比,谱聚类能够在任意形状的样本空间上进行聚类且收敛于全局最优解.然而,实际问题中大规模数据集普遍存在,在使用谱聚类对大规模数据集进行聚类时,收敛速度变得十分缓慢,甚至无法在有效的时间内得到聚类结果.并行算法是针对大规模数据集进行处理的一种有效方法.基于Hadoop云计算平台实现大规模数据集的存储和处理是目前实现并行计算的一种高效解决方案.  相似文献   

16.
提出了一种新的谱聚类算法:基于K-Medoids的SSKM聚类,不仅利用距离指数变换函数及稀疏化算法构建了分块对角矩阵以重新解释样本之间的相似度,还结合PAM算法取代传统谱聚类中的k-means算法对特征向量聚类以提高算法的聚类稳定性.为了使SSKM算法能够有效地处理高维数据,引入了高相关系数过滤及主成分分析降维技术,提出了SSKM算法的新版本HSSKM,能够识别高维数据结构以减少原始数据的特征规模.模拟数据及高维基因表达数据结果表明新算法具有聚类稳定、聚类结果更精确等显著性能.  相似文献   

17.
针对传统的以k-means为代表的分割聚类算法认为所有的聚类样本对聚类中心的影响都是相同的这一观点,提出基于样本加权的聚类算法,并采用实际数据集验证算法的有效性.实验表明,该算法比传统的k-means聚类算法具有更高的精确度.  相似文献   

18.
采用基于划分的空间聚类方法对地理要素进行聚类时,若仅考虑属性数据,得到与实际空间分布不相符的聚类结果。提出一种考虑空间对象属性特征和空间位置关系的谱聚类方法,首先,计算空间对象的局部离群指数,结合空间格局将样本中的异常点剔除,然后以空间临近为约束条件进行谱聚类分析。以包头地区土壤重金属形态数据为例进行聚类分析,分析结果表明:该方法能够克服谱聚类对初始聚类中心敏感的问题,既能反映属性特征数据的相似程度,又能反映对象的空间分布特性,对空间对象的聚类分析效果优于传统的谱聚类算法。  相似文献   

19.
子空间聚类已经广泛应用于多个涉及高维数据聚类应用领域,受到机器学习研究者的广泛关注.子空间聚类方法是一种使用特征选择的聚类分析技术,通过选择重要特征子集实现对高维空间的低维表示,在实际应用中能够取得更好的性能,成为流行的高维数据聚类方法.与硬聚类方法相比,软聚类能够给出复杂数据更有意义的划分.扩展k-均值聚类并提出基于可靠性的正则化加权软k-均值新的子空间聚类方法(Reliability-based regularized weighted soft k-means clustering algorithm,RRWSKM),该方法能够计算每个特征对每个聚类的贡献度,从而找到与不同聚类相关的重要特征子集.另外,该方法能够通过调整模型参数准确地辨识数据模式,具有良好的聚类性能.该方法把维度加权熵和划分熵作为正则化项引入到目标函数,避免过拟合问题同时使更多的特征参与辨识聚类.为了提高算法的鲁棒性,使用可靠性测度获得特征权重初始值,提高算法的可靠性和性能.考虑到该算法是非凸优化问题,使用迭代优化方法得到优化问题的最优解.使用多个实际数据集对本文算法进行仿真验证,结果表明,与其他子空间聚类算法相比,该算法能够有效发现高维数据的低维表示,具有良好的聚类性能,适合高维数据的聚类.  相似文献   

20.
为解决k-means聚类算法和k-凝聚聚类算法对于非凸形状数据聚类正确率低和模糊核聚类算法(FKCM)收敛速度慢的问题,将k-凝聚聚类算法与核函数方法相结合,在高维特征空间构造了新的核聚类算法--核k-凝聚聚类算法,实现了k-凝聚聚类算法的核化.通过Matlab编程进行数值实验,证明了核k-凝聚聚类算法在聚类的准确性、稳定性、健壮性等方面较之k-means聚类算法、k-凝聚聚类算法和FKCM有一定程度的改进.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号