首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 730 毫秒
1.
提出一种新的稀疏谱聚类算法——基于PAM算法的HSSPAM聚类(high-dimensional sparse spectral clustering based on partitioning around medoids).该算法先用高相关系数过滤及主成分分析降维方法以有效减小甚至消除维度灾难对高维数据处理的影响,再采用Minkowski距离指数变换函数及稀疏化算法来构建分块对角矩阵以重新解释样本之间的相似度;然后构造新颖的拉普拉斯矩阵以实现进一步压缩数据矩阵,进而结合partitioning around medoids(PAM)算法取代传统谱聚类中的K-means算法对特征向量聚类以提高算法的聚类稳定性;最后引入高维基因数据设计了实验,并以不同的聚类评价指标来衡量该研究算法的聚类质量,实验结果表明,新算法能够更精确、更稳定地对基因数据聚类.  相似文献   

2.
为解决传统模糊聚类迭代算法对初始化敏感,易陷入局部最优及处理高维数据时精度下降的问题,对基于马氏距离的模糊聚类算法(fuzzy c-means algorithm based on Mahalanobis distance,M-FCM)进行优化。将马氏距离代替欧氏距离,通过构造类内紧致度、类间分离度与类间清晰度结合的适应度函数,利用粒子群优化算法(particle swarm optimization,PSO)对马氏距离模糊聚类进行研究,提出了基于粒子群优化的马氏距离模糊聚类算法(Mahalanobis distance fuzzy clustering algorithm based on particle swarm optimization,DPSOM-FCM),并将此新算法与FCM(fuzzy c-means algorithm),M-FCM,PSO-FCM,IFPSOFCM(importance for fuzzy clustering algorithm based on particle swarm optimization)算法,在UCI(university of californiairvine)数据库的6个标准数据集上进行实验对比分析。结果表明,DPSOM-FCM算法具有算法收敛性和聚类有效性,并且聚类精确度优于其他算法,对高维数据的聚类识别能力强,即该算法具有全局优化作用。  相似文献   

3.
针对传统协同过滤算法数据稀疏性问题,提出一种基于用户和项目双向聚类的协同过滤推荐算法CFBC(Collaborative Filtering based on Bidirectional Clustering),将评分矩阵从用户和项目两个方向进行聚类,降低数据稀疏性的影响,提出一种改进的相似度计算方法P-J(Pearson-Jaccard)相关系数,提高相似度计算精度。实验证明,相较于传统协同过滤算法,该算法能有效提高推荐准确度。  相似文献   

4.
针对现有基于改进的K-means模糊聚类的社区发现算法(k-means algorithm for community structures detection based on fuzzy clustering,NKFCM)执行效率较差的问题,将粒子群算法与模糊聚类算法相结合提出了基于粒子群优化与模糊聚类的社区发现算法(community detection algorithm based on particle swarm optimization and fuzzy clustering,PFCM).该算法首先进行迭代运算,找出初始聚类核心,利用以云模型为运行条件的粒子群优化算法确定最优聚类核心与最佳社区个数,最后利用模糊聚类算法(fuzzy c-means algorithm,FCM)进行具体的社区划分.理论解析与测试结果表明:该算法发现网络社区的准确性较高,且与NKFCM算法相比,PFCM在处理网络数据时执行效率获得了极大地提升.  相似文献   

5.
针对当前数据挖掘中对数值型数据聚类方法的不足,提出了基于特征点选择的聚类算法(clustering algorithm based on Feature Point Selection,CFPS)。CFPS算法可以克服需要输入聚类数量的缺陷, 算法本身可以找到簇的最佳数量,使聚类的精度和效率得到大大提高。实验结果表明该方法对数值型数据聚类方法具有借鉴意义和深入研究的价值。  相似文献   

6.
密度峰值聚类算法(Density peaks clustering, DPC)是一种基于密度的新型聚类算法。该算法的优点十分显著:所需参数较少,没有迭代过程,能自适应获得聚类数目并识别任意形状的簇类。该算法也有一些问题亟待解决:(1)在决策图上人工选择聚类中心,产生聚类误差;(2)在密度不同的流形数据集上聚类效果不佳。针对这些不足,该文提出一种基于电子分层模型和凝聚策略的密度峰值聚类算法(Density peaks clustering based on electronic shells model and merging strategy, EMDPC)。其利用电子分层模型计算每个数据点的局部密度,更易识别出低密度簇;通过子簇凝聚策略自适应识别簇类数目,降低了人工选取聚类中心时误差发生的概率;并且子簇凝聚策略能较好地解决DPC在密度不均匀的流形数据上聚类效果不佳的问题。实验分析表明基于电子分层模型和凝聚策略的密度峰值聚类算法具有较高的精度和较好的聚类性能,其结果优于其他先进的聚类算法。  相似文献   

7.
提出基于集合差异度的聚类算法. 算法通过定义的集合差异度和集合精简表示,直接进行一个集合内所有对象总体差异程度的计算,而不必计算两两对象间的距离,并且在不影响计算精确度的情况下对分类属性高维数据进行高度压缩,只需一次数据扫描即得到聚类结果. 算法计算时间复杂度接近线性. 实例表明该算法是有效的.  相似文献   

8.
针对电网中录波型故障指示器上传的海量故障数据存在着大量的重复、干扰、错误及无效波形,提出一种基于稀疏自编码(sparse auto-encoder,SAE)的故障数据聚类清洗方法,该方法首先利用稀疏自编码对故障数据进行特征学习与降维,继而用主成分分析(principal component analysis,PCA)对降维后数据再次进行降维提取,实现对不同故障数据的特征获取;最后利用基于密度峰快速搜寻聚类算法(clustering by fast search and find of density peaks,CFSFDP)对故障特征进行聚类,实现对重复、干扰、错误等故障数据的聚类清洗和真实故障数据推送.提出的海量故障数据聚类清洗方法,达到了对不同类型故障数据进行清洗去冗的效果,为故障告警智能推送提供了技术支撑,提高了运维人员获取准确故障信息的效率.  相似文献   

9.
快速搜索与发现密度峰值聚类(clustering by fast search and find of density peaks, DPC)算法对聚类中心点进行了全新的定义,能够得到更优的聚类结果。但该算法需要手动选取聚类中心,容易出现多选、漏选聚类中心的问题。提出一种自动选取聚类中心的密度峰值聚类算法。将参数积γ引入新算法以扩大聚类中心的选取范围,利用KL散度的差异性度量准则对聚类中心点和非聚类中心点进行清晰划分,以Dkl排序图中的拐点作为分界点实现了对聚类中心的自动选取。在人工以及UCI数据集上的实验表明,新算法能够在自动选取聚类中心的同时,获得更好的聚类效果。  相似文献   

10.
层次聚类算法是运行复杂度较高的聚类算法,基于不相似性测度的层次聚类算法不适合稀疏高维数据.结合核函数特点,提出了一种基于核函数的层次聚类算法.利用该算法,对稀疏高维数据进行了层次聚类对比,实验结果表明,该算法提高了层次聚类的准确率.  相似文献   

11.
为了在多维聚类分析中运用有效的深度特征选择方法排除冗余和无关的特征属性,学习数据元素的非线性关系提取最佳特征,提出一种降噪分层映射算法(DHM).首先,基于降噪自动编码器构建非循环神经网络,容错数据经过隐藏层加权和激活函数的训练获取输入数据的非线性关系得到特征空间,实现特征重构选取最佳特征.其次,特征空间用于调整自组织特征映射神经网,通过计算最小化加权平方欧式距离寻找匹配的获胜神经元.最后,结合特征选择网络和无监督聚类网络为降噪分层映射神经网,通过整体模型迭代训练,使权重参数和偏差向量同时得到优化,实现有效的无监督聚类方案.在真实数据集上的实验结果表明,同AESOM,DCSOM和S-SOM算法相比,DHM算法在提高聚类质量及准确性方面有更好的表现.  相似文献   

12.
基于核方法的分类型属性数据集模糊聚类算法   总被引:1,自引:0,他引:1  
针对分类型属性数据的聚类问题.将核方法的思想推广到快速、高效率的模糊c-均值算法,构造了基于核函数的模糊核c-均值聚类算法.该算法通过使用经验核矩阵充分利用了数据间的“相异性”信息,并且避免了模糊k-modes算法中每次迭代均要直接计算类中心的缺点,提高了聚类的精确度和稳定性.同时该算法对模式(类中心)的初始值选择不敏感.时实际的线性可分的和线性不可分的分类型属性数据集的仿真实验证明了该算法的有效性.  相似文献   

13.
在聚类算法和特征向量维数确定的模式样本集中,各样本的每一维表示一个对应特征;鉴于此在基于层次算法的基础上,提出了一种基于概率的快速聚类算法;该算法先对各个特征进行分类,然后按照概率准则,每个向量先自成一类,将其对应概率最大的特征向量合并,减少类别数,直至达到要求为止;用UCI中的Iris和Wine数据集对该算法进行仿真实验,实验数据表明:用该算法进行聚类,能获得较好的聚类结果,说明算法具有一定的有效性.  相似文献   

14.
针对股评论坛主题发现,提出基于频繁项集与潜在语义相结合的短文本聚类(STC_FL)框架.在基于知网的知识获取后得到概念向量空间,挖掘并筛选出重要频繁项集,然后采用统计和潜在语义相结合的方法进行重要频繁项集的自适应聚类.最后,提出TSC-SN(text soft classifying based on similarity threshold and non-overlapping)算法,通过参数调优策略选择和控制文本软聚类过程.股吧论坛数据实证分析发现:所提出的STC_FL框架和TSC-SN算法可充分挖掘文本潜在语义信息,并有效降低特征空间维度,最终实现对短文本的深层次信息挖掘和主题归类.  相似文献   

15.
为了解决短文本因特征关键词稀疏而导致文本向量概念表达不够准确的问题,本文提出概念属性扩展特征关键词短文本聚类算法——STCBCFE(Short Text Clustering Based on Concept Feature Ex-pansion)。该算法通过HowNet的概念属性扩展特征关键词,以此增加文本语义特征和反映文本主题的特征关键词数量,进而提高短文本相似性;将其应用于短文本聚类,能够提高短文本的聚类效果。实验结果表明,该算法在短文本聚类的查准率和查全率上都得到了较大的提高。  相似文献   

16.
针对传统自组织聚类方法处理数据在多维空间中存在多样性和从基本或低层次概念上发现强关联规则中的不足,提出了一种基于自组织分级聚类的数据挖掘方法.该方法采用最大似然分类自组织特征网络(MAXNET)聚类过程,利用自下而上聚合层次聚类方法,对有畸变的二值化输入模式作最大似然分类.最后对一个销售电脑商场中,与任务相关的交易数据集进行了分析,描述了从低层次概念到高层次概念的相互关系.并用matlab仿真软件把该方法和传统方法进行比较,表明了该方法的有效性.  相似文献   

17.
基于数据模式聚类算法的离群点检测   总被引:1,自引:0,他引:1  
针对传统模式挖掘算法在事务包含模式定义上未考虑模式间的包含关系而使聚类结果不够优良的问题, 提出一种新的基于模式聚类的离群点检测算法PCOT, 该算法适合于高维数据空间, 采用一种新的事务包含模式, 通过将模式表示成超图, 用超图分割方法对模式进行聚类. 实验与分析结果表明, 该算法能有效地在高维稀疏空间中发现离群点.  相似文献   

18.
短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Movers Distance)来计算短文本间的相似度;最后将其应用到Kmeans聚类算法中实现短文本聚类。在3个数据集上进行的评测结果表明,效果优于传统的聚类算法。  相似文献   

19.
为了构建能反映高维数据本质结构的高质量图,提出了一种新颖的降维方法———基于自适应图的降维方法( DRAG: Dimensionality Reduction based on Adaptive Graphs) 。与其他传统的基于图的降维方法相比,提出的DRAG 避免了传统k 近邻或ε 球准则构图策略中的参数选择问题,考虑了数据的局部信息和噪声,能自适应地构建稀疏的最优图结构,并将其结合在经典的LPP( Locality Preserving Projection) 模型中,学习能有效刻画高维数据本征结构的投影矩阵,从而实现降维的目的。为了评估算法的有效性和可行性,在4 个标准的图像数据库( CMU PIE,Extended YaleB,ORL 和COIL 20) 分别进行了分类与聚类实验,实验结果表明,所提出的方法在分类识别率和聚类准确率上都优于其他对比方法。  相似文献   

20.
基于SVM的空间数据库的层次聚类分析   总被引:7,自引:0,他引:7  
支持向量机用于两类问题的识别研究.本算法引入了SVM,构造二叉树对多类问题进行层次聚类分析.该算法采用SVM对两类问题进行识别,通过合并逐步由底向上构造二叉树,最终二叉树的数目即为聚类数.它适合任意形状的聚类问题,而且可以确定最优聚类的结果,并适于高维数据的分析.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号