首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 171 毫秒
1.
针对传统的随机森林算法(RF)在对高维特征数据集计算速度慢、聚类效果不佳的缺陷,提出了一种基于高维特征聚类的随机森林算法(HDFC-RF),首先用传统RF方法对初始高维数据集聚类后,使用K均值聚类(KM)和模糊C-均值(FCM)结合,计算样本相似度,并对聚类特征划分族群,最后通过计算DBI指标,并与相关性阈值δ比较和排序,得到最终的高维特征序列。将HDFC-RF算法应用于高维特征数据集Colon Tumor,与传统的RF和FSRF算法比较。实验结果表明,HDFC-RF算法对于高维特征的数据集具有更好的聚类效果、训练速度也更快,具备良好的可行性。  相似文献   

2.
基于潜在空间学习的多视图聚类研究得到了较大发展,但其通常忽略了原始数据中冗余信息的存在可能会带来不理想的聚类结果。为解决这个问题,提出一种潜在表示学习框架下的低冗余多视图聚类算法。基于k-means的方法,直接从各视图数据学习其低维表示,由于该低维表示的各个特征相互正交,学习到的低维表示通常含有较少的冗余信息。基于潜在空间的假设,各视图的低维表示可由同一个潜在表示投影得到。将两者结合,就能得到一个具有低冗余信息的统一的潜在表示。设计了一个优化算法来求解目标问题,在多个公开数据集上的实验表明了该算法的有效性。  相似文献   

3.
介绍了 k -means 和 DBSCAN 聚类算法的基本原理和优缺点,针对传统聚类算法无法有效处理高维混合属性数据集的问题,对原有的数据归一化方法进行改进,在 k -means 和 DBSCAN 聚类算法的基础之上,结合增量聚类的思想和数据之间相异度的计算方法,提出了基于密度的增量 k -means 聚类算法,有效处理具有高维混合属性的数据集,改进了数据相异度的计算方法。  相似文献   

4.
基于提供的11种聚类外部指标来组合多个聚类,通过单个对象的簇标记变化递增地更新目标函数来求出共识聚类,并利用模拟退火优化算法框架来解决局部最优问题。在UCI和TREC数据库中选取10个数据集进行几种算法的外部指标聚类性能评估实验,从实验数据的归一化角度和排序角度评估不同外部指标的聚类性能,结果表明:MSS3指标从整体性能表现上最适合用于引导聚类集成,可以作为算法默认的共识函数;基于模拟退火优化算法的聚类集成算法在7个数据集上优于其他聚类方法,而DBSCAN、MCLA、Kmearns算法则在其余3个数据集上表现最好。  相似文献   

5.
手部疾病的发生率在逐年增多,手部功能障碍最常发生的部位是第二至第五指掌指关节出现僵直设计了手功能康复治疗仪用于被动锻炼掌指关节的活动度,该仪器由关节活动次数等参数控制利用Monte-Carlo方法设计手康复治疗仪的参数,并采用K-means聚类算法对患者特征进行聚类以收集参数,并按照聚类分析后的结果赋值于新患者的起始参数.  相似文献   

6.
Clustering is one of the major exploratory techniques for gene expression data analysis. Only with suitable similarity metrics and when datasets are properly preprocessed, can results of high quality be obtained in cluster analysis. In this study, gene expression datasets with external evaluation criteria were preprocessed as normalization by line, normalization by column or logarithm transformation by base-2, and were subsequently clustered by hierarchical clustering, k-means clustering and self-organizing maps (SOMs) with Pearson correlation coefficient or Euclidean distance as similarity metric. Finally, the quality of clusters was evaluated by adjusted Rand index. The results illustrate that k-means clustering and SOMs have distinct advantages over hierarchical clustering in gene clustering, and SOMs are a bit better than k-means when randomly initialized. It also shows that hierarchical clustering prefers Pearson correlation coefficient as similarity metric and dataset normalized by line. Meanwhile, k-means clustering and SOMs can produce better clusters with Euclidean distance and logarithm transformed datasets. These results will afford valuable reference to the implementation of gene expression cluster analysis.  相似文献   

7.
本文从优化初始簇入手,提出了改进的聚类算法,提高了信贷风险识别效率及准确率.主要工作包括:(1)实现基于信贷特色的申贷数据集标准化算法;(2)提出δ相似度度量概念;(3)提出基于δ-K means的信贷风险识别算法δ-KCLR(δ-K-means-risk analysis of the bank credit)算法;(4)实验表明在银行信贷业务分析中,采用δKCLR算法可以有效识别隐含在信贷业务中的信贷风险.用这一模型可指导或预测新增贷款人中是否存在贷款风险.  相似文献   

8.
现有的优秀的聚类算法大多是处理低维数据的,但是对于高维数据,由于其分布特性与低维情形有很大的差异,这些算法失效.为解决高维分类型数据聚类问题,提出了一种基于粗糙集的高维分类型数据子空间聚类算法,基于粗糙集的上、下近似集的类边界描述,确定了类边界范围,然后采用相容度来调整类边界,聚类的过程采用增长子空间的思想,从低维到高维迭代地搜子空间类簇.最后通过在soybean、zoo数据集上的对比实验,实验结果表明了算法不仅可行,而且精度高.  相似文献   

9.
高维数据聚类问题是当前聚类分析研究的重点。笔者提出了一种改进的基于超网络的高维数据聚类算法。首先,将高维数据映射到一个大规模带权超网络中;其次,定义超网络中边的权重;再次,采用优化的超图划分方法划分带权超网络;最后实现高维数据聚类。这样有效过滤掉聚类中的噪声数据,避免了传统聚类方法在降维过程中产生的弊端。实验证明,该算法具有较理想的有效性和精确度。  相似文献   

10.
提出一种基于单维分割的高维数据聚类算法HDCA_SDP, 该算法利用单维空间能划分数据的性质,对整个数据集进行逐维聚类,解决了传统聚类算法带来的维度困扰问题,对数据集大小和数据空间维数具有良好的可伸缩性,且聚类结果的精度比传统的高维聚类算法有较大的提高. 实验结果表明,该算法在处理高维大规模数据时是有效的.  相似文献   

11.
针对云数据中心资源利用率较低、能源消耗较高的问题,提出了基于资源需求差异的资源均衡调度策略。在包簇框架模型基础上,利用与资源需求相关的距离度量因子,将资源需求差异大的包通过改进的k-means算法进行聚类;利用资源之间的相关性作为包与簇之间的距离,在资源分配的过程中使包能够集中映射到簇中,从而减少簇的使用个数。实验结果表明,在包簇框架的概念下,基于资源需求差异的改进后的k-means聚类算法能够优化包聚类步骤,资源调度算法能够提高云数据中心各类资源利用率、降低资源分配过程中产生的能耗,具有有效性和可扩展性。  相似文献   

12.
Though K-means is very popular for general clustering, its performance which generally converges to numerous local minima depends highly on initial cluster centers. In this paper a novel initialization scheme to select initial cluster centers for K-means clustering is proposed. This algorithm is based on reverse nearest neighbor (RNN) search which retrieves all points in a given data set whose nearest neighbor is a given query point. The initial cluster centers computed using this methodology are found to be very close to the desired cluster centers for iterative clustering algorithms. This procedure is applicable to clustering algorithms for continuous data. The application of proposed algorithm to K-means clustering algorithm is demonstrated. Experiment is carried out on several popular datasets and the results show the advantages of the proposed method. Foundation item: Supported by the National Natural Science Foundation of China (60503020, 60503033, 60703086), the Natural Science Foundation of Jiangsu Province (BK2006094), the Opening Foundation of Jiangsu Key Laboratory of Computer Information Processing Technology in Soochow University (KJS0714) and the Research Foundation of Nanjing University of Posts and Telecommunications (NY207052, NY207082)  相似文献   

13.
可见光通信系统中,正交频分复用技术的高峰均功率比会加大发射信号产生非线性失真的概率。为了降低系统的误码率,提出了一种改进的k均值(k-means)算法的非线性补偿技术。该算法考虑了信号的传输特性,运用Dijkstra算法优化了k-means算法中初始点的选择,能够准确地找到接收信号星座图的聚类中心,避免了传统k-means算法在选择初始聚类点时陷入局部最优解。仿真结果表明,相比于传统的k-means算法,改进的k-means算法能更准确地找到非线性失真后信号的星座点位置,因此能有效地解决可见光通信系统的非线性问题,降低了系统的误码率。  相似文献   

14.
考虑数据点之间局部统计性质的差异,结合K平均算法提出一种基于统计流形的聚类算法.通过计算数据点邻域的均值和协方差,将原始数据点云映射到正态分布族流形中,成为参数点云.在正态分布族流形上构造不同的度量结构,分别应用K平均方法,对参数点云进行聚类,从而将对应的原始数据分类.此算法可以应用到点云去噪.采用基于不同差异函数的算法,对含高密度噪声的点云去噪,并给出模拟仿真结果.仿真结果表明,采用KL散度作为差异函数的算法有较好的去噪效果,体现出该算法在去噪应用中的潜力.   相似文献   

15.
基于数据模式聚类算法的离群点检测   总被引:1,自引:0,他引:1  
针对传统模式挖掘算法在事务包含模式定义上未考虑模式间的包含关系而使聚类结果不够优良的问题, 提出一种新的基于模式聚类的离群点检测算法PCOT, 该算法适合于高维数据空间, 采用一种新的事务包含模式, 通过将模式表示成超图, 用超图分割方法对模式进行聚类. 实验与分析结果表明, 该算法能有效地在高维稀疏空间中发现离群点.  相似文献   

16.
离群点检测在是数据挖掘的重要领域,广泛应用在信用卡欺诈检测、网络入侵检测等重要方面,文中在结合层次聚类和相似性,给出高维数据的相似度量函数与类密度的概念,并基于类密度重新定义高维数据的离群点,从而提出一种基于相似度量的离群点检测算法;实验表明:算法对高维数据中的离群点检测有一定的价值。  相似文献   

17.
针对现有的不完全数模糊聚类算法未考虑样本各维属性对聚类贡献不同的问题,提出了基于属性加权的不完全数模糊c均值聚类算法.利用ReliefF算法评价各维属性的重要程度,通过加权欧式距离将属性权重结合入聚类,并能实现在聚类迭代过程中的缺失属性、隶属度及聚类中心的一体化求解.实验结果表明,该算法强调了重要属性在不完全数模糊聚类中的作用,能够得到更为准确的聚类结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号