首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
子空间聚类已经广泛应用于多个涉及高维数据聚类应用领域,受到机器学习研究者的广泛关注.子空间聚类方法是一种使用特征选择的聚类分析技术,通过选择重要特征子集实现对高维空间的低维表示,在实际应用中能够取得更好的性能,成为流行的高维数据聚类方法.与硬聚类方法相比,软聚类能够给出复杂数据更有意义的划分.扩展k-均值聚类并提出基于可靠性的正则化加权软k-均值新的子空间聚类方法(Reliability-based regularized weighted soft k-means clustering algorithm,RRWSKM),该方法能够计算每个特征对每个聚类的贡献度,从而找到与不同聚类相关的重要特征子集.另外,该方法能够通过调整模型参数准确地辨识数据模式,具有良好的聚类性能.该方法把维度加权熵和划分熵作为正则化项引入到目标函数,避免过拟合问题同时使更多的特征参与辨识聚类.为了提高算法的鲁棒性,使用可靠性测度获得特征权重初始值,提高算法的可靠性和性能.考虑到该算法是非凸优化问题,使用迭代优化方法得到优化问题的最优解.使用多个实际数据集对本文算法进行仿真验证,结果表明,与其他子空间聚类算法相比,该算法能够有效发现高维数据的低维表示,具有良好的聚类性能,适合高维数据的聚类.  相似文献   

2.
电力负荷曲线聚类在电力大数据研究中有重要的应用。针对传统负荷聚类方法难以有效处理海量化的高维负荷数据,以及存在簇间样本模糊导致算法聚类质量不高、聚类效率低下等问题,提出一种结合多维缩放(multi-dimensional scaling, MDS)和一种新的集成簇间、簇内欧式距离的加权K-means方法(weighting k-means clustering approach by integrating intra-cluster and inter-cluster distances, KICIC)的聚类算法(MDS-KICIC)。该方法首先采用MDS算法对高维负荷数据进行数据降维处理,得到降维后的低维矩阵和归一化的特征值向量作为KICIC算法的输入矩阵和权重向量,KICIC通过在子空间内最大化簇中心与其他簇数据对象的距离来融合簇内和簇间的距离进行聚类,得到最终聚类结果。通过算例表明该方法运算时间短、聚类质量高,进一步提高了负荷曲线的聚类性能。  相似文献   

3.
针对高维数据聚类分析中数据之间具有多种非线性特征关系,导致数据分布不均、传统相似性度量失效及结果类中心难以精准表征等问题,提出了一种基于核主元分析(KPCA)与密度聚类(DBSCAN)的高维非线性特征数据聚类分析技术。首先,为有效提取高维数据的非线性特征,利用KPCA理论将原始数据映射到更高维数据空间,利用主元分析获得数据变化的方向集合,并进行降维分析;然后,通过重新定义数据样本在主元空间的相似性距离对传统DBSCAN聚类方法进行改进,并利用3δ统计理论对各簇中心的进行表征,从而实现高维数据的精确分类与类中心知识表达。以实际高血压患者群体聚类问题为例对方法进行了有效性验证,实验表明,所提方法可以有效获取原始数据的非线性特征,实现患者个体特征群体的有效划分及簇类中心知识的表达,解决传统DBSCAN聚类方法对高维数据不适用的问题。  相似文献   

4.
针对基于聚类的离群点检测算法在处理高维数据流时效率和精确度低的问题,提出一种高维数据流的聚类离群点检测(CODHD-Stream)算法。该算法首先采用滑动窗口技术对数据流划分,然后通过属性约简算法对高维数据集降维;其次运用基于距离的信息熵过滤机制的 K-means 聚类算法将数据集划分成微聚类,并检测微聚类的离群点。通过实验结果分析表明:该算法可以有效提高高维数据流中离群点检测的效率和准确度。  相似文献   

5.
高维数据聚类问题是当前聚类分析研究的重点。笔者提出了一种改进的基于超网络的高维数据聚类算法。首先,将高维数据映射到一个大规模带权超网络中;其次,定义超网络中边的权重;再次,采用优化的超图划分方法划分带权超网络;最后实现高维数据聚类。这样有效过滤掉聚类中的噪声数据,避免了传统聚类方法在降维过程中产生的弊端。实验证明,该算法具有较理想的有效性和精确度。  相似文献   

6.
基于局部线性嵌入的半监督仿射传播聚类算法   总被引:1,自引:0,他引:1  
针对运用半监督仿射传播聚类算法处理高维数据时聚类精度低和计算量大的问题,提出一种基于局部线性嵌入的半监督仿射传播聚类算法.该算法首先通过LLE算法将高维输入数据集映射到低维空间得到低维数据集,计算低维数据集的相似度矩阵,再用半监督算法调整相似度矩阵,最后用仿射传播聚类算法对低维数据进行聚类分析.仿真结果表明,本文提出的算法与半监督仿射传播聚类算法相比,在处理高维数据时聚类效果更好,精度更高,迭代次数更少.  相似文献   

7.
Isomap在基因表达谱数据聚类分析中的应用   总被引:8,自引:0,他引:8  
基因表达谱数据的聚类分析对于研究基因功能和基因调控机制有重要意义。基于非线性降维算法等容特征映射 ,提出了一种新的大规模基因表达谱数据聚类算法 ,该方法改进了样本向量之间的距离度量 ,用测地距离代替传统的欧式距离 ,有助于挖掘高维数据内在的几何结构。将该算法应用于两个公开的基因表达数据集 ,并用一种新的评价方法Normalized Cut将聚类结果与其他聚类方法的结果进行了比较。结果表明 ,该文的聚类算法优于其他聚类算法 ,聚类结果具有明显的生物学意义 ,并能对数据的类别数作出较好的预测和评估  相似文献   

8.
为了解决大量高维数据分类的问题,给出一种基于半监督判别最大熵模糊的聚类算法.该算法不仅继承了已有FLDA-MEFCA算法的降维优势,而且可以充分利用监督信息来提高聚类性能.实验证明该算法的总体性能优于最大熵模糊聚类算法、FLDA-MEFCA和经典FCM类算法.  相似文献   

9.
大数据时代背景下,随着所获数据数量和维度的不断增加,高维数据的处理成为聚类分析的重点和难点.基于同一类别高维数据通常分布在高维环绕空间的低维子空间这一事实,子空间聚类成为高维数据聚类分析领域的重要方法.稀疏子空间聚类(Sparse Space Clustering,SSC)通过交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)对数据矩阵的稀疏自表达系数进行求解,发现分布于低维子空间并集中的数据的稀疏表示并进行聚类.但是ADMM参数多、收敛速度慢,其效率难以满足对大规模数据库进行聚类分析的要求.针对这一问题提出了基于L_0约束的稀疏子空间聚类方法,该方法使用正交匹配追踪(Orthogonal Matching Pursuit,OMP)算法求解L_0约束的自表达稀疏重建问题,构建数据集中各数据之间的相关性矩阵,最终对相关性矩阵应用谱聚类方法得到聚类结果.根据OMP算法每次迭代之间的耦合关系对其进行优化,进一步降低了计算复杂度,提高了算法效率.在生成数据和Extended Yale B database人脸数据库的实验结果表明,该算法与SSC相比,在显著减少计算时间的基础上,取得了与SSC相当的聚类准确率.  相似文献   

10.
提出一种基于单维分割的高维数据聚类算法HDCA_SDP, 该算法利用单维空间能划分数据的性质,对整个数据集进行逐维聚类,解决了传统聚类算法带来的维度困扰问题,对数据集大小和数据空间维数具有良好的可伸缩性,且聚类结果的精度比传统的高维聚类算法有较大的提高. 实验结果表明,该算法在处理高维大规模数据时是有效的.  相似文献   

11.
提出了一种新的二次特征提取的方法应用于说话人语音辨识.首先,通过基于熵的特征筛选方法,有效地剔除不重要或者噪声特征,消除语音特征的冗余,并获得其重要性排序,减少语音特征矢量的维数.然后,采用Fisher准则进一步进行参数选择,按 Fisher 比的大小选择特征向量作为投影轴,将高维空间中的特征矢量映射到低维的特征判别空间,然后以SVM作为分类器实现说话人辨识系统.实验结果表明,本文提出的方法在不影响识别率的情况下可以对输入数据有效降维,在噪音环境下取得了较好的识别效果,增加了系统的鲁棒性.  相似文献   

12.
介绍了3种用于文本聚类的特征选择方法:文档频度、单词权、单词熵.用一个中文文本语料库对这3种特征选择方法进行了比较实验,实验结果表明在文本聚类中单词权的特征选择方法具有最好的选择结果.  相似文献   

13.
借鉴基于正则回归的无监督并行正交基聚类特征选择法和最大互信息系数,提出正交基低冗余无监督特征选择法.该方法在正交基下选择具有判别能力的特征,可用最大互信息系数矩阵选择低冗余性的特征子集. 4个图像数据集上的实验结果表明:该方法选择的特征子集可以提高聚类准确率.  相似文献   

14.
借鉴邻域粗糙集处理连续型数据的优势,为解决传统谱聚类算法需要人工选取参数的问题,提出基于自适应邻域互信息与谱聚类的特征选择算法。首先,定义各对象在属性下的标准差集合与自适应邻域集,给出自适应邻域熵、平均邻域熵、联合熵、邻域条件熵、邻域互信息等不确定性度量,利用自适应邻域互信息对特征与标签的相关性进行排序。然后,结合共享近邻自适应谱聚类算法,将相关性强的特征聚到同一特征簇内,使不同特征簇内的特征强相异。最后,使用最小冗余最大相关技术设计特征选择算法。在10个数据集上选择特征个数与分类精度的实验结果,验证了所提算法的有效性。  相似文献   

15.
针对现有的不完全数模糊聚类算法未考虑样本各维属性对聚类贡献不同的问题,提出了基于属性加权的不完全数模糊c均值聚类算法.利用ReliefF算法评价各维属性的重要程度,通过加权欧式距离将属性权重结合入聚类,并能实现在聚类迭代过程中的缺失属性、隶属度及聚类中心的一体化求解.实验结果表明,该算法强调了重要属性在不完全数模糊聚类中的作用,能够得到更为准确的聚类结果.  相似文献   

16.
特征选择是粗糙集理论在数据挖掘等领域中一种重要的应用,如何对动态变化的信息系统进行增量式特征选择是目前粗糙集理论研究的重点。在不完备混合型信息系统中,属性集的不断增加是信息系统动态变化的一种重要形式。首先在不完备混合型信息系统中引入邻域条件熵的概念,并且利用矩阵的方法去表示邻域条件熵;然后针对属性集动态增加的情形,提出矩阵形式的邻域条件熵增量式更新,并且基于这种增量式更新机制给出了相应的增量式特征选择算法;最后,UCI数据集的实验结果表明,所提出的增量式特征选择算法比非增量式特征选择算法具有更高的特征选择性能。  相似文献   

17.
为了保证智能变电站的网络通信安全和整个变电站的稳定运行,提出了一种基于机器学习k-means聚类算法的异常流量分析方法。根据智能变电站中过程层网络的特性,结合对IEC61850智能变电站专有GOOSE(generic object-oriented substation event)以及SV(sample value)协议的报文结构解析,使用了一种基于信息熵的特征选取方法对智能变电站正常工作时站内网络通信流量进行特征分析选择,利用k-means聚类算法完成了对异常流量的检测分析及其相关分析。相较于以往方法,文中方法对智能变电站的过程层网络流量信息的特征进行了选取,根据信息熵理论,完成了重要特征的选择和冗余特征的剔除,提高了聚类算法的效率,提高了对异常流量检测的准确性。  相似文献   

18.
 为了解决申贷信用等级评价问题,介绍了解决银行申请贷款信用等级评价中聚类分析采用的基本概念及术语,提出了2种聚类算法包括基于信贷数据的聚类算法δ-kmeans;基于高维信贷数据的聚类算法ASC,并通过实验对其性能进行比较分析,实验表明:①δ-kmeans算法在信贷风险的控制上取得较好效果;②相比传统k-means和Coweb算法,ASC算法在聚类高维信贷数据上更加有效.利用k-means算法对银行信贷数据的聚类动力学关系进行分析.最后,给出了聚类分析算法在银行信贷领域应用的的难点.  相似文献   

19.
为确保大数据云存储下海量数据传输的完整度,提出了一种基于属性特征匹配和关联规则的海量数据传 输完整度控制方法。构建海量数据的属性特征高维重组模型,得到关键信息的特征分布状况,据此设计海量数 据的关键信息存储分布结构模型,采用关联规则方法进行海量数据的关键信息特征挖掘提取,利用关键信息进 行海量数据的特征分析和数据聚类处理,采用属性特征匹配方法设计海量数据关键信息存储节点后,利用模糊 减法聚类对关键信息存储节点进行聚类处理,在海量数据传输中,以数据关键信息存储节点传输的完整度实现 海量数据的传输完整度控制。仿真结果表明,采用该方法进行海量数据传输完整度控制,能提高云存储下的空 间利用效率,数据传输完整度高。  相似文献   

20.
Gen-Cluster:一个基因表达数据的高维聚类算法   总被引:1,自引:0,他引:1  
基因表达数据聚类是分析基因之间共调控关系的重要手段.挖掘子空间中表达值存在差异但变化趋势保守的序列已成为基因表达数据聚类的主要研究内容之一.在N-同维趋势相似定义的基础上,提出了一个基因表达数据的高维聚类算法Gen-Cluster,将基因表达值转化为序列形式,采用无重复投影且无候选生成的序列模式挖掘策略自底向上挖掘N-同维趋势模式,并解决了OP-Cluster算法不能挖掘含有项集的序列模式问题,最终得到表达值变化趋势保守的基因序列形成的N-同维趋势簇.实验采用Breast Tumor和MicroRNA表达数据集,验证挖掘结果是有效的,且较OP-Cluster算法表现更高效率,并涵盖其结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号