首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
针对谱聚类算法在处理较大规模的样本时,在存储空间和计算时间上都存在瓶颈问题,文章分析了目前常见的两种解决方式,即基于稀疏化t近邻的谱聚类和基于Nystr9m矩阵低秩逼近的谱聚类方法.为了进一步提高这两种谱聚类算法的准确度,提出了采取基于信息熵属性赋权的欧式距离来计算样本间的相似度的方法.首先,计算样本各属性的权重;然后,计算样本间的相似度矩阵并应用到稀疏化t近邻的谱聚类和Nystr9m矩阵低秩逼近的谱聚类方法中;最后,在多个数据集上进行了验证.实验结果表明该方法在一些数据集上的聚类精确度要比原来谱聚类算法高,尤其在Pendigits数据集上,基于信息熵赋权的稀疏化t近邻谱聚类比稀疏化t近邻谱聚类方法精确度提高15.11%.  相似文献   

2.
基于量子机制的改进的分类属性数据聚类算法   总被引:1,自引:1,他引:0  
分析量子势能、量子力学中粒子分布机制和针对分类属性数据的量子聚类CQC算法,发现该算法采用传统的Hamming相异性测度计算分类属性数据间的相异性测度,忽略分类属性取值自身的涵义和值间的特征关联,导致其聚类准确性较差.提出一种改进的MCQC算法,能根据数据对象的关联情况计算同属性不同值间的相异性,计算数据对象间的相异性测度,从而提高聚类准确率.仿真实验采用3个数据集,即:大豆疾病、国会投票真实数据集和从KDD-CUP99训练样本集抽取离散属性维构成的人造样本集.实验结果表明,该算法是有效且可行的,对分类属性、二值属性和混合属性数据的聚类准确率明显高于CQC算法.  相似文献   

3.
混合属性数据聚类融合算法   总被引:5,自引:0,他引:5  
混合属性数据集是现实世界特别是商业金融数据库中最普遍的数据集类型,但适用于这类数据集的聚类算法极少。该文根据聚类融合的方法体系,针对混合属性数据集的特点,提出了基于聚类融合的混合属性特征聚类算法(CEM C),建立了算法框架,列出了算法目标函数和算法主要步骤,并分析了算法复杂度。该算法可以有效处理混合属性海量数据集。用真实数据集验证了算法,并将此算法应用于实际的客户关系管理数据分析中,得到了较好效果。  相似文献   

4.
针对大型事务数据库中频繁集的多属性聚类问题,提出一种高效的频繁集聚类算法.以往聚类算法采用基于距离的计算方法,由于受到属性数据的制约,在频繁集挖掘中具有一定的限制.在属性聚类基础上,基于连接对频繁集进行聚类.在算法中先找出数据点的邻居和计算相似度,构造邻居矩阵;然后计算连接数目,确定邻居数目矩阵;最后通过设置判定函数和阈值确定聚类数.通过实验证明,算法能够不仅能有效地完成频繁集的多属性聚类问题,而且还可以进一步发现频繁集在某一层次的相关性.  相似文献   

5.
借助于近似极大值函数的凝聚函数,将传统数据聚类问题转化为无约束优化问题求解.首先利用一阶必要条件,推导出数值属性下数据聚共中心的计算格式;其次采用类属性分解方法,提出计算类属性数据对象之间距离的新方法,井在此基础上给出混合属性下数据聚类中心的计算格式和一个能处理数值型和分类型混合数据集的凝聚聚类算法;最后选取不同初始聚类中心,使用凝聚聚类算法对英语借词进行了聚类实验和分析.结果表明,凝聚聚类算法在计算效率和计算效果方面均优于模糊k-prototypes聚类算法.  相似文献   

6.
为了提高数据挖掘的聚类准确度,提出了一种基于菌群优化的K均值(K-means)聚类算法。采用K均值算法建立数据聚类模型。根据聚类类别数设定多个聚类中心坐标。设定所属类别距离阈值,然后计算待聚类点和所有中心点距离来划分该聚类点的类别。根据参与聚类各节点和各自中心点的距离值建立适应度函数。引入菌群优化算法对K均值聚类过程进行优化。通过细菌的多次驱散、复制和趋化操作,不断提高数据聚类的适应度,直到达到最大操作次数或者最低聚类精确度阈值,获得稳定的数据聚类挖掘算法。实验证明,通过合理设置驱散和趋化次数,微调菌群算法的引力和斥力参数,能够获得较好的聚类性能。分别采用K均值和该文基于菌群优化的K均值聚类算法对6个不同数据集进行聚类仿真。该文算法对所有数据集的平均聚类准确率都高于92%。针对UCI混合数据集,当聚类达到稳定时,该文算法的聚类标准差明显优于K均值聚类算法;而且该文算法对5 000个混合样本完成聚类消耗的时间约70 s,K均值聚类算法约需93 s。  相似文献   

7.
一种广义加权模糊聚类算法   总被引:2,自引:0,他引:2  
提出了一种广义的加权模糊聚类新算法来处理具有不同特征贡献和不同数据分布的混合属性数据.分别利用样本概率密度思想和ReliefF算法为每一个样本和每一维特征分配权值,通过样本和特征的加权,将模糊c均值算法、模糊c-modes算法、模糊c-原型算法以及样本加权聚类算法统一为一个通用的框架.不同测试数据集的实验结果证明,这种广义的模糊聚类新算法对于处理不同分布以及具有不同特征贡献的大数据集是相当有效的.  相似文献   

8.
介绍了 k -means 和 DBSCAN 聚类算法的基本原理和优缺点,针对传统聚类算法无法有效处理高维混合属性数据集的问题,对原有的数据归一化方法进行改进,在 k -means 和 DBSCAN 聚类算法的基础之上,结合增量聚类的思想和数据之间相异度的计算方法,提出了基于密度的增量 k -means 聚类算法,有效处理具有高维混合属性的数据集,改进了数据相异度的计算方法。  相似文献   

9.
灰色关联聚类是灰色系统分析的重要研究领域.现有的灰关联聚类方法在处理不同长度序列数据时,通常采用补齐或删除数据方式进行处理,增加了系统的不确定性.在动态时间弯曲距离基础上,提出了一种新的灰关联聚类方法,通过计算序列间距离矩阵的最短路径来度量相似程度,最终完成序列的灰关联聚类.该方法无需对序列数据进行人工干预,具有更强的鲁棒性.实验结果表明,在处理不同长度数据序列时,聚类结果更为准确.  相似文献   

10.
近邻传播(Affinity Propagation,AP)聚类是基于数据点间消息传递的算法,主要通过数据间的相似度实现聚类.与传统的聚类方法相比,AP聚类无需事先给定聚类数目就可实现聚类,因此具有快速高效的优点,然而在处理高维复杂数据集时存在随着聚类效率提升而准确度不高的问题.为改善AP聚类算法的效率和精度,提出基于类内和类间距离的粗粒度并行AP聚类算法——IOCAP.首先引入粒度思想将初始数据集划分成多个子集;其次对各子集结合类内和类间距离进行相似度矩阵的改进计算,最后基于MapReduce模型实现改进后的并行AP聚类.在真实数据集上的实验表明,IOCAP算法在大数据集上有较好的适应性,能在保持AP聚类效果的同时有效地提升算法精度.  相似文献   

11.
针对绝大部分多变量决策树只能联合数值型属性,而不能直接为带有分类型属性数据集进行分类的问题,提出一种可联合多种类型属性的多变量决策树算法(CMDT).该算法通过统计各个分类型属性的属性值在各个类别或各个簇中的频率分布,来定义样本集合在分类型属性上的中心,以及样本到中心的距离.然后,使用加权k-means算法划分决策树中的非终端结点.使用这种结点划分方法构建的决策树可用于数值型数据、分类型数据以及混合型数据.实验结果表明,该算法建立的分类模型在各种类型的数据集上均获得比经典决策树算法更好的泛化正确率和更简洁的树结构.  相似文献   

12.
为解决传统模糊聚类迭代算法对初始化敏感,易陷入局部最优及处理高维数据时精度下降的问题,对基于马氏距离的模糊聚类算法(fuzzy c-means algorithm based on Mahalanobis distance,M-FCM)进行优化。将马氏距离代替欧氏距离,通过构造类内紧致度、类间分离度与类间清晰度结合的适应度函数,利用粒子群优化算法(particle swarm optimization,PSO)对马氏距离模糊聚类进行研究,提出了基于粒子群优化的马氏距离模糊聚类算法(Mahalanobis distance fuzzy clustering algorithm based on particle swarm optimization,DPSOM-FCM),并将此新算法与FCM(fuzzy c-means algorithm),M-FCM,PSO-FCM,IFPSOFCM(importance for fuzzy clustering algorithm based on particle swarm optimization)算法,在UCI(university of californiairvine)数据库的6个标准数据集上进行实验对比分析。结果表明,DPSOM-FCM算法具有算法收敛性和聚类有效性,并且聚类精确度优于其他算法,对高维数据的聚类识别能力强,即该算法具有全局优化作用。  相似文献   

13.
-多样性(I-diversity)模型采用传统基于概念层次结构的数据概化策略,在对敏感属性进行匿名保护时往往会造成不必要的信息损失。针对这一问题,将聚类技术引入数据匿名中,提出一种基于聚类的I-diversity匿名保护方法。该方法在满足I-diversity模型的约束条件下,采用基于距离的层次化聚类算法划分元组,对不同类型的准标识符使用不同的概化策略,并依据数据概化前后属性值不确定性程度的变化描述数据概化带来的信息损失。同现有的I-diversity模型相比,该方法能较好地保护用户的敏感属性,并且在一定程度上降低了概化处理带来的信息损失。  相似文献   

14.
时空聚类(spatial-temporal density based spatial clustering of applications with noise,ST-DBSCAN)算法只能处理固定属性的时空数据,且其人为设定阈值的方法具有较大随机性会导致聚类结果不理想.基于ST-DBSCAN算法存在的不足,提出了一种改进的多属性时空聚类算法.改进后的新算法采用绘制时空对象距离频数柱状图来设定自适应阈值,通过引入Gower相似系数、Dice相似系数与欧几里德距离来构建多属性相似度模型,计算多个事务对象之间属性特征的相似度大小,从而将ST-DBSCAN时空聚类算法扩展到更多属性的时空数据聚类分析中.以北京市计算机行业职位招聘信息数据进行实验仿真,实验结果表明,新提出的阈值设定方法可以有效识别部分低密度簇,提高聚类的准确性和有效性;改进后的算法具有较好的普适性与包容性,能对多属性的时空数据进行很好的聚类分析.  相似文献   

15.
乔瀚  容芷君  许莹  但斌斌  赵慧 《科学技术与工程》2021,21(36):15497-15502
考虑样本数据集的差异性和相关性对疾病预测结果有着直接影响,提出一种基于多特征属性患者相似的糖尿病早期预测方法,根据患者之间特征具有相似性这一特点,对患者特征进行混合属性相似预分组,再把分组结果导入随机森林分类器进行疾病预测。首先以临床概念作为患者的特征项,通过聚类定量化分析不同特征属性类型间的距离来度量患者之间的混合相似度,根据患者混合相似度将患者集预分组为多个患者相似组。最后以随机森林分类器对相似组进行细分类,得到最终的疾病预测结果,该结果与基于全样本数据的随机森林分类结果相比,分类准确率提高了8.3%;与基于单一属性相似组的随机森林分类结果相比,分类准确率提高了5.1%。结果表明该方法具有较高的预测准确率,可为糖尿病诊断预测提供支持。  相似文献   

16.
邓青  薛青  杜楠  付朝博 《科学技术与工程》2021,21(27):11674-11680
离散化是装备模拟训练系统数据预处理的重要组成部分。针对传统数据离散化方法对单个属性依次处理,往往忽视属性间的相关性,造成装备模拟训练系统数据离散化后的误差。提出基于层次聚类和相容度的数据离散化方法。采用逐层泛化构建离散化总体框架,完成对装备模拟训练系统数据混合型决策表处理。设计动态确定簇数的层次聚类,实现对属性的初始整体划分;结合类别属性信息和相容度合并相邻区间,去除冗余的离散划分。实验结果表明,基于层次聚类和相容度的数据离散化方法在区间总数、精度方面有明显优势。  相似文献   

17.
传统K-means聚类算法通过欧式距离计算样本的相似度,将数据所有的属性特征均平等对待,忽略每个属性特征的不同贡献,导致样本相似度计算的准确率不高。针对这个不足,提出一种特征加权的K-means算法进行优化。首先,运用Softmax和Sigmoid逻辑回归函数计算特征权重,使得加权的欧式距离更能准确地表示样本相似度;其次,优化初始聚类中心选择策略,选择距离较大的K个样本作为初始聚类中心,可有效避免样本的错误聚类及空簇问题。实验结果表明,在UCI标准数据集中采用加权K-means聚类算法可以有效减少迭代次数,提高聚类的准确率、精确率和召回率。  相似文献   

18.
针对现有的不完全数模糊聚类算法未考虑样本各维属性对聚类贡献不同的问题,提出了基于属性加权的不完全数模糊c均值聚类算法.利用ReliefF算法评价各维属性的重要程度,通过加权欧式距离将属性权重结合入聚类,并能实现在聚类迭代过程中的缺失属性、隶属度及聚类中心的一体化求解.实验结果表明,该算法强调了重要属性在不完全数模糊聚类中的作用,能够得到更为准确的聚类结果.  相似文献   

19.
To the problem that it is hard to determine the clustering number and the abnormal points by using the clustering validity function, an effective clustering partition model based on the genetic algorithm is built in this paper. The solution to the problem is formed by the combination of the clustering partition and the encoding samples, and the fitness function is defined by the distances among and within clusters. The clustering number and the samples in each cluster are determined and the abnormal points are distinguished by implementing the triple random crossover operator and the mutation. Based on the known sample data, the results of the novel method and the clustering validity function are compared. Numerical experiments are given and the results show that the novel method is more effective.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号