首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 109 毫秒
1.
针对缺失数据的有效填充问题,提出利用模糊C-均值聚类(FCM)算法的隶属度矩阵作为待填数据的加权权重.首先使用同一属性均值对缺失数据作预填充,再进行FCM以得到每个类别的隶属度矩阵,最后用该矩阵作为权重去乘以每个类别的属性均值,得到最终的填充数据.在UCI数据实验中,将FCM填充算法与k近邻(KNN)填充算法作对比分析,结果表明,FCM填充得到的均方根误差总体小于KNN填充.  相似文献   

2.
为解决肿瘤基因表达谱数据后续研究需要完整数据矩阵的问题,针对包含缺失点的数据集。提出基于矩阵填充(matrix completion)与模糊C均值(fuzzy c-means algorithm,FCM)相结合的缺失点估计方法(FCM_MC)。该方法充分利用肿瘤基因表达谱数据的冗余信息,通过模糊C均值聚类得到具有良好的低秩特性的基因语义片段,再利用矩阵填充方法分别对每个语义片段进行缺失点的重建。在不同数据集上进行实验,与传统缺失点估计算法比较。实验表明FCM_MC算法在缺失数据估计准确度和类结构保持度上效果得到有效提升,同时运行效率较高。  相似文献   

3.
【目的】在没有先验知识的前提下,采用基于粒子群优化算法(PSO)的加权模糊C-均值(WFCM)聚类算法,从30多万条记录的医疗保险数据中挖掘出疑似医疗保险欺诈的记录。【方法】首先,引用改进的欧式距离、相似性函数以及交叉熵函数并通过PSO算法极小化交叉熵函数,对属性权重进行分析;其次,选取Calinski-Harabasz(CH)有效性指标,展开聚类有效性的研究;然后,基于数据预处理的结果将数据运用于PSO算法,不断更新得到各属性的权重,并运用聚类有效性评价中的CH有效性指标来动态估计最佳聚类个数,提高FCM聚类的速度;最后,将属性权重和最佳聚类数应用于FCM聚类算法,根据隶属度矩阵聚类得到疑似医疗保险欺诈结果。【结果】基于上述研究方法,本研究根据最后的隶属度矩阵来进行聚类分析。【结论】将优化的权重应用于加权FCM聚类算法与聚类有效性评价,既提高了聚类算法的高效性,又避免了主观评价对分类的影响。  相似文献   

4.
针对模糊C均值聚类(FCM)算法聚类原型最适合于球状类型簇的特点,提出了基于类间分离度和类内紧缩度加权的冗余聚类中心的FCM算法,即先将大簇或者延伸形状的簇(非凸)采用加权FCM算法分割成多个小类(冗余类),从而规避FCM算法对初始聚类中心敏感的弱点.由于隶属度划分矩阵的元素是每个样本隶属于各冗余类的隶属度值,因此将其作为各冗余类的类特征,通过对应分析得到冗余类的新特征,再次采用加权FCM算法进行冗余类合并,最后达到分类效果.以代表曲线分割和曲面分割分类问题的3个典型数据集为算例,结果表明该方法能够识别不规则的簇,解决了FCM算法对初始聚类中心敏感的缺陷.  相似文献   

5.
为了在多维聚类分析中运用有效距离度量方法表征数据对象的邻近度,提出一种协方差测距(covariance distance measure analysis,CDM)算法,首先,采用模糊C均值(fuzzy c-means,FCM)方法对数据对象赋予权值,得到每个样本点相对类别特征的隶属度,再依据隶属度计算每个样本的差异度;其次,为了使类别分离最大化,用样本点同关联类别的协方差距离度量代替模糊聚类中欧式距离度量作为优化问题的第一个标准,使相似数据对象更为接近;最后,用样本点间的协方差距离度量作为第二个优化标准,使相异数据相互隔开,交替固定变量迭代计算最优解,使聚类指标和距离度量学习参数同时得到优化,获得更好的聚类结果。在不同数据集上的实验结果表明,与FCM-Sig和UNCA算法相比,CDM算法在聚类准确性和算法收敛性方面均有更好表现。  相似文献   

6.
模糊C均值聚类算法(FCM)是一种比较有代表性的模糊聚类算法,主要是通过迭代更新聚类中心和隶属度矩阵,使目标函数值达到最小.FCM算法还有很多缺陷和不足,其中最主要的就是选取不同的初始中心,会得到不同的聚类结果,影响到聚类的稳定性和准确率.本文对要聚类的数据集采用数据分区技术进行预处理,根据物质质心的定义及质心运动原理...  相似文献   

7.
模糊C均值聚类算法(FCM)由于样本模糊隶属度归一性的约束,导致FCM算法对噪声数据敏感。提出松弛模糊C均值聚类算法(RFCM),RFCM算法在可能性C均值聚类算法(PCM)目标函数的基础上,放弃了FCM算法单个样本模糊隶属度归一化约束,转为n个样本模糊隶属度之和为n的约束;并利用粒子群算法对样本模糊隶属度进行优化估计,使得模糊指标可拓展为m0的情况,同时采用梯度法得到RFCM算法聚类中心迭代公式。RFCM理论分析了算法对噪声数据抗噪的原理,解释了RFCM算法模糊指标m0的合理性,讨论了RFCM算法的收敛性。基于Gauss数据集和UCI数据集的仿真测试验证了所提出算法的有效性。  相似文献   

8.
模糊c均值聚类算法(FCM)由于样本模糊隶属度归一性的约束,导致FCM算法对噪声数据敏感。提出松弛模糊C均值聚类算法(RFCM),RFCM算法在可能性c均值聚类算法(PCM)目标函数的基础上,放弃了FCM算法单个样本模糊隶属度归一化约束,转为n个样本模糊隶属度之和为n的约束,并利用粒子群算法对样本模糊隶属度进行优化估计,使得模糊指标可拓展为m>0的情况,同时采用梯度法得到RFCM算法聚类中心迭代公式。RFCM理论分析了算法对噪声数据抗噪的原理,解释了RFCM算法模糊指标m>0的合理性,讨论了RFCM算法的收敛性。基于gauss数据集和UCI数据集的仿真测试验证了所提出算法的有效性。  相似文献   

9.
传统基于概率分布的不完整数据聚类填充算法,未综合分析数据对象的类别属性,数据填充效率和精度较低。因此,本文提出一种新的聚类填充算法,利用近邻传播(AP)算法聚类不完整数据,采用元祖相似度算法对不同类别的不完整数据实施填充。通过数据挖掘方法获取多类别不完整云计算网络系统中的加权关联规则,实施常规缺失数据的填充,采用数据推荐筛选方案实施元组相似度运算,完成异常缺失数据的填充,最终获取完整的云计算网络数据集,提高云计算网络数据的有效利用率。实验表明,本文设计的聚类填充算法具有较高的填充效率和精度。  相似文献   

10.
基于传统的模糊聚类算法(C-means、FCM),在高斯隶属度函数的基础上给出了包含性指标的定义,提出了基于高斯隶属度的包容性指标模糊聚类算法(fuzzy inclusion-based clustering,FIC)。该方法通过获取高斯隶属度函数的包含性指标,为每个分类确定一个支持距离的半定性矩阵,来保证每个分类到所有数据类的距离和与所有数据类包含度的总和一致。通过UCI中Wine数据集进行了仿真实验,实验结果表明与FCM算法相比较,FIC算法具有更好的有效性和可行性。  相似文献   

11.
针对现有的不完全数模糊聚类算法未考虑样本各维属性对聚类贡献不同的问题,提出了基于属性加权的不完全数模糊c均值聚类算法.利用ReliefF算法评价各维属性的重要程度,通过加权欧式距离将属性权重结合入聚类,并能实现在聚类迭代过程中的缺失属性、隶属度及聚类中心的一体化求解.实验结果表明,该算法强调了重要属性在不完全数模糊聚类中的作用,能够得到更为准确的聚类结果.  相似文献   

12.
提出了一种基于训练集中已有类别的数学期望的分类算法,该算法先将离散属性值映射为相应的数值,并计算各类别中各属性的数学期望,以各类别中各属性的数学期望为坐标,当有新的数据需要进行类别判定时,只要以新数据的属性为坐标,求取其到各个类别的距离,距离最短的类别即为该数据所属类别。该算法不受属性离散性及类别个数限制,可用于属性类别不统一(既有离散型属性,又有连续型属性),且所属类别数较多的分类情况。  相似文献   

13.
相对于模糊C均值算法,可能性C均值(PCM)聚类方法具有更好的抗干扰能力.提出一种基于二维直方图的改进的PCM聚类图像分割方法,该方法除了考虑图像的点灰度信息外,还考虑像素点的邻域相关信息,利用改进的PCM聚类算法得到各象素点的隶属度对图像进行分割.实验表明,该方法能够对噪声图像有效地进行分割,具有较高的鲁棒性.  相似文献   

14.
一种基于特征加权的K Nearest Neighbor算法   总被引:1,自引:0,他引:1  
传统的KNN算法一般采用欧式距离公式度量两样本间的距离.由于在实际样本数据集合中每一个属性对样本的贡献作用是不尽相同的,通常采用加权欧式距离公式.笔者提出一种计算权重的方法,即基于特征加权KNN算法.经实验证明,该算法与经典的赋权算法相比具有较好的分类效果.  相似文献   

15.
针对目前缺失数据填充算法精度低、运行效率低、内存占用率大的特点,提出一种新的不同类别非完整大数据中缺失数据填充算法。通过2个定理阐述了缺失数据填充算法的原理,给出信息熵的计算过程。输入根据数据集构建的决策表和不同类别非完整大数据中缺失数据的最大值、最小值、填充步长。求出其他类指标和某类指标的相关性,得到数据集,求出权重系数;计算初始数据库的信息熵,通过相关理论或经验对缺失数据区间下限进行设定;用一个很小的区间数据取代缺失数据,根据给出的步长不断扩大区间范围,绘制出每一步信息熵状况,将其与初始数据库信息熵相比,实现缺失数据填充。实验结果表明,所提算法精度高、运行效率高、内存占用率低。  相似文献   

16.
针对数据预处理中的遗失值填充问题,运用策略模式设计了一种可扩展的遗失值填充算法;构造了SimpleImputation,KNNImputation和DTBImputation 3个具体的策略类,分别封装了简单遗失值填充算法、KNN遗失值填充算法以及DTB遗失值填充算法.实验结果表明:简单填充算法执行速度最快但精度最低,DTB算法执行速度较慢但精度较高,KNN算法执行速度最慢但精度最高.该算法允许用户根据自身对速度和精度的需求来选取相应的填充算法,并通过添加新策略类的方式来扩展其遗失值填充功能,从而解决了遗失值造成的数据质量问题,提高了数据预处理程序的通用性和可扩展性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号