首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对传统FCM算法无法获得令人满意的聚类结果的问题,提出了基于样本与特征双加权的自适应FCM聚类算法。采用特征和样本双加权的策略,以特征权重信息熵作为代价函数,与样本权重、特征权重相融合,通过迭代优化的方法动态计算各属性特征对不同类别的权重系数、每个样本对聚类的重要性权重值,综合考虑各个样本的贡献度和各个特征的重要性,从而达到提高聚类结果质量的目的。使用5个来自UCI的标准机器学习数据集,对聚类算法的有效性进行验证。结果表明,对于具有不同样本贡献度和不同特征重要性的数据集,提出的算法具有较好的聚类效果。  相似文献   

2.
通过对基因表达数据的聚类分析能够较快地发现肿瘤细胞,较为准确快速地诊断疾病。本文在稀疏主成分的基础上,研究了基于稳定稀疏主成分的基因表达数据聚类分析方法的问题。改进的方法主要应用于解决稀疏主成分的Lasso方法在高维度中缺乏变量选择的一致性。使用直接聚类、主成分聚类、稀疏主成分、稳定稀疏主成分四种聚类方法对2个基因表达数据进行K均值聚类和层次聚类,比较方法的准确率,验证了基于稳定稀疏主成分的基因表达数据的聚类分析方法的准确度更高。  相似文献   

3.
提出一种样本之间相似系数确定的方法,用相似度矩阵替代传统的相似矩阵,近而确定初始聚类中心.在FCM法中引入了指标权重,并给出了迭代公式和相应算法.将改进后的FCM法应用到煤炭城市分类的实例中去,聚类结果对处在经济转型时期的煤炭城市相互借鉴发展有一定的参考价值.  相似文献   

4.
缺失数据处理通常基于统计学的方法,在数据预处理阶段对缺失值进行填补,其效率和准确性并不高。因此,提出了一种基于模糊C均值(FCM)聚类的嵌入式填充方法(FCMSI)。此算法通过平均比率法(ARM)对稀疏数据进行初始化填充;采用局部距离策略对FCM进行改进,并对数据进行聚类;将缺失数据作为变量,在每次聚类迭代后的簇内采用协同过滤(CF)的思想对变量值进行替换,直到结果收敛。利用UCI标准数据集进行对比实验,并采用三种不同评价指标衡量,验证了FCMSI方法比传统填充方法性能显著提高。  相似文献   

5.
为有效解决传统K-means聚类算法在处理大规模数据集时面临的扩展性问题,提出了一种Hadoop K-means聚类算法.该算法首先根据样本密度剔除数据集中孤立点或者噪声点的影响,再利用最大化最小距离思想选取K个初始中心,使初始聚簇中心点最优化,最后用Hadoop云计算平台的Map Reduce编程模型实现算法的并行化.实验结果表明,该算法不仅在聚类结果上具有较高的准确率和稳定性,而且能够很好地解决传统聚类算法在处理大规模数据时所面临的扩展性问题.  相似文献   

6.
为了提升分类模型对非平衡数据的分类性能,提出一种EMWRS(expectation-maximization weighted resampling)抽样算法和WCELoss(weighted cross entropy loss function)损失函数,在数据预处理阶段采用高斯混合模型得知数据分布特点,根据其聚类结果分析每个聚类簇中样本权重,以及样本分布和对应权重对数据进行采样,降低数据集不平衡程度;再依据样本比例权重对少数类和多数类赋予不同的代价损失,构建卷积神经网络模型,提高非平衡数据集的分类准确性。构建的卷积神经网络以F1和G-mean为评价指标,在UCI(university of California irvine)公共数据集adult上与SMOTE(synthetic minority over-sampling technique)和ADASYN(adaptive synthetic sampling)等多种经典算法进行比较,结果显示在这两种评价指标中所提模型均为第一,这表明改进后的卷积神经网络模型能够很好地提高少数类分类正确率。  相似文献   

7.
基于分层聚类的k-means算法   总被引:8,自引:0,他引:8  
为了更好地实现聚类,在分析分层聚类和k-means算法优缺点的基础上提出了一种改进的聚类算法.改进算法将分层聚类和k-means聚类算法的优点相结合,首先采用分层聚类,得到一个初始的聚类结果,然后应用k-means聚类算法继续聚类.实验结果表明,改进算法较原先传统的聚类算法,不但算法执行速度快、效率高,而且聚类效果也比较好。  相似文献   

8.
Web日志模糊聚类算法的研究   总被引:3,自引:0,他引:3  
本文提出了一种新的Web事务模糊聚类算法.给出了新的Web事务定义和相异度定义,聚类准则函数是所有样本与C个代表中心的相异度之和,我们的目标是使这个聚类准则函数最小.同时给出了改进算法.经过试验证明,改进的算法更有效.  相似文献   

9.
鉴于网络入侵检测数据样本特征属性的异构性及贡献率不同,提出一种加权特征的异构数据相似性度量法来反应网络数据样本间的相似程度.针对基于模糊C-均值聚类的网络入侵检测算法聚类数目难以确定的问题,提出了一种自动确定最佳聚类数的无监督模糊聚类入侵检测算法.通过KDDcup1999数据集的仿真对比实验,结果表明本文算法能找到最佳...  相似文献   

10.
KNN算法通过近邻样本的个数分类,Entropy-KNN算法给出新的相似度定义,而且投票时综合待测样本与近邻样本的个数和各类近邻的平均距离,但两种算法均未考虑近邻样本间的相似.提出的基于层次聚类法的Entropy-KNN算法,首先对训练集按类别进行层次聚类,接着在与待测样本最相似的子类中选取近邻样本,使得近邻样本具有较高的相似度,最后结合Entropy-KNN算法进行分类.在蘑菇数据集上的实验结果表明,该算法的分类准确率高于Entropy-KNN算法.  相似文献   

11.
脑核磁共振图像常常受到噪声的影响,且有灰度不均、边界模糊的特点,使得传统聚类算法无法获得理想的脑部肿瘤分割结果,为此提出一种基于边缘保持滤波和改进核模糊聚类的脑肿瘤图像分割方法.该方法首先采用改进的引导滤波算法对图像进行预处理,解决平滑图像时不能保留图像边缘的问题;然后将传统核模糊C-均值聚类算法(Kernel fuz...  相似文献   

12.
由于高光谱图像异常检测受到不规则背景和噪声的干扰,直接应用传统的RX异常检测算法会造成很高的虚警和很大的运算量.针对这一问题,提出了一种基于判别子空间的结合多窗口融合的RX算法.首先在无先验信息的前提下采用聚类的方式得到样本类别,并对占优聚类样本进行判别特征提取;然后利用正交子空间投影使背景和目标信息达到最大程度的分离以实现对背景的抑制,从而在抑制背景的基础上利用局部多窗口融合的RX算法进行异常检测;最后将AUC值作为评价检测方法性能的指标. NUANCE和HYDICE高光谱数据异常目标检测实验的AUC值统计结果表明:多窗口融合算法在检测性能方面优于经典的全局和局部RX算法,它对背景和噪声有更强的抑制作用,且检测到的异常目标精确,可见该算法是有效而可行的.  相似文献   

13.
聚类是通过数据标签或者属性,将一系列经验数据按照相似性或者相近性进行归类.基于密度属性展开的聚类算法,主要聚焦在聚类中心的确定和剩余点如何分配的问题上展开讨论.针对基于密度峰值的可训练最短路径算法,通过密度峰值确定聚类中心,提出使用截断阈值、对路径图进行剪枝的算法改进.然后基于最短路径法对剩余点进行全局分配.实验结果证明,在保持聚类精度的同时,有效地提升了算法执行效率.  相似文献   

14.
大规模高维数据集的聚类算法已成为当前聚类研究的热点,由于高维的原因,聚类往往隐藏在数据空间的某些子空间中,传统的聚类算法无法获得有意义的聚类结果.此外,高维数据中含有的大量的随机噪声也会带来额外的效率问题.为了解决以上问题,该文在CLIQUE算法的基础上提出了一种基于最优区间分割和数据集划分的聚类算法—OpCluster,并使用仿真数据对该算法加以验证,实验结果表明,OpCluster对大规模高维数据集具有很好的聚类效果.  相似文献   

15.
16.
为了处理大量分布式存储的农业环境数据,提高农业生产效率,对高斯混合模型聚类算法进行了改进,提出了一种基于分布式聚类的农业环境数据异常检测方法.在Spark分布式计算框架下,首先对数据进行粗聚类,得到初始化模型;然后利用Spark迭代更新模型直至稳定,其中Map阶段将样本点分配到模型,Reduce阶段更新模型个数及参数;最后利用聚类结果,实现环境异常值的检测.实验结果表明该方法可行有效.  相似文献   

17.
结合现实中数据表现出复杂的多流形特点,对多流形假设下的学习算法进行了研究。利用多种聚类算法对不同类型的数据进行聚类分析,得出每种数据类型下的最优聚类方法。仿真结果表明,采用规范化切割谱聚类方法可将独立子空间高维数据成功分类;SSC算法对线性子空间聚类效果表现最佳;引入LLE的Ncut聚类算法和SMMC算法对于非线性数据的多流形聚类具有较好的效果;SSC算法和SMR算法对高维子空间聚类问题表现出较好的适用性。  相似文献   

18.
增量聚类算法可以解决数据量大、内存不足的问题.传统的增量式模糊聚类(incremental multiple medoids based fuzzy clustering, IMMFC)算法只为每个数据块选择一个或多个相同数目的中心,当聚类中的对象权重较小时聚类效果不好.该文提出新的增量式模糊聚类算法用于处理大数据集.首先将大数据集分成多个小的数据块,并对每个小的数据块进行模糊聚类;然后从每个小数据块的每个簇群中选择目标中心点,中心点的个数是簇群中对象的权重之和大于阈值的最少对象数.最后合并所有选定的中心点,并对最终数据块进行模糊聚类,获取最终的中心点.实验结果表明,与IMMFC算法相比,当数据块占总数据的10%以上时,所提算法优于IMMFC.  相似文献   

19.
图形聚类算法的代谢网络模块化分析   总被引:1,自引:0,他引:1  
代谢网络的研究是当今生物学研究中的新热点,使用图形聚类算法对代谢网络进行分析研究是一个有力的手段.文中提出了用图形聚类方法挖掘复杂代谢网络中蕴含的功能信息并进行模块相似性分析的方法,从系统生物学角度揭示光合作用的进化.介绍了马尔可夫聚类算法和模拟退火聚类算法两种图形聚类方法;给出了两种方法对叶绿体和蓝细菌的代谢网络进行聚类的结果;定义了模块相似度评价指标,挖掘叶绿体和蓝细菌间保守的功能模块,并对其网络结构进行了比较分析.  相似文献   

20.
当站点较多时,物流运输路径规划存在困难,传统Floyd算法路径规划的时间复杂度过高.鉴于传统Floyd算法规划时间复杂度高是因节点数量过大导致,提出一种结合改进K-means聚类算法的Floyd算法,该算法在节点数量较大情况下,运用改进K-means聚类算法分割物流区域,降低规划所需考虑节点数量,从而降低Floyd算法的时间复杂度.在复杂环境下进行传统Floyd算法和改进算法的对比实验,仿真分析结果表明,改进算法可以在更少的时间内找到一条较优的路径.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号