首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 231 毫秒
1.
非平衡数据集是指数据集中的某类样本数量远大于其他样本的数量。对于此类数据,类分布的不平衡会直接导致很多分类算法的失效。文中基于K-means聚类,Silhouette指标和M-近邻下采样提出一种新的数据平衡方法(K-S-M)。该方法首先用K-means算法对多数类样本进行多次聚类并选取最优聚类个数,然后采用M-近邻下采样对聚类后的数据进行采样,将采样后的点最终构成平衡数据,并对得到的平衡数据进行癫痫性发作的自动检测。实验结果表明,文中所提方法可以很好地处理非平衡数据,减少数据信息损失,同时可以提高非平衡数据分类的有效性。  相似文献   

2.
针对现有的不平衡数据处理方法存在不能有效处理分类型数据、盲目采样及抗噪声能力差等问题,提出一种基于k-modes聚类的不平衡数据混合采样算法HS_WODKM;首先提出一种基于加权重叠距离的k-modes聚类算法WODKM,然后采用改进的合成少数过采样技术(SMOTE)算法与WODKM分别对不平衡数据进行过采样与降采样处理,从而获得一种新的不平衡数据混合采样算法HS_WODKM;HS_WODKM采用增加正类样本并减少负类样本的混合采样策略解决样本类别不平衡问题,用来处理分类型数据,并且能够克服现有方法存在的抗噪能力差、删除重要样本等缺陷;为了验证HS_WODKM的性能,在多个分类型UCI数据集上进行实验。结果表明,采用HS_WODKM算法处理分类型不平衡数据是可行且有效的。  相似文献   

3.
针对临床路径决策分析聚类算法中聚类效果依赖于样本数据分布且处理数据效率低的问题,提出基于均衡分配方法的模糊K-means算法的临床路径决策方法.该算法利用文字数字化处理与加权计算来建立数据格式统一且关键属性突出的样本特征值矩阵;利用基于均衡分配方法的模糊K-means算法对上述样本进行聚类分析,得到最终的聚类中心与聚类结果,以此辅助医生进行临床路径决策.采用ECLIPSE编程进行仿真,与传统模糊K-means算法和基于减法聚类的FCM算法相比,采用该算法的迭代时间分别降低了26%与70%,迭代次数分别减少了33%和82%,平均目标函数最小值分别减小了32%和28%.实验表明,该算法能够有效降低聚类效果对于样本数据分布的依赖,同时数据聚类效率与质量也有显著的提高.  相似文献   

4.
针对SMOTE算法和随机森林可较好解决不平衡数据集的分类问题但对少数类样本分类效果还有待提高的问题,融合Canopy和K-means两种聚类算法,设计了C-K-SMOTE改进算法。先后利用Canopy算法进行快速近似聚类,再利用K-means算法进行精准聚类,得到精准聚类簇,最后利用SMOTE算法增加少数类样本数量,使数据趋于平衡。选取公开数据集KEEL(knowledge extraction on evolutionary learning)数据库中的不平衡数据集,结合随机森林分类模型进行了实验验证,实验表明C-K-SMOTE算法可有效平衡不平衡数据集。  相似文献   

5.
梁卓灵  元昌安  覃晓 《广西科学》2020,27(6):616-621
为改善交通拥堵的情况,本文利用聚类分析方法对移动轨迹数据进行挖掘,识别居民出行的热点区域。传统的Ng-Jordan-Weiss (NJW)谱聚类算法常使用K-means聚类算法来实现最后的聚类操作,然而K-means聚类算法存在对初始值敏感、容易陷入局部最优的缺陷,影响对热点区域的挖掘结果。因此,本研究将方差优化初始中心的K-medoids聚类算法运用到谱聚类算法最后聚类阶段,提出基于方差优化谱聚类的热点区域挖掘算法(Hot Region Mining algorithm based on improved K-medoids Spectral Clustering,HRM-KSC),然后在真实的轨迹数据集上进行试验。试验结果发现,HRM-KSC算法聚类结果的轮廓系数更高,表明HRM-KSC算法改善了NJW谱聚类算法,提高了聚类质量。  相似文献   

6.
基于K-means聚类和遗传算法的少数类样本采样方法研究   总被引:1,自引:0,他引:1  
传统的分类器对不均衡数据集的分类严重倾向于多数类.为了有效地提高不均衡数据集中少数类的分类性能,针对此问题提出了一种基于K-means聚类和遗传算法的少数类样本采样方法.通过K-means算法将少数类样本聚类分组,在每个聚类内使用遗传算法获取新样本并进行有效性验证,最后通过使用KNN和SVM分类器,在仿真实验中证明了方法的有效性.  相似文献   

7.
K-means算法普遍应用在数据聚类分析,然而K-means算法具有不稳定性等缺陷,缺乏有效的降维能力,面对大量高维体检数据时聚类效果不佳.针对该问题,文中提出了一种基于FOA与Autoencoder的聚类改进算法,将K-means算法和Autoencoder模型结合,使用Antoencoder进行数据降维,并采用变步长果蝇优化算法的变减步长策略对Autoencoder的权重和偏移初始化方法进行改进.该算法可提高对健康体检数据聚类分析的准确度和效率,聚类轮廓系数也大幅提升,该算法应用于居民健康状况分析、疾病预测等方面表现出了较高的效率.  相似文献   

8.
杜娟 《科学技术与工程》2011,11(12):2680-2685
传统的K-最邻近(K Nearest Neighbor,KNN)分类算法在处理不均衡样本数据时,其分类器预测倾向于多数类,少数类分类误差大。针对此问题从数据层的角度改进了传统的KNN算法。先通过K-means聚类算法将少数类样本聚类分组,将每个聚类内的样本作为遗传算法的初始种群;再使用遗传交叉和变异操作获取新样本,并进行有效性验证。最终获取到各类别样本数量基本均衡的训练样本集合。实验结果表明此方法有效改善了KNN算法对少数类分类效果。此法同时适用于其他关注少数类分类精度的不均衡数据集分类问题。  相似文献   

9.
采用少类样本合成过采样技术(SMOTE)与二叉树多类支持向量机(BTSVM)相结合的入侵检测算法来解决实际应用中经常遇到的类别不平衡的分类问题.该方法首先对不平衡类别的训练集使用BTSVM分类,然后对求出各分类器中的支持向量使用SMOTE方法进行向上采样,最后用不平衡类别的测试集在新的分类模型中进行测试.实验结果表明本算法能够有效地提高不平衡数据集的分类性能.  相似文献   

10.
针对入侵检测中少数类异常数据的检测精度较低的问题,提出基于支持向量聚类的不平衡数据无监督检测算法.方法采用支持向量聚类对所有未知样本进行聚类,根据不同类别样本内在属性的差异,用改进的重抽样方法选择样本,平衡数据集的分布,对新的数据集进行学习.经过KDD99的测试表明,该方法能有效检测出少数类样本.  相似文献   

11.
Isomap在基因表达谱数据聚类分析中的应用   总被引:8,自引:0,他引:8  
基因表达谱数据的聚类分析对于研究基因功能和基因调控机制有重要意义。基于非线性降维算法等容特征映射 ,提出了一种新的大规模基因表达谱数据聚类算法 ,该方法改进了样本向量之间的距离度量 ,用测地距离代替传统的欧式距离 ,有助于挖掘高维数据内在的几何结构。将该算法应用于两个公开的基因表达数据集 ,并用一种新的评价方法Normalized Cut将聚类结果与其他聚类方法的结果进行了比较。结果表明 ,该文的聚类算法优于其他聚类算法 ,聚类结果具有明显的生物学意义 ,并能对数据的类别数作出较好的预测和评估  相似文献   

12.
K-means算法以其简单、快速的特点在现实生活中得到广泛应用.然而传统Kmeans算法容易受到噪声的影响,导致聚类结果不稳定,聚类精度不高.针对这个问题,提出一种基于离群点检测的K-means算法,首先检测出数据集中的离群点,在选择初始种子的时候,避免选择离群点作为初始种子.然后在对非离群点进行聚类完成后,根据离群点到各个聚类的距离,将离群点划分到相应的聚类中.算法有效降低离群点对K-means算法的影响,提高聚类结果的准确率.实验表明,在聚类类别数给定的前提下,在标准数据集UCI上该算法有效降低离群点对K-means算法的影响,提高了聚类的精确率和稳定性.  相似文献   

13.
杨莉云  颜远海 《河南科学》2019,37(4):507-513
孤立点的存在使聚类中心的计算产生较大误差,影响K-means算法的聚类效果.针对该问题,引入谢林模型,使孤立点能够自动移动到其邻居所在位置,消除孤立点,同时,对K-means算法过程中的距离计算、初始聚类中心选取环节进行改进,提出基于孤立点自适应的K-means算法.该算法首先对原始数据进行归一化处理,以提高距离计算的准确性;然后,根据谢林模型的基本思想,将孤立点移动到其最近的多邻邻居;接着,由类簇的数目确定邻居样本的搜索范围,确定初始聚类中心;最后,根据移动后的数据集和初始聚类中心,进行K-means聚类.在UCI机器学习数据库中经典聚类数据集上的实验结果表明,该算法可显著提升聚类的精度,同时,簇的内聚性也比较好.  相似文献   

14.
在基于解决单类问题的支持向量数据描述算法基础上提出了基于聚类分布信息的c-SVDD算法.该算法对带野值的SVDD算法中的C值重新定义.通过增加核空间下测试样本的聚类分布信息。为每个样本定义一个特定的c值.c-SVDD算法适应于解决类别不平衡学习问题.该算法在保证少类样本高分类精度前提下,还有效提高了全样本的分类精度,更符合现实不平衡问题中对少类样本的处理要求.对UCI数据集和人工样本集进行实验.改进后的c-SVDD算法比带野值的SVDD算法AUC值平均提高0.14以上;比AdaBoost算法在正类查全率上平均提高40%,精确度也提高了至少5%.  相似文献   

15.
传统的分类器对不均衡数据集的分类严重倾向于多数类。为了有效地提高不均衡数据集中少数类的分类性能,针对此问题提出了一种基于K-means聚类和遗传算法的少数类样本采样方法。通过K-means算法将少数类样本聚类分组,在每个聚类内使用遗传算法获取新样本并进行有效性验证,最后通过使用KNN和SVM分类器,在仿真实验中证明了方法的有效性。  相似文献   

16.
不完备数据聚类是聚类分析中的一个重要问题.现有的不完备数据聚类算法对缺失值仅填充一次进行聚类,没有充分利用数据的已知信息,致使填充效果不佳,影响了聚类的有效性.文章提出了一种基于动态填充的不完备数据聚类算法.首先利用均值填充法对缺失数据进行初始完备化,然后利用K-means算法对填充后的数据集进行聚类,同时用含缺失值对象所在类的类中心的相应属性值对其再次填充,直到聚类结果不再变化时停止.该算法在多个UCI数据集上进行了实验验证,结果表明算法是有效的.  相似文献   

17.
采用基于划分的空间聚类方法对地理要素进行聚类时,若仅考虑属性数据,得到与实际空间分布不相符的聚类结果。提出一种考虑空间对象属性特征和空间位置关系的谱聚类方法,首先,计算空间对象的局部离群指数,结合空间格局将样本中的异常点剔除,然后以空间临近为约束条件进行谱聚类分析。以包头地区土壤重金属形态数据为例进行聚类分析,分析结果表明:该方法能够克服谱聚类对初始聚类中心敏感的问题,既能反映属性特征数据的相似程度,又能反映对象的空间分布特性,对空间对象的聚类分析效果优于传统的谱聚类算法。  相似文献   

18.
冷泳林  张清辰  鲁富宇 《河南科学》2014,(11):2259-2262
数据采集过程中存在大量缺失数据,即不完整数据.传统方法在聚类不完整数据时采用填充或丢弃缺失数据方式实现数据的聚类.依据不完整信息系统理论提出一种基于K-means的不完整数据聚类算法,算法首先将数据集划分成完整数据集和非完整数据集两部分,对完整数据集采用K-means算法进行聚类,然后将不完整数据依据设计的相似度度量方法划分到对应的簇中,实现数据集的聚类.实验结果表明,提出的方法能够高效、精确地实现不完整数据聚类.  相似文献   

19.
提出一种新的稀疏谱聚类算法——基于PAM算法的HSSPAM聚类(high-dimensional sparse spectral clustering based on partitioning around medoids).该算法先用高相关系数过滤及主成分分析降维方法以有效减小甚至消除维度灾难对高维数据处理的影响,再采用Minkowski距离指数变换函数及稀疏化算法来构建分块对角矩阵以重新解释样本之间的相似度;然后构造新颖的拉普拉斯矩阵以实现进一步压缩数据矩阵,进而结合partitioning around medoids(PAM)算法取代传统谱聚类中的K-means算法对特征向量聚类以提高算法的聚类稳定性;最后引入高维基因数据设计了实验,并以不同的聚类评价指标来衡量该研究算法的聚类质量,实验结果表明,新算法能够更精确、更稳定地对基因数据聚类.  相似文献   

20.
采用结合模糊聚类和广义神经网络回归聚类分析的方法,对5种网络入侵行为模式进行有效的聚类.首先用模糊 c 均值聚类算法将入侵数据分为5类,再将聚类的结果中最靠近每类中心的样本作为广义神经网络的聚类训练样本进行数据训练,训练输出的结果即为该个体所属的入侵类别.实验结果表明:新算法对网络入侵途径的分类精度更高,可为预防网络入侵提供更可靠的数据支持  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号