首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
基于K-means聚类和遗传算法的少数类样本采样方法研究   总被引:1,自引:0,他引:1  
传统的分类器对不均衡数据集的分类严重倾向于多数类.为了有效地提高不均衡数据集中少数类的分类性能,针对此问题提出了一种基于K-means聚类和遗传算法的少数类样本采样方法.通过K-means算法将少数类样本聚类分组,在每个聚类内使用遗传算法获取新样本并进行有效性验证,最后通过使用KNN和SVM分类器,在仿真实验中证明了方法的有效性.  相似文献   

2.
传统的分类算法大多假设数据集是均衡的,追求整体的分类精度.而实际数据集经常是不均衡的,因此传统的分类算法在处理实际数据集时容易导致少数类样本有较高的分类错误率.现有针对不均衡数据集改进的分类方法主要有两类:一类是进行数据层面的改进,用过采样或欠采样的方法增加少数类数据或减少多数类数据;另一个是进行算法层面的改进.本文在原有的基于聚类的欠采样方法和集成学习方法的基础上,采用两种方法相结合的思想,对不均衡数据进行分类.即先在数据处理阶段采用基于聚类的欠采样方法形成均衡数据集,然后用AdaBoost集成算法对新的数据集进行分类训练,并在算法集成过程中引用权重来区分少数类数据和多数类数据对计算集成学习错误率的贡献,进而使算法更关注少数数据类,提高少数类数据的分类精度.  相似文献   

3.
非平衡数据分析是数据领域的重要问题之一,其类间分布的巨大差异给聚类方法带来严峻挑战.围绕非平衡数据聚类问题,分析了非平衡数据对模糊聚类方法的影响,提出了基于密度感知的模糊聚类方法.方法将数据分布密度特征嵌入模糊聚类初始化过程中,用于定位初始聚类中心点,避免了少数类中心点位置的消失,在此基础上进一步设计了基于密度的模糊聚类优化更新方法.经数据集分析验证,本研究方法能够有效解决非平衡数据分类中少数类消失问题,并且在聚类算法性能上比传统方法有明显提高.  相似文献   

4.
一种基于密度的启发性群体智能聚类算法   总被引:3,自引:0,他引:3  
提出一种基于密度的启发性群体智能聚类算法.针对以往群体智能聚类算法中分类错误率较高、算法运行时间较长等不足,提出记忆体方法和基于密度的先行(look ahead)策略.用人工数据集和真实数据集进行实验,将实验结果进行比较分析.分析结果表明,基于密度的启发性群体智能聚类算法能够得到令人满意的聚类结果,其分类错误率和运行时间明显小于其它聚类算法.  相似文献   

5.
将神经网络与数据集的密度指标结合起来提出一种山峰-减法聚类神经网络方法,利用数据集的密度指标对基类进行合并,并不断重复直至产生足够多的聚类中心,就可完成对聚类神经元的学习。给出该聚类的神经元模型和学习算法。该方法的主要优点是对于工程应用中的大样本集分类和重叠数据的模式分类问题,显得非常有效。  相似文献   

6.
针对不平衡数据集的低分类准确性,提出基于蚁群聚类改进的SMOTE不平衡数据过采样算法ACC-SMOTE。一方面利用改进的蚁群聚类算法将少数类样本划分为不同的子簇,充分考虑类间与类内数据的不平衡,根据子簇所占样本的比例运用SMOTE算法进行过采样,从而降低类内数据的不平衡度;另一方面对过采样后的少数类样本采用Tomek Links数据清理技术进行及时修正,清除数据集中的噪声和抽样方法产生的重叠样例,从而保证合成样本的质量。本文所用训练数据集和测试数据集均为UCI数据集。实验结果表明本算法可以明显提高不平衡数据集的分类精度,从而提高分类器的分类性能。  相似文献   

7.
提出一种基于单维分割的高维数据聚类算法HDCA_SDP, 该算法利用单维空间能划分数据的性质,对整个数据集进行逐维聚类,解决了传统聚类算法带来的维度困扰问题,对数据集大小和数据空间维数具有良好的可伸缩性,且聚类结果的精度比传统的高维聚类算法有较大的提高. 实验结果表明,该算法在处理高维大规模数据时是有效的.  相似文献   

8.
针对粗糙模糊C均值聚类的阈值、权重选取问题,提出了一种基于不确定性度量的参数自适应获取方法.该方法将阈值选取归结为一个最优划分寻找问题,给出一种基于方差的划分优劣评价方法;利用信息熵来度量样本归属的模糊性,基于该模糊性度量和类簇的粗糙度,提出了一种权重参数自适应计算方法.将所提方法应用于粗糙模糊C均值聚类,并将分别基于所提方法与典型参数选取方法的粗糙模糊C均值聚类算法在人工数据集和真实数据集上进行实验比较.结果表明,基于所提参数确定方法的粗糙模糊C均值聚类能获得更好的聚类有效性和准确性.  相似文献   

9.
传统的分类器对不均衡数据集的分类严重倾向于多数类。为了有效地提高不均衡数据集中少数类的分类性能,针对此问题提出了一种基于K-means聚类和遗传算法的少数类样本采样方法。通过K-means算法将少数类样本聚类分组,在每个聚类内使用遗传算法获取新样本并进行有效性验证,最后通过使用KNN和SVM分类器,在仿真实验中证明了方法的有效性。  相似文献   

10.
针对入侵检测中少数类异常数据的检测精度较低的问题,提出基于支持向量聚类的不平衡数据无监督检测算法.方法采用支持向量聚类对所有未知样本进行聚类,根据不同类别样本内在属性的差异,用改进的重抽样方法选择样本,平衡数据集的分布,对新的数据集进行学习.经过KDD99的测试表明,该方法能有效检测出少数类样本.  相似文献   

11.
稀有类是数据挖掘中一个重要研究课题。将入侵检测作为稀有类来考虑,阐述了现有的稀有类算法,将基于Boosting的成本敏感的朴素贝叶斯算法引入到入侵检测中,经过试验验证该算法与传统分类算法相比具有很大的优势。  相似文献   

12.
朴素贝叶斯模型具有的简单性和有效性,使其在诸多问题领域表现出优良的性能,但其属性条件独立性假设在实际应用中难以成立.而属性加权是降低属性条件独立性假设对分类器性能影响的主要途径.传统建立在整个数据集上的单一全局模型忽略了每个测试实例所具有的特点,同时从整个训练集上学习到的属性权重并不能准确反映每个属性对待分类实例的影响.为此提出一种基于数据驱动的懒惰式局部属性加权方法,它在每个测试实例的近邻集合上学习属性权重,并通过最优化方法建立相应的局部属性加权朴素贝叶斯模型.实验结果表明:和当前常见的准朴素贝叶斯模型相比,本文模型具有较高的分类准确率.  相似文献   

13.
为了提取一个类标区别于其他类标的本质特征,增强类标数据集的可解释性,提出了一种面向主属性值的类标特征分析方法.该方法首先建立了一种直观的面向主属性值的类标特征模型,然后设计了对应的类标特征抽取算法,最后给出了一种基于类标特征分析的分类算法.实验结果表明:所建立的类标特征模型能够直观、有效地描述类标数据集中各类标的特征,给出的类标特征抽取算法有较高的执行性能,提出的分类算法在针对类标较少的数据集时有较高的分类准确率.  相似文献   

14.
基因芯片技术在肿瘤分型分类的研究中得到了广泛的应用.为了处理肿瘤基因表达谱数据,建立肿瘤分类预测模型,文中采用基因表达差异显著性分析方法,支持向量机,遗传算法相结合的多步骤降维分类方法.采用该方法处理大肠癌和白血病数据集,筛选到基因数量较少并且分类准确度较高的特征基因子集.实验结果表明,文中的方法可以快速有效地筛选肿瘤特征基因,获得更好的分类效果.  相似文献   

15.
陈明 《上海交通大学学报》2012,46(10):1680-1686
针对影响桥梁预警系统有效工作的数据获取问题,提出了融合神经规则、数据分类和数据评估的预警系统数据预处理方法.通过训练集将人工完成数据处理过程中所用到的知识融入到神经规则中,并应用神经规则剔除噪声数据;根据拟定的相似性指标对神经规则输出的数据进行分类,合并相似度较大的信息,以大幅度降低数据量;应用曲率模态对各测点保留的信息进行剖分,并与桥梁结构各测点的标准曲率模态比较,提取与初始数据信息不一致的采样数据,为预警系统的损伤识别提供依据.模拟分析表明,该方法能够在大幅度降低预警系统数据量的基础上保留结构状态发生变化的关键信息,具有一定的应用价值.  相似文献   

16.
数据集的质量会极大地影响分类算法的精度,针对一类隐式互斥的数值型数据提出了一致性分类方法.借鉴连续函数的思想,提出了数值型连续数据的分类一致性定义;改进了SOM算法的计算过程,使其满足文中提出的分类一致性最优条件.通过改进的SOM方法得到一个新的聚类数据集,减少了原始数据集中容易出现的隐式分类不一致性问题,从而有效地提高了分类方法的效率和分类精度.通过在一个实际的数据集上的比较,表明提出的算法的预测精度明显优于其他算法.进而还从VC维的角度分析了提出算法的优点.  相似文献   

17.
为了能更好地反映图像标注之间的关系,将叙词查询的概念引人到传统的基于查询的图像标注领域,通过已标注图像的关键词建立标注之间的关系,从而构建了基于叙词查询的图像自动标注方法.最后在Corel图像数据库中对所提出方法的有效性进行了验证.  相似文献   

18.
基于SVM的特征加权KNN算法   总被引:19,自引:1,他引:19  
作为一种非参数的分类算法,K-近邻(KNN)算法是非常有效和容易实现的.它已经广泛应用于分类、回归和模式识别等.在应用KNN算法解决问题的时候,要注意两个方面的问题--样本权重和特征权重.利用SVM来确定特征的权重,提出了基于SVM的特征加权算法(FWKNN,feature weighted KNN).实验表明,在一定的条件下,FWKNN能够极大地提高分类准确率.  相似文献   

19.
文本情感分类领域性强,传统情感分类方法在多领域混合数据上效果不佳.为了提升多领域混合情境下文本情感分类的准确率,使用双向编码器表征模型(bidirectional encoder representations from transformers,BERT)得到短文本的初级表征;利用对抗网络提取与领域无关的情感特征;利...  相似文献   

20.
A new feature selection method is proposed based on the discern matrix in rough set in this paper. The main idea of this method is that the most effective feature, if used for classification, can distinguish the most number of samples belonging to different classes. Experiments are performed using this method to select relevant features for artificial datasets and real-world datasets. Results show that the selection method proposed can correctly select all the relevant features of artificial datasets and drastically reduce the number of features at the same time. In addition, when this method is used for the selection of classification features of real-world underwater targets,the number of classification features after selection drops to 20% of the original feature set, and the classification accuracy increases about 6% using dataset after feature selection.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号