首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 203 毫秒
1.
针对多类别不均衡数据的分类问题,从数据集的特征选择和集成学习两个角度出发,提出了一种新的针对不均衡数据的分类方法—BPSO-Adaboost-KNN算法,算法采用基于多分类问题的可视化的AUCarea作为分类评价指标.为了测试算法的性能,本文选取了10组UCI和KEEL选取的测试数据集进行测试,结果表明本算法在有效提取关键特征后提高了Adaboost的稳定性,在十组数据的分类精度上相比单纯使用KNN分类器有20%~40%不等的提高.在本算法和其他state-of-the-art集成分类算法对比中,BPSO-Adaboost-KNN能够取得较优或相当的结果.最后,本文将该算法应用到石油储层含油性的识别中,成功提取了声波、孔隙度和含油饱和度三个关键属性,在分类精度上相比传统分类算法有了大幅度提高,在江汉油田五口油井oilsk81~oilsk85上的分类精度均达到98%以上,比单纯使用KNN的精度高出了20%,尤其在最易错分的油层和差油层中有良好的分类效果.  相似文献   

2.
在数据挖掘研究领域,分类任务广泛存在着数据分布不均衡问题,例如制造状态检测,医疗诊断,金融服务,等等.SMOTE是处理不均衡数据分类问题的常用技术,与Boosting算法相结合可进一步提升分类系统性能,但是这种集成学习容易导致基分类器多样性缺失.基于此,本文提出了一种基于高斯过程SMOTE过采样的Boosting集成学习算法(Gaussian-based smote in boosting,GSMOTEBoost).该算法在Boosting集成框架下构建不均衡学习模型,为了提高分类系统的鲁棒性,采用基于高斯过程SMOTE过采样技术来增加基分类器训练样本的多样性,从而提高基分类器之间的差异.为了验证算法的有效性,以常用的处理不均衡分类问题的算法作为对比方法,采用KEEL数据库里的20个标准数据集对算法进行测试,以G-mean,F-measure以及AUC作为算法的评价指标,利用统计检验手段对实验结果进行分析.实验结果表明,相对于其他算法,本文提出的GSMOTEBoost具有显著的优势.  相似文献   

3.
甲状腺释放甲状腺激素以调节人体的新陈代谢速率,甲状腺激素过多或过少分别会引起甲亢或甲减,都属于甲状腺疾病.在实际医疗数据中,甲状腺疾病数据属于典型的不均衡数据.传统的分类方法往往忽略了不均衡数据存在的异构现象(不均衡程度,特征维度,类别数目在不同数据集中各不相同).针对甲状腺疾病数据的类分布不均衡现象以及异构现象,本文提出一种自适应多分类器系统(adaptive multiple classifier system,AMCS),构造多分类器集成系统,自适应地对异构不均衡甲状腺疾病数据进行分类来辅助甲状腺疾病的诊断.AMCS系统包括特征选择,集成框架,基分类器以及集成规则四个组成部分,每一组成部分由不同的算法组成候选池,根据不同数据存在的异构现象,自适应地为异构数据选择最优集成算法.本文采用KEEL和UCI提供的10组异构甲状腺疾病数据进行实验,验证了本文所提出的方法在辅助甲状腺疾病诊断的有效性.  相似文献   

4.
针对传统多相码信号识别方法在低信噪比情况下分类精度不高、类识别率不均衡和识别方法不具有通用性的特点,提出了一种利用集成学习中的多类指数损失函数逐步添加模型(stagewise additive modeling using a multi-class exponential loss function, SAMME)算法和残差神经网络(residual neural network, ResNet)的多相码信号识别方法。通过仿真实验对5类多相码信号进行了分类识别,验证了模型的有效性,分析了不同数量基学习器对模型的影响,最后与传统分类方法进行了对比。仿真结果表明,在信噪比低于6 dB的情况下,所提方法相对于单个残差网络提高了约10%的分类精度,同时缩小了类之间识别率的差距,相对于常用的分类方法也有很大的优势。  相似文献   

5.
在医疗领域,非计划性再入院花费占据了医院总支出的很大一部分,如何降低再入院率,预防再入院情况的发生已经成为了医疗管理领域一个亟待解决的问题.在针对如何能够对再入院患者精确地进行识别这一问题进行深入研究以后,提出了一种基于ADASYN-IFA-Stacking的再入院患者风险预测方法,这一方法主要分为了不均衡数据处理、集成学习模型构建以及参数优化三个部分.不均衡数据处理解决了由于类间不均衡给模型带来的偏倚问题,集成学习模型则可以对多个子分类器的优势进行结合,使用萤火虫算法进行模型最优参数的选择能够进一步提升模型的预测性能.通过在获取到的再入院病人数据集上进行十折交叉验证实验后,结果显示所提出的预测方法要优于现在流行的支持向量机、分类与回归树、随机森林等其它机器学习方法.  相似文献   

6.
集成学习的多分类器动态融合方法研究   总被引:5,自引:0,他引:5  
AdaBoost集成学习方法中,分类器一经学习成功,其投票权值就已确定,同一分类器对所有待测样本均有相同的投票权值。对于难于分类样本,具有良好分类性能的少数分类器权值却较低。提出适用于集成学习方法的权重自适应调整多分类器集成算法。根据多分类器行为信息,产生待测样本局部分类精度的有效判定区域,基于有效判定区域选择不同的分类器组合,并调整其相应权重,利用样本集上的统计信息来动态指导分类集成判决。实验结果表明,该算法提高了集成分类性能。  相似文献   

7.
针对信用分类数据集中常见的高维性特征,本文基于特征袋装法和关联规则挖掘算法,构建了新的赋权特征选择集成模型AR-WSAB.该模型能根据频繁项集的支持度和置信度,对各特征的重要度进行测度,进而选择出各特征子集,训练子分类器,再通过集成得到最终结果.通过在贷款违约预测数据集上进行实证分析,结果表明该模型分类正确率相对于Bagging集成模型和PCA算法都有显著优势,所提方法能够有效处理高维性特征,并且在各分类算法上都具有普适性.  相似文献   

8.
在对目标进行探测和识别的过程中, 雷达杂波幅度统计模型选择是重要步骤。为了提升杂波幅度统计模型选择的准确率, 基于样本分布适配, 提出了一种加权再均衡分布适配的迁移学习方法, 实现了仿真数据的信息向实测海杂波IPIX数据的迁移。通过与已有算法进行比较, 实验结果表明改进后的算法在IPIX数据集上能取得更好的分类准确率, 在迁移学习公共数据集Office-Caltech10上的验证结果也表明了算法的普适性。  相似文献   

9.
针对传统多相码信号识别方法在低信噪比情况下分类精度不高、类识别率不均衡和识别方法不具有通用性的特点,提出了一种利用集成学习中的多类指数损失函数逐步添加模型(stagewise additive modeling using a multi-class exponential loss function, SAMME)算法和残差神经网络(residual neural network, ResNet)的多相码信号识别方法。通过仿真实验对5类多相码信号进行了分类识别,验证了模型的有效性,分析了不同数量基学习器对模型的影响,最后与传统分类方法进行了对比。仿真结果表明,在信噪比低于6 dB的情况下,所提方法相对于单个残差网络提高了约10%的分类精度,同时缩小了类之间识别率的差距,相对于常用的分类方法也有很大的优势。  相似文献   

10.
石油勘探信息管理中储层属性优化方法   总被引:2,自引:0,他引:2  
运用软计算融合算法识别储层含油性的关键属性,建立了预测这些关键属性的软计算融合模型.具体步骤为:首先采用遗传算法(GA)和模糊C均值嵌套算法(GA-FCM)对含油性的测井属性进行约简,得到能够描述含油性的关键属性;然后再把GA和BP神经网络(GA-BP)进行融合构建预测关键属性的软计算融合模型,即通过GA优化BP的结构(包括网络输入属性的组合和最佳隐含层神经元个数的确定),并且用测试样本的误差作为评判该预测模型的优劣;最后对某油田的oilsk81,oilsk83,oilsk85 3口井进行了实证研究.  相似文献   

11.
基于GMDH的“一步式”客户流失预测集成建模   总被引:1,自引:1,他引:0  
在客户流失预测问题中, 客户数据的特征往往会影响模型的预测效果.分析了常用的“两步式”客户流失 预测方法的不足,提出了基于数据分组处理(GMDH)技术的“一步式”客户流失预测集成研究框架.该框架一方面 将数据预处理和客户流失预测建模过程进行集成,另一方面用多分类器集成策略进行客户流失预测建模.以客户数据类别分布不平衡的客户流失预测问题为例,构建了与数据特征相适应的“一步式”集成模型. 实证结果表明,该方法能够更有效地进行客户流失预测.  相似文献   

12.
针对脑机接口(Brain-Computer Interface,BCI)中脑电信号预处理、特征提取、分类识别等过程,提出一种基于多域特征的随机子空间集成方法实现运动想象脑电分类。该方法的基本思想是通过事件相关同步/事件相关去同步特性分析,提取出最佳时频段的多域特征作为特征向量,结合交叉验证自适应地选择特征随机子空间的集成规模,集成线性判别分析分类器实现脑电信号分类。实验结果表明,多域特征和随机子空间集成分类正确率可达90.71%、Kappa系数可达0.63,均优于BCI竞赛第一名成绩,从而证明了该算法在脑电分类中的有效性和实用性。  相似文献   

13.
客户流失预测是企业客户关系管理的重要内容.在现实的很多客户流失预测建模过程中,由于数据类别的高度不平衡现象的存在,使得模型的分类性能低下,不能很好地进行分类预测.同时由于现实情况中只有少量有类别标签的样本,更多的是无类别标签数据的存在,造成了大量有用信息的浪费.为了解决以上两个问题,本研究将元代价敏感学习,半监督学习和Bagging集成等技术结合,提出了代价敏感的客户流失预测半监督集成模型(semi-supervised ensemble based on metacost,SSEM).该模型主要包括三个阶段:1)用Metacost方法修改初始有标签训练集L的类别标签,得到新的训练集Lm,并将其随机的分为模型训练集Ltr和模型验证集Va;2)使用Va挑选分类精度最高的三个基分类器,并用其选择性标记无类别标签U中的样本,并将它们添加到Ltr中;3)用新的模型训练集Ltr训练N个基本分类模型,并对测试集样本进行分类,进一步将分类结果进行集成.在两个客户流失预测数据集上进行实证分析,将SSEM模型与常用的监督式集成模型以及半监督式集成模型相比,结果表明,SSEM具有更好的客户流失预测性能.  相似文献   

14.
Credit risk prediction models seek to predict quality factors such as whether an individual will default (bad applicant) on a loan or not (good applicant). This can be treated as a kind of machine learning (ML) problem. Recently, the use of ML algorithms has proven to be of great practical value in solving a variety of risk problems including credit risk prediction. One of the most active areas of recent research in ML has been the use of ensemble (combining) classifiers. Research indicates that ensemble individual classifiers lead to a significant improvement in classification performance by having them vote for the most popular class. This paper explores the predicted behaviour of five classifiers for different types of noise in terms of credit risk prediction accuracy, and how could such accuracy be improved by using pairs of classifier ensembles. Benchmarking results on five credit datasets and comparison with the performance of each individual classifier on predictive accuracy at various attribute noise levels are presented. The experimental evaluation shows that the ensemble of classifiers technique has the potential to improve prediction accuracy.  相似文献   

15.
基于Markov blanket和互信息的集成特征选择算法   总被引:1,自引:0,他引:1  
针对大量无关和冗余特征的存在可能降低分类器性能的问题,提出一种基于近似Markov blanket和动态互信息的特征选择算法并将其应用于集成学习,进而得到一种集成特征选择算法。该集成特征选择算法运用Bagging方法结合提出的特征选择方法生成基分类器,并引入基分类器差异度进行选择性集成,最后用加权投票法融合所选基分类器的识别结果。通过仿真实验验证算法的有效性,以支持向量机(support vector machine, SVM)为分类器,在公共数据集UCI上进行试验,并与单SVM及经典的Bagging集成算法和特征Bagging集成算法进行对比。实验结果显示,该方法可获得较高的分类精度。  相似文献   

16.
Ensemble of multiple kNN classifiers for societal risk classification   总被引:1,自引:1,他引:0  
Societal risk classification is a fundamental and complex issue for societal risk perception. To conduct societal risk classification, Tianya Forum posts are selected as the data source, and four kinds of representations: string representation, term-frequency representation, TF-IDF representation and the distributed representation of BBS posts are applied. Using edit distance or cosine similarity as distance metric, four k-Nearest Neighbor (kNN) classifiers based on different representations are developed and compared. Owing to the priority of word order and semantic extraction of the neural network model Paragraph Vector, kNN based on the distributed representation generated by Paragraph Vector (kNN-PV) shows effectiveness for societal risk classification. Furthermore, to improve the performance of societal risk classification, through different weights, kNN-PV is combined with other three kNN classifiers as an ensemble model. Through brute force grid search method, the optimal weights are assigned to different kNN classifiers. Compared with kNN-PV, the experimental results reveal that Macro-F of the ensemble method is significantly improved for societal risk classification.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号