首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 281 毫秒
1.
在数据挖掘研究领域,分类任务广泛存在着数据分布不均衡问题,例如制造状态检测,医疗诊断,金融服务,等等.SMOTE是处理不均衡数据分类问题的常用技术,与Boosting算法相结合可进一步提升分类系统性能,但是这种集成学习容易导致基分类器多样性缺失.基于此,本文提出了一种基于高斯过程SMOTE过采样的Boosting集成学习算法(Gaussian-based smote in boosting,GSMOTEBoost).该算法在Boosting集成框架下构建不均衡学习模型,为了提高分类系统的鲁棒性,采用基于高斯过程SMOTE过采样技术来增加基分类器训练样本的多样性,从而提高基分类器之间的差异.为了验证算法的有效性,以常用的处理不均衡分类问题的算法作为对比方法,采用KEEL数据库里的20个标准数据集对算法进行测试,以G-mean,F-measure以及AUC作为算法的评价指标,利用统计检验手段对实验结果进行分析.实验结果表明,相对于其他算法,本文提出的GSMOTEBoost具有显著的优势.  相似文献   

2.
客户流失预测是企业客户关系管理的重要内容.在现实的很多客户流失预测建模过程中,由于数据类别的高度不平衡现象的存在,使得模型的分类性能低下,不能很好地进行分类预测.同时由于现实情况中只有少量有类别标签的样本,更多的是无类别标签数据的存在,造成了大量有用信息的浪费.为了解决以上两个问题,本研究将元代价敏感学习,半监督学习和Bagging集成等技术结合,提出了代价敏感的客户流失预测半监督集成模型(semi-supervised ensemble based on metacost,SSEM).该模型主要包括三个阶段:1)用Metacost方法修改初始有标签训练集L的类别标签,得到新的训练集Lm,并将其随机的分为模型训练集Ltr和模型验证集Va;2)使用Va挑选分类精度最高的三个基分类器,并用其选择性标记无类别标签U中的样本,并将它们添加到Ltr中;3)用新的模型训练集Ltr训练N个基本分类模型,并对测试集样本进行分类,进一步将分类结果进行集成.在两个客户流失预测数据集上进行实证分析,将SSEM模型与常用的监督式集成模型以及半监督式集成模型相比,结果表明,SSEM具有更好的客户流失预测性能.  相似文献   

3.
针对多类别不均衡数据的分类问题,从数据集的特征选择和集成学习两个角度出发,提出了一种新的针对不均衡数据的分类方法—BPSO-Adaboost-KNN算法,算法采用基于多分类问题的可视化的AUCarea作为分类评价指标.为了测试算法的性能,本文选取了10组UCI和KEEL选取的测试数据集进行测试,结果表明本算法在有效提取关键特征后提高了Adaboost的稳定性,在十组数据的分类精度上相比单纯使用KNN分类器有20%~40%不等的提高.在本算法和其他state-of-the-art集成分类算法对比中,BPSO-Adaboost-KNN能够取得较优或相当的结果.最后,本文将该算法应用到石油储层含油性的识别中,成功提取了声波、孔隙度和含油饱和度三个关键属性,在分类精度上相比传统分类算法有了大幅度提高,在江汉油田五口油井oilsk81~oilsk85上的分类精度均达到98%以上,比单纯使用KNN的精度高出了20%,尤其在最易错分的油层和差油层中有良好的分类效果.  相似文献   

4.
卷积神经网络擅于提取具有类别分辨能力的隐式特征,在人脸检测等领域获得巨大成功.然而典型的卷积神经网络的固定结构又使得网络规模初始设定只能是经验性的,难以实现后继的再学习.鉴于此,提出一种结构可变的卷积神经网络的构造方法:从每层只有单个卷积核的简单网络结构开始训练,逐渐为各网络层增加新的卷积神经元并修改新增连接权重,当训练结果达到预期目标时训练结束.在人脸检测的实验中,不同网络规模下的识别结果表明基于结构增长生成的网络可以在精确度和网络规模之间取得一个非常好的折衷.此外,在追加新的学习样本时,分类器在保持原有学习结果基础上,只需调整少量新增神经元的权值,就能明显提高检测率.  相似文献   

5.
通过对大量数据进行训练并采用分布式深度学习算法可以学习到比较好的数据结构,而传统的分布式深度学习算法在处理大数据集时存在训练时间比较慢或者训练精度比较低的问题。提出Bootstrap向下聚合随机梯度下降(Bootstrap aggregating-down stochastic gradient descent,Bagging-Down SGD)算法重点来提高分布式深度网络的学习速率。Bagging-Down SGD算法通过在众多单机模型上加入速度控制器,对单机计算的参数值做统计处理,减少了参数更新的频率,并且可以使单机模型训练和参数更新在一定程度上分开,在保证训练精度的同时,提高了整个分布式模型的训练速度。该算法具有普适性,可以对多种类别的数据进行学习。  相似文献   

6.
集成学习的多分类器动态融合方法研究   总被引:5,自引:0,他引:5  
AdaBoost集成学习方法中,分类器一经学习成功,其投票权值就已确定,同一分类器对所有待测样本均有相同的投票权值。对于难于分类样本,具有良好分类性能的少数分类器权值却较低。提出适用于集成学习方法的权重自适应调整多分类器集成算法。根据多分类器行为信息,产生待测样本局部分类精度的有效判定区域,基于有效判定区域选择不同的分类器组合,并调整其相应权重,利用样本集上的统计信息来动态指导分类集成判决。实验结果表明,该算法提高了集成分类性能。  相似文献   

7.
基于SMOTEBoost的非均衡数据集SVM分类器   总被引:3,自引:0,他引:3  
在对实际问题进行数据挖掘时面临的多数是非均衡数据集,即各种类型的数据分布并不均匀,且关注的类型常是少数类.运用含有少量少数类型事例的数据集训练后的模型进行预测时,通常对多数类的预测精度很高,而少数类的预测精确性却很差.提出了一种集成方法SMOTEBoostSVM,通过SMOTE技术人工生成增加少数类样本量,以具有较强分类性能和泛化性能的SVM作为弱分类器,并以AdaBoost算法构建集成分类器.实验结果表明,SMOTEBoostSVM集成分类器比单纯运用SMOTE技术、AdaBoost算法以及SVM等的分类器,在非均衡数据集的分类预测中具有更好的效果.  相似文献   

8.
基于新的决策规则的球形支持向量机分类算法   总被引:2,自引:0,他引:2  
球形支持向量机是一种学习算法,它通过在高维特征空间中,对每一个模式类别构造一个覆盖其所有训练样本的具有最小体积的超球体,来实现对训练样本空间的划分.在此基础上,提出了一种基于新的决策规则的球形支持向量机算法,并在七个UCI数据集上进行了实验,实验结果表明提出的算法可以取得比标准的支持向量机算法更好的分类效果.  相似文献   

9.
一种有效特征词发现的贝叶斯文本分类方法   总被引:1,自引:0,他引:1  
杨晔  彭宏  林嘉宜  陈绍坚 《系统工程》2004,22(9):107-110
根据信息学理论和贝叶斯语义模型,提出一种有效特征词发现方法,利用该方法对训练文本的原始文本特征词集进行聚类,对测试文本进行分类计算和类别标注。闭式测试的结果表明,文本识别的正确率达到了90%以上,该算法对互联网信息处理有较好的应用价值。  相似文献   

10.
针对信用分类数据集中常见的高维性特征,本文基于特征袋装法和关联规则挖掘算法,构建了新的赋权特征选择集成模型AR-WSAB.该模型能根据频繁项集的支持度和置信度,对各特征的重要度进行测度,进而选择出各特征子集,训练子分类器,再通过集成得到最终结果.通过在贷款违约预测数据集上进行实证分析,结果表明该模型分类正确率相对于Bagging集成模型和PCA算法都有显著优势,所提方法能够有效处理高维性特征,并且在各分类算法上都具有普适性.  相似文献   

11.
针对有标签样本较少条件下的通信信号调制识别问题, 提出一种基于集成学习与特征降维的小样本调制方式分类模型。首先,通过集成人工特征与深度学习自动提取特征构成特征集合。然后,设计特征选择算法对特征合集进行优选生成高效特征子集。最后, 利用可快速收敛的高性能分类器对信号进行区分, 实现在少量有标签样本和大量无标签样本条件下的调制方式分类。仿真结果表明, 通过对8种数字信号进行调制识别, 在信噪比为20 dB时, 所提算法可将信号最高识别率提升至96%, 同时该算法设计简单, 具有较大应用价值。  相似文献   

12.
A new incremental support vector machine (SVM) algorithm is proposed which is based on multiple kernel learning.Through introducing multiple kernel learning into the SVM incremental learning,large scale data set learning problem can be solved effectively.Furthermore,different punishments are adopted in allusion to the training subset and the acquired support vectors,which may help to improve the performance of SVM.Simulation results indicate that the proposed algorithm can not only solve the model selection problem in SVM incremental learning,but also improve the classification or prediction precision.  相似文献   

13.
不均衡数据问题在我们日常生活中随处可见,例如疾病诊断,矿藏资源识别等等.对于不均衡数据的分类而言,目前基于集成学习的不均衡数据分类技术较为成熟,但现有方法都将不均衡数据作为一个整体考虑,而不区别对待不同类型的不均衡数据.事实上,不均衡数据因其不均衡比、数据维度和类别数的不同,所具有的数据分布也不同,使用统一的模型处理所有不均衡数据难以在所有数据集中都获得好的效果.基于此,本文提出了一种基于差分演化算法的自适应集成学习算法(adaptive multiple classifier system based on differential evolution algorithm,DE-AMCS),使得针对不同的不均衡数据,系统能够选择最优的集成学习模型来完成分类任务.本文选择了KEEL数据集中的10个数据集进行测试,测试结果与5个现有的集成分类算法进行了对比,实验表明DEAMCS相比于对比算法,分类精度上有明显的提升.最后,本文将DE-AMCS应用到江汉油田某区五口井的石油储层含油性的识别中,在每口井的含油性识别中,精度均达到了100%.  相似文献   

14.
The pruning algorithms for sparse least squares support vector regression machine are common methods,and easily comprehensible,but the computational burden in the training phase is heavy due to the retraining in performing the pruning process,which is not favorable for their applications.To this end,an improved scheme is proposed to accelerate sparse least squares support vector regression machine.A major advantage of this new scheme is based on the iterative methodology,which uses the previous training results instead of retraining,and its feasibility is strictly verified theoretically.Finally,experiments on benchmark data sets corroborate a significant saving of the training time with the same number of support vectors and predictive accuracy compared with the original pruning algorithms,and this speedup scheme is also extended to classification problem.  相似文献   

15.
教育数据挖掘(educational data mining)是当代教育信息化发展的前沿研究领域,正在吸引越来越多教育学家和数据科学家的关注."大数据"时代背景下,随着数据处理规模的不断激增,现有的数据挖掘模型在单一处理节点的计算能力遭遇瓶颈,各类面向大数据处理的分布式计算框架应运而生.借助这些框架,面向解决高校就业数据挖掘问题的机器学习模型便可以满足未来大规模数据处理的需求,在未来数据集体量庞大的信息集成系统中为数据挖掘和决策支持提供帮助.以此为背景,本研究对比现有数据模型对研究目标对象的分类性能,提出了以引入输入特征加权系数来计算特征的信息增益作为特征最优分裂评判指标的改进随机森林模型来提升数据分类性能,通过仿真测试改进模型对于现有模型分类性能的提升情况,与此同时为解决大数据时代背景下面向海量数据分类任务的单节点性能瓶颈问题,提出了基于分布式改进随机森林算法的大规模学生就业数据分类预测模型.通过使用MapReduce分布式计算框架实现已训练模型在本地磁盘与分布式文件系统之间的序列化写入与反序列化加载过程,进而实现了基于改进随机森林模型的大规模数据分类模型的分布式扩展.  相似文献   

16.
基于支持向量机的高分辨距离像分类法   总被引:5,自引:0,他引:5  
支持向量机 (supportvectormachine ,SVM)是新一代学习机 ,具有良好的泛化性能。高分辨距离像(HRRP)分类是雷达复杂目标分类的重要方法。采用SVM作为分类器 ,研究了飞机目标HRRP分类法。设计了相应的预处理算法 ,并提出了结合VapnikChervonenkis维法和留一 (LOO)交叉验证法的参数选择算法。基于 5种飞机缩比模型的HRRP数据 ,比较了SVM分类法和最大相关分类法的性能 ,研究了噪声、训练用方位角采样数和训练样本集的大小对识别性能的影响。实验结果表明 ,SVM在HRRP分类上具有良好的应用前景。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号