首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 178 毫秒
1.
在数据挖掘研究领域,分类任务广泛存在着数据分布不均衡问题,例如制造状态检测,医疗诊断,金融服务,等等.SMOTE是处理不均衡数据分类问题的常用技术,与Boosting算法相结合可进一步提升分类系统性能,但是这种集成学习容易导致基分类器多样性缺失.基于此,本文提出了一种基于高斯过程SMOTE过采样的Boosting集成学习算法(Gaussian-based smote in boosting,GSMOTEBoost).该算法在Boosting集成框架下构建不均衡学习模型,为了提高分类系统的鲁棒性,采用基于高斯过程SMOTE过采样技术来增加基分类器训练样本的多样性,从而提高基分类器之间的差异.为了验证算法的有效性,以常用的处理不均衡分类问题的算法作为对比方法,采用KEEL数据库里的20个标准数据集对算法进行测试,以G-mean,F-measure以及AUC作为算法的评价指标,利用统计检验手段对实验结果进行分析.实验结果表明,相对于其他算法,本文提出的GSMOTEBoost具有显著的优势.  相似文献   

2.
基于Markov blanket和互信息的集成特征选择算法   总被引:1,自引:0,他引:1  
针对大量无关和冗余特征的存在可能降低分类器性能的问题,提出一种基于近似Markov blanket和动态互信息的特征选择算法并将其应用于集成学习,进而得到一种集成特征选择算法。该集成特征选择算法运用Bagging方法结合提出的特征选择方法生成基分类器,并引入基分类器差异度进行选择性集成,最后用加权投票法融合所选基分类器的识别结果。通过仿真实验验证算法的有效性,以支持向量机(support vector machine, SVM)为分类器,在公共数据集UCI上进行试验,并与单SVM及经典的Bagging集成算法和特征Bagging集成算法进行对比。实验结果显示,该方法可获得较高的分类精度。  相似文献   

3.
针对多极化高分辨率一维距离像(high range resolution profile, HRRP)在目标识别过程中存在计算量和数据量大、识别算法复杂的问题,提出一种基于Bagging-SVM动态集成的目标识别方法。该方法首先提取多极化HRRP平移不变特征向量,然后运用Bagging方法结合基于动态互信息的特征选择方法生成基分类器,最后引入基分类器差异度进行选择性集成。实验验证该方法在缩减数据规模和计算量的同时,能有效利用多极化特征信息,得到较高的分类正确率,并且松弛了HRRP目标的姿态敏感性。  相似文献   

4.
针对现有基于机器学习的雷达有源干扰分类大多需要构建人工特征集且小样本情况下分类精度低的问题, 提出一种基于多通道特征融合的集成卷积神经网络(convolutional neural network, CNN)分类方法。首先, 建立多种有源干扰的数学模型, 仿真并利用短时傅里叶变换获得其时频分布图; 其次, 提取时频分布图的实部、虚部和模值三通道特征, 通过多种特征组合方式建立不同特征组合的样本集; 最终, 构建以CNN为基分类器的集成深度学习模型, 每个CNN分别提取不同样本集的特征, 对所有基分类器的预测结果做多数投票得到集成模型的整体预测结果。实验表明, 该方法能够有效实现小样本情况下多类有源干扰的高精度智能化识别。  相似文献   

5.
在纠错输出编码(error-correcting output code, ECOC)多类分类中,当待识别样本的真实类别不属于对应二类子类划分时,训练得到的基分类器将不具备对此类样本进行分类的能力,此时的基分类器在解码融合时面临着non-competence问题。如何衡量基分类器是否具备对样本的分类能力,以及如果不具备,如何减少此种情况下对分类效果的影响是基于ECOC多类分类面临的新问题。针对解码框架中non-competent基分类器的分类融合问题,提出一种基于基分类器对样本是否具有分类能力的加权解码方法。该方法利用支持向量数据描述衡量待识别样本与各划分子类之间的距离,同时利用加权解码,通过对基分类器权重的学习,进而增强对类别拥有分类能力的基分类器的影响,减少不具备分类能力的基分类器产生的误差。基于UCI数据集的实验表明所提方法的有效性和实用性。  相似文献   

6.
常规灰色关联分析应用于仿真模型验证时,仅考虑了时间序列之间的相似性,忽略了时间序列之间的接近性,但这种接近却属于仿真模型的误差范畴,因此使用常规灰色关联分析进行仿真模型验证存在一定的风险,针对这一问题,提出了一种加权阵灰色关联度模型,综合了时间序列之间的相近性和相似性两个方面,因此提高了模型验证的准确性和可靠性.同时该模型可以同时处理具有多个特征行为的关联分析问题.给出了具体的基于加权灰色关联分析的模型验证的操作过程,并证明了改进模型满足灰色关联四定理.通过实例分析验证了改进模型的合理性和有效性.  相似文献   

7.
针对分类器链模型采用随机生成方式确定标签序列会极大影响分类器链性能的问题。通过共现分析技术深入挖掘标签间的潜在关系, 提出一种基于贪心算法和n-gram模型的两种标签序列优化策略以提升分类器链模型性能。基于贪心算法的策略通过计算和排序标签之间共现率来生成优化的分类器链标签序列, 而基于n-gram模型的策略则通过最大化标签之间条件概率来生成优化的分类器链标签序列。最后通过多个多标签基准数据集进行实验验证, 实验结果表明, 与当前流行的各种分类器链模型相比, 所提的两种策略很有竞争力, 可以明显提升多标签分类效果。  相似文献   

8.
特征表示和相似性度量是时间序列数据挖掘的基础工作, 其质量好坏直接影响后期的挖掘结果. 利用正交多项式回归模型对时间序列进行多维形态特征表示, 分析特征维数对时间序列拟合效果的影响, 选取部分特征来描述序列的主要形态趋势, 提出了一种鲁棒性较强的形态特征相似性度量方法来近似度量时间序列, 且具有较高的相似性度量质量. 实验结果表明, 基于多维形态特征表示的时间序列相似性度量方法不仅满足下界要求, 具有较好的下界紧凑性和数据剪枝能力, 而且在时间序列聚类和分类等数据挖掘任务中取得了良好的效果.  相似文献   

9.
基于新型集成分类器的非平衡数据分类关键问题研究   总被引:2,自引:0,他引:2  
针对非平衡数据分类问题,提出了一种基于差异采样率的重采样算法(differentiated sampling rate algorithm, DSRA),基于DSRA设计了一种新的集成分类器(SVM-Ripper ensemble classifier, SREC)。SREC采用独特的分类器选择策略、分类器集成策略、分类决策方案,可获得较高的分类精度。同时,利用SREC对影响非平衡数据分类的关键问题进行了研究。结果表明,非平衡数据分类问题本质上是由正负样本类间非平衡、类内非平衡、样本规模以及样本非平衡度等诸多因素引起的,只有综合考虑这些因素才能更好地解决非平衡数据分类问题。  相似文献   

10.
为了对时间序列数据进行聚类分析, 提出了一种基于独立成分分析的时间序列多路归一化割谱聚类方法, 并给出了利用独立成分分析对时间序列数据进行特征提取和降维的理论解释. 该方法首先利用独立成分分析对时间序列数据进行特征提取, 然后利用多路归一化割谱聚类方法完成对时间序列特征数据的聚类分析, 从而得到了一种新的基于特征的时间序列聚类方法. 为了验证该方法的可行性和有效性, 将其应用于仿真时间序列数据和实际的股票时间序列数据聚类分析中, 取得了较好的数值结果.  相似文献   

11.
Because most ensemble learning algorithms use the centralized model, and the training instances must be centralized on a single station, it is difficult to centralize the training data on a station. A distributed ensemble learning algorithm is proposed which has two kinds of weight genes of instances that denote the global distribution and the local distribution. Instead of the repeated sampling method in the standard ensemble learning, non-balance sampling from each station is used to train the base classifier set of each station. The concept of the effective nearby region for local integration classifier is proposed, and is used for the dynamic integration method of multiple classifiers in distributed environment. The experiments show that the ensemble learning algorithm in distributed environment proposed could reduce the time of training the base classifiers effectively, and ensure the classify performance is as same as the centralized learning method.  相似文献   

12.
客户流失预测是企业客户关系管理的重要内容.在现实的很多客户流失预测建模过程中,由于数据类别的高度不平衡现象的存在,使得模型的分类性能低下,不能很好地进行分类预测.同时由于现实情况中只有少量有类别标签的样本,更多的是无类别标签数据的存在,造成了大量有用信息的浪费.为了解决以上两个问题,本研究将元代价敏感学习,半监督学习和Bagging集成等技术结合,提出了代价敏感的客户流失预测半监督集成模型(semi-supervised ensemble based on metacost,SSEM).该模型主要包括三个阶段:1)用Metacost方法修改初始有标签训练集L的类别标签,得到新的训练集Lm,并将其随机的分为模型训练集Ltr和模型验证集Va;2)使用Va挑选分类精度最高的三个基分类器,并用其选择性标记无类别标签U中的样本,并将它们添加到Ltr中;3)用新的模型训练集Ltr训练N个基本分类模型,并对测试集样本进行分类,进一步将分类结果进行集成.在两个客户流失预测数据集上进行实证分析,将SSEM模型与常用的监督式集成模型以及半监督式集成模型相比,结果表明,SSEM具有更好的客户流失预测性能.  相似文献   

13.
遗传算法选择性集成多分类器的企业财务困境预测   总被引:2,自引:0,他引:2  
为了更加有效地进行企业财务困境预测,本文提出了基于遗传算法选择性集成的多分类器系统。与事先静态给定系统内部基本分类器组成不同,该方法以组合系统预测准确率为优化目标,无需度量各基本分类器之间的差异性,可以动态挖掘最优组合系统。实证研究中以中国上市公司为研究对象,以10折交叉验证准确率作为评价标准,结果表明该方法显著优于全集成以及单分类器最优模型。  相似文献   

14.
针对脑机接口(Brain-Computer Interface,BCI)中脑电信号预处理、特征提取、分类识别等过程,提出一种基于多域特征的随机子空间集成方法实现运动想象脑电分类。该方法的基本思想是通过事件相关同步/事件相关去同步特性分析,提取出最佳时频段的多域特征作为特征向量,结合交叉验证自适应地选择特征随机子空间的集成规模,集成线性判别分析分类器实现脑电信号分类。实验结果表明,多域特征和随机子空间集成分类正确率可达90.71%、Kappa系数可达0.63,均优于BCI竞赛第一名成绩,从而证明了该算法在脑电分类中的有效性和实用性。  相似文献   

15.
Ensemble of multiple kNN classifiers for societal risk classification   总被引:1,自引:1,他引:0  
Societal risk classification is a fundamental and complex issue for societal risk perception. To conduct societal risk classification, Tianya Forum posts are selected as the data source, and four kinds of representations: string representation, term-frequency representation, TF-IDF representation and the distributed representation of BBS posts are applied. Using edit distance or cosine similarity as distance metric, four k-Nearest Neighbor (kNN) classifiers based on different representations are developed and compared. Owing to the priority of word order and semantic extraction of the neural network model Paragraph Vector, kNN based on the distributed representation generated by Paragraph Vector (kNN-PV) shows effectiveness for societal risk classification. Furthermore, to improve the performance of societal risk classification, through different weights, kNN-PV is combined with other three kNN classifiers as an ensemble model. Through brute force grid search method, the optimal weights are assigned to different kNN classifiers. Compared with kNN-PV, the experimental results reveal that Macro-F of the ensemble method is significantly improved for societal risk classification.  相似文献   

16.
集成学习的多分类器动态融合方法研究   总被引:5,自引:0,他引:5  
AdaBoost集成学习方法中,分类器一经学习成功,其投票权值就已确定,同一分类器对所有待测样本均有相同的投票权值。对于难于分类样本,具有良好分类性能的少数分类器权值却较低。提出适用于集成学习方法的权重自适应调整多分类器集成算法。根据多分类器行为信息,产生待测样本局部分类精度的有效判定区域,基于有效判定区域选择不同的分类器组合,并调整其相应权重,利用样本集上的统计信息来动态指导分类集成判决。实验结果表明,该算法提高了集成分类性能。  相似文献   

17.
常规的分类与回归树算法(classification and regression tree, CART)只能通过重新训练来增加对新类别的认知, 导致样本类别数量较多时训练成本大幅增加。针对这一问题, 提出一种轻量化的增量式集成学习算法: 当新的类别进入到训练集中, 只需在原有集成学习算法中添加具有开集识别能力的CART基分类器, 就可以实现对新类别样本的分类, 而不需要重新训练, 从而降低计算复杂度, 简化学习过程。以辐射源分类为背景的仿真实验表明, 该算法在信噪比大于等于-4 dB的环境中, 可以保持90%以上的分类准确率; 在类别数量较多的情况下, 相比常规CART, 该算法可以大幅度降低新增分类类别所需的训练成本。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号