首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
Credit risk prediction models seek to predict quality factors such as whether an individual will default (bad applicant) on a loan or not (good applicant). This can be treated as a kind of machine learning (ML) problem. Recently, the use of ML algorithms has proven to be of great practical value in solving a variety of risk problems including credit risk prediction. One of the most active areas of recent research in ML has been the use of ensemble (combining) classifiers. Research indicates that ensemble individual classifiers lead to a significant improvement in classification performance by having them vote for the most popular class. This paper explores the predicted behaviour of five classifiers for different types of noise in terms of credit risk prediction accuracy, and how could such accuracy be improved by using pairs of classifier ensembles. Benchmarking results on five credit datasets and comparison with the performance of each individual classifier on predictive accuracy at various attribute noise levels are presented. The experimental evaluation shows that the ensemble of classifiers technique has the potential to improve prediction accuracy.  相似文献   

2.
基于新型集成分类器的非平衡数据分类关键问题研究   总被引:2,自引:0,他引:2  
针对非平衡数据分类问题,提出了一种基于差异采样率的重采样算法(differentiated sampling rate algorithm, DSRA),基于DSRA设计了一种新的集成分类器(SVM-Ripper ensemble classifier, SREC)。SREC采用独特的分类器选择策略、分类器集成策略、分类决策方案,可获得较高的分类精度。同时,利用SREC对影响非平衡数据分类的关键问题进行了研究。结果表明,非平衡数据分类问题本质上是由正负样本类间非平衡、类内非平衡、样本规模以及样本非平衡度等诸多因素引起的,只有综合考虑这些因素才能更好地解决非平衡数据分类问题。  相似文献   

3.
Company bankruptcies cost billions of dollars in losses to banks each year. Thus credit risk prediction is a critical part of a bank's loan approval decision process. Traditional financial models for credit risk prediction are no longer adequate for describing today's complex relationship between the financial health and potential bankruptcy of a company. In this work, a multiple classifier system (embedded in a multiple intelligent agent system) is proposed to predict the financial health of a company. In our model, each individual agent (classifier) makes a prediction on the likelihood of credit risk based on only partial information of the company. Each of the agents is an expert, but has limited knowledge (represented by features) about the company. The decisions of all agents are combined together to form a final credit risk prediction. Experiments show that our model out-performs other existing methods using the benchmarking Compustat American Corporations dataset.  相似文献   

4.
甲状腺释放甲状腺激素以调节人体的新陈代谢速率,甲状腺激素过多或过少分别会引起甲亢或甲减,都属于甲状腺疾病.在实际医疗数据中,甲状腺疾病数据属于典型的不均衡数据.传统的分类方法往往忽略了不均衡数据存在的异构现象(不均衡程度,特征维度,类别数目在不同数据集中各不相同).针对甲状腺疾病数据的类分布不均衡现象以及异构现象,本文提出一种自适应多分类器系统(adaptive multiple classifier system,AMCS),构造多分类器集成系统,自适应地对异构不均衡甲状腺疾病数据进行分类来辅助甲状腺疾病的诊断.AMCS系统包括特征选择,集成框架,基分类器以及集成规则四个组成部分,每一组成部分由不同的算法组成候选池,根据不同数据存在的异构现象,自适应地为异构数据选择最优集成算法.本文采用KEEL和UCI提供的10组异构甲状腺疾病数据进行实验,验证了本文所提出的方法在辅助甲状腺疾病诊断的有效性.  相似文献   

5.
针对现有基于机器学习的雷达有源干扰分类大多需要构建人工特征集且小样本情况下分类精度低的问题, 提出一种基于多通道特征融合的集成卷积神经网络(convolutional neural network, CNN)分类方法。首先, 建立多种有源干扰的数学模型, 仿真并利用短时傅里叶变换获得其时频分布图; 其次, 提取时频分布图的实部、虚部和模值三通道特征, 通过多种特征组合方式建立不同特征组合的样本集; 最终, 构建以CNN为基分类器的集成深度学习模型, 每个CNN分别提取不同样本集的特征, 对所有基分类器的预测结果做多数投票得到集成模型的整体预测结果。实验表明, 该方法能够有效实现小样本情况下多类有源干扰的高精度智能化识别。  相似文献   

6.
针对雷达高分辨距离像(high resolution range profile, HRRP)目标识别问题,提出基于卷积稀疏编码与多分类融合(convolutional sparse coding and multi-classifier fusion,CSCMF)的识别方法。首先,该方法利用CSC方法对目标HRRP进行特征提取,同时实现数据压缩;然后,将测试样本的特征分别输入随机森林分类器、朴素贝叶斯分类器和最小值分类器进行预分类,得到3个预测标签。采用多数投票法对3个预测标签进行分类器融合,得到最终的识别决策。实验中研究了分类器融合方法。基于5种飞机目标的HRRP仿真数据进行了实验验证,实验结果表明该方法的分类准确率较高,而且对噪声有较强的鲁棒性。  相似文献   

7.
针对多极化高分辨率一维距离像(high range resolution profile, HRRP)在目标识别过程中存在计算量和数据量大、识别算法复杂的问题,提出一种基于Bagging-SVM动态集成的目标识别方法。该方法首先提取多极化HRRP平移不变特征向量,然后运用Bagging方法结合基于动态互信息的特征选择方法生成基分类器,最后引入基分类器差异度进行选择性集成。实验验证该方法在缩减数据规模和计算量的同时,能有效利用多极化特征信息,得到较高的分类正确率,并且松弛了HRRP目标的姿态敏感性。  相似文献   

8.
蛋白质二级结构预测是公认的生物信息学领域的国际性难题。以基于内在认知机理的知识发现理论(knowledge discovery theory based on inner cognitive mechanism, KDTICM)理论的扩展性研究与数据库中的知识发现(knowledge discovery in database*, KDD*)模型为基础,提出一种基于结构序列的多分类算法--SAC(structural association classification),可以有效地解决蛋白质二级结构预测问题。该算法借助设定支持度阈值的精化知识库的方法,其预测准确率能够超过85%。以该算法为核心,构建了一个蛋白质二级预测模型--复合金字塔模型。实验证明,在RS126、CB513、ILP数据集上的预测准确率均超过80%,超过目前已知的国际主流水平。  相似文献   

9.
不均衡数据问题在我们日常生活中随处可见,例如疾病诊断,矿藏资源识别等等.对于不均衡数据的分类而言,目前基于集成学习的不均衡数据分类技术较为成熟,但现有方法都将不均衡数据作为一个整体考虑,而不区别对待不同类型的不均衡数据.事实上,不均衡数据因其不均衡比、数据维度和类别数的不同,所具有的数据分布也不同,使用统一的模型处理所有不均衡数据难以在所有数据集中都获得好的效果.基于此,本文提出了一种基于差分演化算法的自适应集成学习算法(adaptive multiple classifier system based on differential evolution algorithm,DE-AMCS),使得针对不同的不均衡数据,系统能够选择最优的集成学习模型来完成分类任务.本文选择了KEEL数据集中的10个数据集进行测试,测试结果与5个现有的集成分类算法进行了对比,实验表明DEAMCS相比于对比算法,分类精度上有明显的提升.最后,本文将DE-AMCS应用到江汉油田某区五口井的石油储层含油性的识别中,在每口井的含油性识别中,精度均达到了100%.  相似文献   

10.
本文基于协同训练模型(co-training)提出了一种新的在线虚假评论识别方法CoDeRI以解决虚假评论识别中模型训练数据不足的问题.对同一评论信息,本文通过构建两个特征视图相互学习以识别虚假评论信息:视图一的特征来自于评论文本的词项(Term);视图二的特征来自于对评论进行深度语法树分析之后得到的概率上下文无关语法规则(PCFG,probabilistic context-free grammars).利用朴素贝叶斯(naïve Bayes)作为基分类器,本文提出了两种特定于CoDeRI方法的分类后样本选择策略:CoDeRI-C策略和CoDeRI-U策略.CoDeRI-C策略在对未标注信息进行标注之后,选取分类置信度最高的评论信息以扩大训练样本集;CoDeRI-U策略则随机均匀的选取标注之后的评论信息以扩大训练样本集.实验表明,CoDeRI算法在虚假评论信息识别上与现有方法相比能够取得较好的分类结果.并且,CoDeRI-U策略的虚假评论识别准确率优于CoDeRI-C策略.本文的研究为电子商务中的平台、商家和消费者如何识别在线虚假评论提供了一定的管理启示.  相似文献   

11.
基于Markov blanket和互信息的集成特征选择算法   总被引:1,自引:0,他引:1  
针对大量无关和冗余特征的存在可能降低分类器性能的问题,提出一种基于近似Markov blanket和动态互信息的特征选择算法并将其应用于集成学习,进而得到一种集成特征选择算法。该集成特征选择算法运用Bagging方法结合提出的特征选择方法生成基分类器,并引入基分类器差异度进行选择性集成,最后用加权投票法融合所选基分类器的识别结果。通过仿真实验验证算法的有效性,以支持向量机(support vector machine, SVM)为分类器,在公共数据集UCI上进行试验,并与单SVM及经典的Bagging集成算法和特征Bagging集成算法进行对比。实验结果显示,该方法可获得较高的分类精度。  相似文献   

12.
针对多类别不均衡数据的分类问题,从数据集的特征选择和集成学习两个角度出发,提出了一种新的针对不均衡数据的分类方法—BPSO-Adaboost-KNN算法,算法采用基于多分类问题的可视化的AUCarea作为分类评价指标.为了测试算法的性能,本文选取了10组UCI和KEEL选取的测试数据集进行测试,结果表明本算法在有效提取关键特征后提高了Adaboost的稳定性,在十组数据的分类精度上相比单纯使用KNN分类器有20%~40%不等的提高.在本算法和其他state-of-the-art集成分类算法对比中,BPSO-Adaboost-KNN能够取得较优或相当的结果.最后,本文将该算法应用到石油储层含油性的识别中,成功提取了声波、孔隙度和含油饱和度三个关键属性,在分类精度上相比传统分类算法有了大幅度提高,在江汉油田五口油井oilsk81~oilsk85上的分类精度均达到98%以上,比单纯使用KNN的精度高出了20%,尤其在最易错分的油层和差油层中有良好的分类效果.  相似文献   

13.
一种用于实时可视化的海量地形数据组织与管理方法   总被引:16,自引:0,他引:16  
针对海量地形数据实时可视化,提出了一种瓦片金字塔模型和线性四叉树索引相结合的地形数据组织方法,利用视景体裁剪、基于分辨率测试的目标瓦片快速搜索算法和瓦片请求预测机制实现了场景数据的动态管理。实验结果表明,该研究成果能够实现真实感海量地形数据的实时可视化与交互操作。  相似文献   

14.
针对有标签样本较少条件下的通信信号调制识别问题, 提出一种基于集成学习与特征降维的小样本调制方式分类模型。首先,通过集成人工特征与深度学习自动提取特征构成特征集合。然后,设计特征选择算法对特征合集进行优选生成高效特征子集。最后, 利用可快速收敛的高性能分类器对信号进行区分, 实现在少量有标签样本和大量无标签样本条件下的调制方式分类。仿真结果表明, 通过对8种数字信号进行调制识别, 在信噪比为20 dB时, 所提算法可将信号最高识别率提升至96%, 同时该算法设计简单, 具有较大应用价值。  相似文献   

15.
Association rule mining plays an important role in knowledge and information discovery. Often for a dataset, a huge number of rules can be extracted, but many of them are redundant, especially in the case of multi-level datasets. Mining non-redundant rules is a promising approach to solve this problem. However, existing work (Pasquier et al. 2005, Xu & Li 2007) is only focused on single level datasets. In this paper, we firstly present a definition for redundancy and a concise representation called Reliable basis for representing non-redundant association rules, then we propose an extension to the previous work that can remove hierarchically redundant rules from multi-level datasets. We also show that the resulting concise representation of non-redundant association rules is lossless since all association rules can be derived from the representation. Experiments show that our extension can effectively generate multilevel non-redundant rules.  相似文献   

16.
针对跳频电台指纹特征差异细微、对噪声影响敏感,同时非合作条件下跳频信号的识别训练标签数据不足问题,提出了一种基于合作表征分类器(collaborative representation classifier, CRC)的半监督条件下跳频电台指纹特征识别算法。以跳频电台开机瞬态信号的包络特性作为电台个体的指纹特征,利用对噪声“不敏感”的高阶累积量估计来抑制噪声;通过构造半监督条件下的CRC实现对未标定训练数据的有效利用。实验表明,与传统有监督训练相比,该方法在抑制噪声的同时,能够充分利用未标定训练数据特征,对目标特征具有更高的识别率。  相似文献   

17.
基于GMDH的“一步式”客户流失预测集成建模   总被引:1,自引:1,他引:0  
在客户流失预测问题中, 客户数据的特征往往会影响模型的预测效果.分析了常用的“两步式”客户流失 预测方法的不足,提出了基于数据分组处理(GMDH)技术的“一步式”客户流失预测集成研究框架.该框架一方面 将数据预处理和客户流失预测建模过程进行集成,另一方面用多分类器集成策略进行客户流失预测建模.以客户数据类别分布不平衡的客户流失预测问题为例,构建了与数据特征相适应的“一步式”集成模型. 实证结果表明,该方法能够更有效地进行客户流失预测.  相似文献   

18.
无向马尔科夫毯结构是属性和类变量之间的最重要依赖结构之一,建立无向马尔科夫毯分类器的核心是无向马尔科夫毯结构学习。针对现有无向马尔科夫毯结构学习方法具有低效率和可靠性,以及不具实用性等问题,基于贝叶斯网络理论、马尔科夫网络理论和依赖分析方法进行具有多项式复杂度的无向马尔科夫毯结构和分类器学习,来避免这些问题。并建立最优性定理、可转换定理、可靠性定理和局部化定理为其提供理论依据。同时,对小例子集情况,给出了近似学习方法,并将无向马尔科夫毯分类器扩展为联合分类器,以有效地进行小例子集分类。  相似文献   

19.
针对从“人在回路”兵棋推演的复盘数据中提取推演者战术经验高价值知识的问题,提出一种基于深度神经网络从复盘数据中学习战术机动策略模型的方法。将战术机动策略建模为在当前态势特征影响下对目标候选位置进行优选的分类问题:梳理总结影响推演者决策的关键认知因素,定义了由机动范围和观察范围等7个属性构成的基础态势特征,建立了带有正负样本标注的态势特征数据集;设计了基于卷积神经网络的分类器,以分类概率实现了单个棋子战术机动终点位置的预测。实验结果表明:该模型的预测准确率可达到78.96%,相比其他模型提高至少4.59%。  相似文献   

20.
集成学习的多分类器动态融合方法研究   总被引:5,自引:0,他引:5  
AdaBoost集成学习方法中,分类器一经学习成功,其投票权值就已确定,同一分类器对所有待测样本均有相同的投票权值。对于难于分类样本,具有良好分类性能的少数分类器权值却较低。提出适用于集成学习方法的权重自适应调整多分类器集成算法。根据多分类器行为信息,产生待测样本局部分类精度的有效判定区域,基于有效判定区域选择不同的分类器组合,并调整其相应权重,利用样本集上的统计信息来动态指导分类集成判决。实验结果表明,该算法提高了集成分类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号