首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
本研究提出基于妊娠早期体检、基因信息,结合集成学习的妊娠期糖尿病预测分类方法.设计了基于Stacking框架的改进模型ACS-Stacking.ACS-Stacking模型将基分类器输出的类别概率值作为基层输出结果,元层使用GBDT模型学习组合基层输出的类别概率结果,拓展了算法的层次结构.在基分类器层与元分类器层之间加入基分类器筛选层,通过CFS算法估计不同分类器集合中个体分类器准确性与多样性的权衡值,筛选出最佳基分类器集合,实现基分类器的自适应选择.研究结果表明,该模型F1值较单一模型提高约9%,较Stacking模型提高约7%,具有较好的预测准确性和稳定性.  相似文献   

2.
整合创新数据预处理技术与集成算法利用不平衡数据探讨了公司破产预测问题。首先,运用冗余信息处理方法、不同抽样方法等对不平衡数据进行预处理。其次,以5.0分类器(Classifier 5.0,C5.0)决策树和单隐层前馈神经网络作为基分类器,分别与三类重抽样数据预处理技术结合,择出最优抽样法。再次,结合自助汇聚法提升分类效果,并运用十折交叉验证的受试者操作特征曲线的下方面积进行评价,对比了两基分类器的集成模型。最后,运用加利福尼亚大学尔湾分校数据库中一万多家波兰制造业公司的实际数据进行实验验证。实验结果表明:欠抽样或人工少数类过采样法与神经网络结合的集成模型分类效果最优,为企业实施破产预测提供积极支撑。  相似文献   

3.
收集大量网站的包含30个特征属性的数据,用k-means属性聚类方法将特征属性划分为不同类别,利用不同类别中的属性数据训练基础分类器,通过集成各基础分类器的结果对未知网站进行预测.采用简单投票和贝叶斯投票对结果进行组合预测,结果表明,k-means属性聚类方法大大增加了基础分类器的差异性,提高了分类检测的精度,其中基于贝叶斯投票策略的集成模型具有很高的检测精度.  相似文献   

4.
提出一种基于聚类的启发式选择性集成学习算法.集成学习通过组合多个弱分类器获得比单一分类器更好的学习效果,把多个弱分类器提升为一个强分类器.理论上来说弱分类器的个数越多,组合的模型效果越好,但是随着弱分类器的增多,模型的训练时间和复杂度也随之递增.通过聚类的方法去除相似的弱分类器,一方面有效降低模型的复杂度,另一方面选出差异性较大的弱分类器作为候选集合.之后采用启发式的选择性集成算法,对弱分类器进行有效的组合,从而提升模型的分类性能.同时采用并行的集成策略,提高集成学习选取最优分类器子集效率,可以有效地减少模型的训练时间.实验结果表明,该算法较传统方法在多项指标上都有着一定的提升.  相似文献   

5.
提出一种蛋白质二级结构预测的新方法.该方法首先对数据集中的氨基酸序列利用PSI-BLAST程序进行同源序列搜索,得到相应的PSSM矩阵,然后利用滑动窗口方法对矩阵进行编码,得到分类器的输入.采用分类器集成,将所有的样本划分成9个互斥训练集对单个子分类器进行训练.然后,9个单独的0-1子分类器通过最大投票法进行集成,形成识别一种特定的蛋白质二级结构的0-1分类器.这样3个0-1分类器模型通过串行集成,可以对蛋白质的三种二级结构(H/E/C)进行识别.通过对标准数据集RS126,CB396,CB513进行测试发现,对于同一分类器,利用PSSM矩阵作为分类器输入的预测准确率要高于直接将蛋白质序列作为输入的预测率.  相似文献   

6.
研究了基于聚类技术提高分类器差异性的方法.通过Bootstrap技术与分类器学习算法训练分类器模型,利用分类器在验证集上的分类结果作为聚类的数据对象;然后应用聚类算法对这些数据聚类,并在每个簇中选择分类器代表模型,以此构成集成学习的成员;最后应用融合方法实验研究了基于聚类技术提高差异性的集成学习性能,并与集成学习方法bagging,adaboost进行了实验比较.  相似文献   

7.
基于董事会治理因素的财务危机预警模型的构建   总被引:1,自引:0,他引:1  
企业在经营过程中存在着越来越多的财务风险,为了防止这些风险演变为财务危机,及时进行财务危机预警分析,就需要理顺公司的治理结构,引入董事会治理因素来完善财务危机预警机制.以120家上市公司为研究对象,分别运用非参数检验、T检验以及主成分分析对财务变量和董事会治理变量进行筛选,进而运用Logistic回归分析构建预警模型.结果显示,未引入董事会治理变量的模型的预测正确率为92.5%,而引入董事会治理变量的模型预测正确率为94.15%,预警能力明显增强,也说明,董事会治理因素是影响公司财务危机的一个重要方面.  相似文献   

8.
针对传统随机向量函数链接网络集成模型时多样性不足和泛化性能差的问题,提出一种改进的随机向量函数链接集成模型.首先,通过6种简单回归模型替代传统随机向量函数链接网络中的直接链接;其次,采用高斯过程回归(Gaussian process regression, GPR)方法初始化隐含层参数,增强各基分类器的多样性;最后,使用不同的结合策略,集成具有差异性的基分类器得到预测模型.结果表明,改进的随机向量函数链接集成模型的预测精度明显高于其他传统集成模型,较传统随机向量函数链接网络具有更好的泛化性能.  相似文献   

9.
近年来,我国经济飞速发展,但也存在影响经济发展因素,它可能使企业陷入财务危机,因此非常有必要建立财务预警系统。本文通过建立判别分析预警模型对财务困境进行预测,经实证研究得知该模型对检验样本的预测正确率为80%,说明判别分析方法对上市公司的财务危机具有较好的预测效果。  相似文献   

10.
为获得改进的分类算法BP_Adaboost,利用思维进化算法(MEA)和列文伯格-马夸尔特算法(LM)结合改进的BP神经网络作为弱分类器,由改进的弱分类器集成得到MEA-LM-BP_Adaboost算法.提出了基于MEA-LM-BP_Adaboost算法的首轮融资时总票房分类预测方法,该方法包括变量选取及操作化处理、网络参数优化、MEA改进弱分类器、LM算法改进弱分类器、MEA-LM-BP_Adaboost算法的流程设计、待预测电影验证6个部分.选用2013~2018年的245部国产电影作为样本验证该预测方法和模型,测试集分类准确率可达73.3%.最后在模型准确率、稳定性、K折交叉验证3方面进行模型整体性能比较,结果表明本文提出的模型整体性能最好.  相似文献   

11.
Support vector machines (SVMs) have been introduced as effective methods for solving classification problems. However, due to some limitations in practical applications, their generalization performance is sometimes far from the expected level. Therefore, it is meaningful to study SVM ensemble learning. In this paper, a novel genetic algorithm based ensemble learning method, namely Direct Genetic Ensemble (DGE), is proposed. DGE adopts the predictive accuracy of ensemble as the fitness function and searches a good ensemble from the ensemble space. In essence, DGE is also a selective ensemble learning method because the base classifiers of the ensemble are selected according to the solution of genetic algorithm. In comparison with other ensemble learning methods, DGE works on a higher level and is more direct. Different strategies of constructing diverse base classifiers can be utilized in DGE. Experimental results show that SVM ensembles constructed by DGE can achieve better performance than single SVMs, hagged and boosted SVM ensembles. In addition, some valuable conclusions are obtained.  相似文献   

12.
基于广义朴素贝叶斯分类器的空值处理方法   总被引:1,自引:1,他引:0  
给出了基于广义朴素贝叶斯分类器的空值处理方法,该方法利用广义朴素贝叶斯分类器的较强预测能力及灵活的效率选择方式,有效地解决了数据中的空值处理问题.利用模拟数据进行了对比实验,结果显示,其预测准确性明显提高.  相似文献   

13.
基于电弧声信号的CO2焊接状态模式识别   总被引:1,自引:1,他引:0  
CO2气体保护焊接电弧声信号与焊接参数和电弧状态密切相关,但由于存在高度的复杂性和非线性性,难以直接用于焊接过程监控.在对不同保护气流量和焊炬高度下电弧声信号频谱分析的基础上,采用线性预测编码(LPC)方法建立其参数化模型,利用LPC预测系数和反射系数构造特征向量,通过样本训练分别建立了RBF神经网络和支持向量机(SVM)模型,进行CO2气体保护焊接下气流量和焊炬高度识别和分类.测试结果表明,电弧声LPC预测系数和反射系数作为输入向量训练的RBF网络或SVM模型均能一定程度上实现保护气流量和焊炬高度的正确识别。其中采用LPC反射系数时结果优于预测系数;SVM模型的分类能力明显优于RBF网络,且不随训练样本的减少急剧下降.  相似文献   

14.
提出了一系列基于搜索结果页面的特征用于学习分类器,自动预测用户的偏好性,并尝试将预测模型与用户实验结合起来。实验结果表明,尽管异质环境下搜索结果页面有着丰富的信息,但仅基于搜索结果页面的展现形式难以对用户的偏好性做出可靠的预测。  相似文献   

15.
针对目前大规模基因数据集中存在大量的噪声和冗余基因这一问题,提出了一种基于置换检验的两步基因特征选择算法。该算法首先采用方差分析过滤噪声基因,然后采用相关系数过滤冗余基因,最后结合置换检验的方法,可以高效、自主地处理大规模基因数据集。采用PAM(prediction analysis for microarrays)分类器,在RSCTC 2010 Discovery Challenge提供的12个竞赛数据集作基因特征选择与分类实验,实验结果表明,提出的算法能够选择高分辨、低冗余的基因子集,与目前其他基因特征选择算法相比,可以提高分类器性能。  相似文献   

16.
Introduction ThecurrentHTML basedWebismainlydesignedfor humanstobrowseanduse.Themajorityofthewebpages areinhumanreadableformatonly,somachinescannot understandandprocessthisinformation,andmuchofthe potentialofthewebhassofarremaineduntapped.The traditionalwebhasreacheditscrucialpoint.TimBerners Lee,inventoroftheweb,hascoinedthetermSemantic Webtodescribetheapproachthataugmentthewebwith languagesthatmakethemeaningofwebpagesexplicit[1].Thevisioninthesemanticwebcanberegardedasdata interoperation…  相似文献   

17.
为了提高蛋白质O-糖基化位点的预测准确率,提出了把核主成分分析(KPCA)与支持向量机(SVM)相结合的方法。实验样本用稀疏编码方式编码,窗口长度为21。首先,用核主成分分析提取了样本的核主成分(特征);然后,在特征空间中用改进的支持向量机(ISVM)进行分类(预测)。在使用支持向量机分类时,设置了一个边界系数来减少运算的复杂度。实验结果表明,使用KPCA ISVM的方法预测的效果优于PCA SVM的预测效果。预测准确率为87%。更进一步,用不同长度的样本做实验(w=5,7,9,11,21,31,41,51),使用多数投票法综合各子分类器的优势。结果表明,组合分类器的预测准确率优于子分类器的预测准确率,预测准确率为88%。  相似文献   

18.
基于可信多数投票的快速概念漂移检测   总被引:1,自引:0,他引:1  
数据流因具有数据持续到达,概念漂移产生时刻无法预测、概念的数量不确定等特征,使得滑动窗口的大小很难事先确定,滑动窗口包含概念的数量对概念漂移检测存在影响.本文提出了基于可信多数投票的快速概念漂移检测算法(CMV_SEA),该算法使用SEA算法中的基分类器淘汰方法,使用可信多数投票实现滑动窗口中基分类器的集成.仿真实验表明:相比于SEA算法,CMV_SEA算法提高了泛化能力;能在新概念产生的第一时间内检测到概念漂移;对概念漂移的检测能力和新概念的学习能力不受滑动窗口大小的影响.  相似文献   

19.
Owing to the radical changing of Chinese economy, it is essential to build an effective financial distress prediction model. In this paper, we present a genetic algorithm (GA) approach for optimizing parameters of support vector machine (SVM). We validate the proposed model on datasets of Chinese high-tech manufacturing industry. Experimental results reveal that the proposed GA-SVM model can compare to and even outperform other exiting classifiers. Compared to grid-search algorithm, the proposed GA-based takes less time to optimize SVM parameter without degrading the prediction accuracy of SVM.  相似文献   

20.
评价准则对分类器的构建起着重要作用, 在不平衡数据学习(IDL)中这更是如此. 众多研究已表明, 绝大部分传统的以精度准则为优化目标而获得的分类器是不适于IDL的. 那么其他准则又如何呢? 本文致力于回答这个问题. 通过在支持向量机(SVM)模型上进行“元学习”(Meta-Learning), 我们研究了若干常用的评价准则对IDL的影响, 这些准则包括ACC(精度)、BAC(平衡精度)、 GMean(几何平均)、F1(F1得分)、 IG(信息增益)、AUC(ROC曲线下方图面积)以及本文提出的两个新准则GAF和GBF. 在16个来自UCI的不平衡数据集上进行了仿真实验; 对实验结果的统计分析表明, 不同的准则对分类器性能的影响有显著差异. 即便是对于先进的学习方法SVM而言, 若以精度准则最大化选择分类器, 那么得到的SVM分类器也容易偏向预测多类(majority class). 然而, 通过在其他准则上优化, 我们能输出纠偏了的SVM分类器, 它们的整体性能更高, 尤其是在预测少类(minor class)能力方面得到了显著提高. 进一步地, 仿真实验发现在GAF以及GBF准则上优化所得的SVM分类器具有稳定且良好的性能, 这表明它们是值得采用的评价准则.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号