首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
研究了基于聚类技术提高分类器差异性的方法.通过Bootstrap技术与分类器学习算法训练分类器模型,利用分类器在验证集上的分类结果作为聚类的数据对象;然后应用聚类算法对这些数据聚类,并在每个簇中选择分类器代表模型,以此构成集成学习的成员;最后应用融合方法实验研究了基于聚类技术提高差异性的集成学习性能,并与集成学习方法bagging,adaboost进行了实验比较.  相似文献   

2.
为了解决单个SVM可能产生的泛化能力恶化问题以及当SVM采用一对多组合策略解决多类分类时可能产生的误差无界情况,本文采用Bagging方法构造了一个基于SVM的多类分类集成模型,利用MIT KDD 99数据集进行仿真实验,通过实验探讨了其中的两个参数——训练样本数和单分类器个数对集成学习效果的影响,并将其与采用全部样本进行训练及部分样本进行训练的单分类器检测进行了比较。结果表明:集成学习算法能够有效降低采用全部样本进行训练所带来的计算复杂性,提高检测精度,而且也能够避免基于采样学习带来检测的不稳定性和低精度。  相似文献   

3.
收集大量网站的包含30个特征属性的数据,用k-means属性聚类方法将特征属性划分为不同类别,利用不同类别中的属性数据训练基础分类器,通过集成各基础分类器的结果对未知网站进行预测.采用简单投票和贝叶斯投票对结果进行组合预测,结果表明,k-means属性聚类方法大大增加了基础分类器的差异性,提高了分类检测的精度,其中基于贝叶斯投票策略的集成模型具有很高的检测精度.  相似文献   

4.
集成学习是分类多变量时间序列的有效方法.然而集成学习对基分类器性能要求较高,基分类器组合算法优劣对分类效果影响较大.为此,提出一种基于Shapelets的多变量D-S(Dempster/Shafer)证据加权集成分类方法.首先,在单变量时间序列上学习得到基分类器Shapelets,基分类器的分类准确率确定为其在多分类器...  相似文献   

5.
本文提出了一种针对类分布不平衡数据流的分类算法。首先,针对数据流的类分布不平衡,采用改进的重采样方法,建立平衡的训练子集;然后,采用支持向量机在平衡的训练子集上建立基分类器;最后,采用WE集成模型组合基分类器,构建不平衡数据流的集成分类器。该算法通过设定相邻数据块的F-value的差值大于等于某一阈值作为更新分类器的标准,同时在更新分类器时引入错分正类实例重新训练基分类器。实验结果表明该算法不仅对正类有较好的分类性能,对整体也有较好的分类性能。  相似文献   

6.
为了更好地解决DNA微阵列数据的分类问题并进一步提高系统的识别率,提出了一种用于DNA微阵列数据分类的演化硬件多分类器Ada Boost选择性集成学习方法.在系统集成阶段,介绍了2种改进的Ada Boost算法,分别探讨了以样本标记提升抽样有效容量和直接面向组合分类器分类精度提升的选择性集成策略.对急性白血病、肺癌、结肠癌数据集进行了试验.结果表明,基于Ada Boost集成学习的演化硬件方法对白血病、肺癌、结肠癌的平均识别率为97.06%,99.32%,和94.44%.相对于传统演化硬件集成学习方法,文中方法保证更优识别率的同时有效降低了硬件实现代价.  相似文献   

7.
为同时保证基分类器的准确性和差异性, 提出一种基于聚类和AdaBoost的自适应集成算法. 首先利用聚类算法将训练样本分成多个类簇; 然后分别在每个类簇上进行AdaBoost训练并得到一组分类器; 最后按加权投票策略进行分类器的集成. 每个分类器的权重是自适应的, 且为基于测试样本与每个类簇的相似性及分类器对此测试样本的分类置信度计算得到. 实验结果表明, 与AdaBoost,Bagging(bootstrap aggregating)和随机森林等代表性集成算法相比, 该算法可取得更高的分类精度.  相似文献   

8.
针对垃圾短信过滤问题,提出了一种亚文档集成学习方法.该方法采用亚文档集成学习框架将短文本在线二值分类问题转化成若干个子分类问题,并通过线性组合多个子问题的分类结果得出最终的分类预测.利用基于串频索引的文本分类算法实现了一种有效的弱分类器.实验数据表明亚文档集成学习框架能够提高现有文本分类算法的效能,而在亚文档集成学习框架下,基于串频索引的弱分类器过滤效果最佳.  相似文献   

9.
为了能够精准可靠地估计太阳能辐照度,本文提出一种基于贝叶斯模型组合的随机森林算法用于太阳能辐照度预测.首先,引入K-means聚类和K折交叉验证将气象数据训练集生成多个训练子集,以增加训练子集的多样性并保证均匀采样.其次,将随机森林作为基学习器建立集成学习预测模型,导入训练子集并训练各个随机森林.之后,依据各个随机森林在验证集上的预测性能,采用贝叶斯模型组合算法制定组合策略.个体随机森林在测试集上的预测值经过模型组合策略得到最终输出.最后,基于气象实测数据建立仿真实验,并引入其他四种预测方法进行对比仿真研究,通过实验结果验证了文中所提出预测方法在太阳能辐照度预测问题中的准确性和可靠性.  相似文献   

10.
人脸检测(FaceDetection)是指对任意一幅给定的图像,采用一定的策略对其进行搜索以确定其中人脸位置.目前学术界具有代表性的人脸检测算法包括基于肤色分割的方法、基于启发式规则的方法、基于特征脸的方法、基于聚类学习的方法和基于人工神经网(ANN)的方法[1]等,特别ViolaP通过综合Adaboost和Cascade算法[2],采用若干个弱分类器组合为强分类器的策略,检测速度得以明显提高.支持向量机(SVM)是Vapnik等提出的基于结构风险最小化原理的统计学习理论[3].它比基于经验风险最小化(EmpiricalRiskMinimizationPrinciple,ERM)的人工神经网方…  相似文献   

11.
分类器链是利用标签间相关性实现挖掘特定对象多维标记信息的重要多标签分类方法.面向现有分类器链算法,针对各标签的基学习器均在完整特征空间中训练导致学习特征冗余,以及因标签学习顺序随机且分类器链训练过程单向无反馈导致的标签间相关信息利用不充分等问题,本文提出一种结合类属特征及因果发现的序列优化分类器链.该方法采用类内仿射传播聚类为每个基学习器构建高级结构化特征,减少冗余信息;利用条件熵准则挖掘标签间因果关系,优化学习序列提高对标签间相关信息的利用程度.在多个公开数据集的实验结果表明,序列优化分类器链有效增强了单节点学习效果以及对多标签间关联信息的利用,有效提升了多标签分类效果,实用价值高.   相似文献   

12.
针对采用大样本离线训练的车辆识别分类器在新场景中性能显著下降的问题,提出了一种具有样本自标注能力的车辆识别迁移学习算法,并采用概率神经网络(probability neural netw ork,PNN)进行分类器训练.首先,提出一种基于多细节先验信息的样本标注策略,融合复杂度、垂直平面和相对速度等先验信息实现新样本的自动标注;然后,充分利用PNN训练速度快以及增加新样本时只需分类器进行局部更新的特点,将其引入到分类器训练模型中,取代传统机器学习算法中的Adaboost分类器.实验结果表明:该算法在新场景下的新样本标注准确率高达99.76%.通过迁移学习,新场景的车辆识别分类器性能较通用分类器在检测率和误检率指标上均有显著提升.  相似文献   

13.
提出一种适用于超多类手写汉字识别的新改型Adaboost算法,采用基于描述性模型的多类分类器(modified quadratic discriminant function,MQDF)作为Adaboost基元分类器,可直接进行多类分类,无需将多类问题转化为多个两类问题处理,其训练复杂度大大低于已有的多类Adaboost算法。算法提出根据广义置信度更新样本权重,实验证明这种算法适用于大规模多类分类问题。为了降低算法的识别复杂度,提出从所有训练后得到的Adaboost基元分类器组中选择一个最优的基元分类器作为最终分类器的方法进行删减。在HCL2000及THOCR-HCD数据集上进行实验证明,所提改型Adaboost算法提高了识别率的有效性,该算法的相对错误率比现有最优算法分别下降了14.3 %,8.1 %和19.5 %。  相似文献   

14.
一种改进的神经网络集成法预测PMV指标   总被引:2,自引:0,他引:2  
为解决大样本的PMV指标预测问题,采用基于模糊聚类的神经网络集成方法,将原始样本集模糊划分为多个相交子集,通过这些模糊子集训练神经网络得到预测个体,再对个体输出加权结合获得预测结果.在进行神经网络集成过程中,采用微粒群算法有效克服了聚类和常规神经网络训练容易陷入局部最优的缺点,总结出一种更加有效的神经网络集成方法.实验结果表明:基于微粒群的神经网络集成算法有较好的全局优化性能,其集成的神经网络系统能更准确地预测PMV指标.  相似文献   

15.
为解决由多个二类代价敏感算法扩展而成的多类算法存在时间复杂度高和不能区分错分代价的问题,提出一种采用多类代价指数损失函数的多类代价敏感AdaBoost算法(MCCSADA)。为保证算法的代价敏感特性,首先设计一种满足代价敏感损失函数设计准则的多类代价敏感指数损失函数;然后将此损失函数作为评价分类器性能的标准,以最小化损失函数为目的使用逐步叠加模型推导算法的最优基分类器加权系数;最后使用多类代价损失函数和最优基分类器加权系数求解公式替换多类AdaBoost算法的损失数和加权系数求解公式,得到代价敏感的MCCSADA算法。使用UCI数据集对算法进行验证,实验结果表明:算法的稳定性得到了提升,退化现象被减弱;相比于由两类代价敏感算法通过一对一方法扩展而来的多类代价敏感算法,MCCSADA算法在大多数情况下能够取得更低的代价,而且具有较低的时间复杂度,在3类数据集上的时间复杂度降低约40%,并且随着类别数的增多效率提升更加明显。  相似文献   

16.
基于集成学习的思想,提出一种分布式聚类模型.该模型的分布式处理过程分为2个阶段:先在局部站点局部聚类,然后在全局站点全局聚类.局部站点的局部聚类看作是一种基于数据子集的学习过程,所有的局部聚类结果组成了聚类集成系统的个体学习器,全局聚类采用平均法对局部结果进行集成,并定义了一个准则函数来度量集成的精度.把K-means算法推广到分布式环境,提出一种基于该模型的分布式K均值算法DK-means,该算法对局部数据的分布有较强的伸缩性.实验结果表明,DK-means在同等条件下能达到集中式聚类的精度水平,是有效可行的,从而验证了基于集成学习的分布式聚类模型的有效性.  相似文献   

17.
赵晖 《科学技术与工程》2012,12(23):5797-5800
为了进一步提高网络入侵检测的效果,提出一种基于聚类集成的入侵检测算法。首先利用Bagging算法从训练集中生成多个训练子集。然后调用模糊C均值聚类算法训练并生产多个基本聚类器。然后利用信息论构造适应度函数。采用粒子群算法从上述聚类集体中获得一个具有最优性能的集成聚类器。仿真实验结果表明,该算法能有效的提高入侵检测的精度,具有较高的泛化性和和稳定性。  相似文献   

18.
针对国内车牌字符的多样性和识别效率不高的现状,文中利用模板匹配和集成学习思想设计了一种新颖的识别算法.该算法由特征加权模板的方法构建弱分类器,经AdaBoost快速提升成强分类器,利用图像的整体灰度信息,缩短大量Haarlike特征的训练时间,克服单一特征弱分类器的不稳定性.仿真实验表明,该算法能够获得较好的字符识别率和稳定性.  相似文献   

19.
传统基于单位点的全基因组关联研究存在重复性低、难以解释性等缺陷,而采用基于机器学习的上位性分析中面临计算复杂度高、预测准确度不足等问题.本文提出一种分析全基因组上位性的新方法,该方法采用二阶段框架的上位性分析方法,它包含特征过滤阶段以及上位性组合优化阶段,在特征过滤阶段提出了多准则融合策略,从多个不同角度评价遗传变异位点,以保证易感的弱效位点能被保留,然后采用多准测排序融合策略剔除与疾病状态关联程度低的遗传变异,进一步在上位性组合优化阶段采用贪婪算法启发式地搜索组合空间,以降低时间复杂度,最后采用支持向量机作为上位性评价模型.实验中采用不同的连锁不平衡参数与经典算法SNPruler与ACO的性能进行对比,实验结果表明:本文方法能有效保留弱效位点,一定程度上提高了疾病预测的正确度.  相似文献   

20.
集成分类器是目前图像隐写分析中广泛使用的分类器。针对集成分类器中基分类器受离群样本影响较大,集成策略效果不佳的缺点,提出一种基于改进Fisher准则与极限学习机集成的图像隐写分析算法。首先,通过重新定义类内散度矩阵以提高Fisher准则模型的准确性,之后基于改进的Fisher准则并使用Bagging算法训练若干基分类器,最后使用极限学习机作为元分类器来建立基分类器集合与正确决策之间的联系。实验结果表明,在不同的隐写算法与嵌入率的条件下,与传统集成分类器和基于选择性集成的集成分类器相比,所提算法降低了3.5%与1.8%的检测错误率,说明能够有效提高集成分类器的检测精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号