首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
融合样本选择与特征选择的AdaBoost支持向量机集成算法   总被引:2,自引:0,他引:2  
为提高AdaBoost分类器集成算法的分类精确度并简化分类系统的复杂度,提出一种融合样本选择与特征选择的AdaBoost支持向量机集成算法(IFSelect-SVME)。该算法在AdaBoost算法的每个循环中利用加权免疫克隆样本选择算法进行样本选择,并用互信息顺序向前特征选择算法进行特征选择,再利用每个循环优化选择得到的特征样本子集训练个体SVM分类器,并对其进行加权集成,生成最终的决策系统。对实验所用9组UCI数据集的仿真结果表明:与支持向量机集成(SVME)算法相比,IFSelect-SVME算法的正确分类率有所提高,且样本数可减少30.8%~80.0%,特征数可减少32.2%~81.5%,简化了集成结构,缩短了测试样本的分类时间,所得到的分类系统具有更好的分类精度。  相似文献   

2.
《河南科学》2016,(1):55-61
针对铁路货运量预测中预测方法单一、准确度不高、泛化能力弱问题,基于参数化模糊逻辑理论,结合前序法选择策略,提出了一种新的基于Yager三角范数的选择性集成学习模型,并应用于铁路货运量预测.采用5种常用的单预测模型作为候选基学习机模型,以误差率作为评价指标,采用前序选择策略选定2种基学习机进行集成预测;以遗传算法和最小二乘法确定集成模型的参数,实现铁路货运量预测基学习机的最优组合.试验结果显示,对比单预测模型、最优组合预测模型和均方误差导数预测模型,新提出的选择集成模型取得了最低的误差率,表明其在铁路货运量预测中能够有效提高预测精度.  相似文献   

3.
在污水处理过程故障会导致出水水质下降、运行费用增高甚至造成环境的二次污染,而污水处理故障诊断数据的典型不平衡特性,严重影响了故障诊断的效果,尤其会导致故障分类的正确率偏低.针对此问题,文中提出了一种基于加权极限学习机的改进Bagging集成污水处理故障诊断建模方法;以加权极限学习机为基分类器,以Bagging集成框架建立集成分类器;定义可调整的过采样倍率公式,通过虚拟少数过采样算法(SMOTE)对少数类样本进行过采样,以保证基分类器间的多样性;以不平衡分类性能指标G-mean值为基础,定义新的基分类器输出权值更新公式,以提高故障类别识别率.仿真实验表明,该污水处理故障诊断模型的性能优于其他对比算法,可有效提高G-mean值和整体分类正确率,特别是提高了故障类别的识别正确率.  相似文献   

4.
为了解决传统方法不能按照训练样本量设计最优网络模型,集成效率低的弊端,通过机器学习方法研究数据库小数据集并行集成方法。机器学习选用朴素贝叶斯算法,依据条件独立性假设,通过计算目标先验概率,采用贝叶斯定理求出其后验概率,对后验概率进行比较,完成决策分类,对基分类器进行训练,把不同朴素贝叶斯基分类器当成集成分类器,在原始数据库上对基分类器进行训练,依据分类结果对数据库中小数据集样本分布进行调整,将其当成新数据集对基分类器进行训练,按照基分类器的表现,通过加权将其组合在一起,产生强分类器,实现对数据库小数据集的集成处理。通过MapReduce并行处理完成并行数据集成,输出并行集成结果。通过仿真实验与实例分析验证所提方法的有效性,结果表明:所提方法在训练样本规模相同的情况下有最高的分类精度和最小的波动,在不同集成规模下的分类精度一直最高,波动最小;所提方法可达到数据的最优集成,数据失效比降低,合成比提高。可见所提方法集成精度高,计算稳定性强,集成效果好,效率优。  相似文献   

5.
用于微阵列数据癌症分类的演化硬件多分类器   总被引:1,自引:0,他引:1  
针对单分类器识别率低、稳定性差的问题,提出了一种用于微阵列数据分类的演化硬件多分类器选择性集成方法.首先把经过预处理的原始训练集随机划分为训练集和验证集;然后通过对训练集的学习获得基于演化硬件的基分类器;再用验证集评价基分类器的性能,选择其中一部分较好的基分类器组成最终的分类系统;最后用独立的测试集验证系统的性能.试验结果表明,对急性白血病和结肠癌数据集的识别率分别为95.42%、88.33%,与其他的模式识别方法具有可比性;同时在识别率相当的情况下,该方法的硬件代价远低于全集成的演化硬件多分类器.  相似文献   

6.
一种基于投票的不平衡数据分类集成算法   总被引:1,自引:1,他引:0  
不平衡数据分类是机器学习的研究热点之一。传统的机器学习分类算法通常假定用于训练的数据集是平衡的,不能直接应用于不平衡数据分类。利用朴素贝叶斯和决策树对数据不平衡的敏感度不同,提出一种基于投票的不平衡数据分类集成算法。基分类器选择NB和C4.5,通过投票平均方法进行分类决策;并选择公开的不平衡数据集进行实验验证。实验结果表明,该算法能有效提高不平衡数据的分类性能,特别是对正类(少数类)的误报率较低,具有良好的鲁棒性。  相似文献   

7.
信息增益是最有效的特征选择方法之一,但在处理不平衡数据集时其分类性能却急剧下降。针对这一不足,文章从三个方面对传统信息增益进行改进,提出一种改进的信息增益特征选择方法。首先,去除特征项不出现因子以降低对分类的干扰;其次,引入最大词频比因子以抑制低频词的干扰;最后,融入类内词频分布差异离散度和类间分布差异加权离散度因子以衡量特征项在类内和类间的分布差异。在不平衡数据集上的实验结果表明,改进的信息增益不仅可以从很大程度上改善少数类的分类性能,也使总体分类性能得到了明显提升。  相似文献   

8.
对电力系统客户的精确分类可为客户提供良好的差异化管理和个性化服务.针对客户分类问题,提出了一种基于均衡优化与极限学习机的分类方法.该方法中提出了一种自适应竞争机制来平衡均衡优化的全局探索与局部挖掘能力,从而有效提升了均衡优化搜索最优解的性能.之后,将提出的均衡优化集成极限学习机对电力系统的客户进行分类.通过真实数据集上的实验表明,在不同的分类指标下,所提出的均衡优化集成极限学习机都具有良好的预测效果,可为电力系统客户管理与服务提供有效的技术手段.  相似文献   

9.
集成分类器是目前图像隐写分析中广泛使用的分类器。针对集成分类器中基分类器受离群样本影响较大,集成策略效果不佳的缺点,提出一种基于改进Fisher准则与极限学习机集成的图像隐写分析算法。首先,通过重新定义类内散度矩阵以提高Fisher准则模型的准确性,之后基于改进的Fisher准则并使用Bagging算法训练若干基分类器,最后使用极限学习机作为元分类器来建立基分类器集合与正确决策之间的联系。实验结果表明,在不同的隐写算法与嵌入率的条件下,与传统集成分类器和基于选择性集成的集成分类器相比,所提算法降低了3.5%与1.8%的检测错误率,说明能够有效提高集成分类器的检测精度。  相似文献   

10.
为了去除系统中的冗余属性,保持系统的分类能力,研究了连续值分布式数据的属性约简.给出了连续值分布式决策信息系统中邻域粗糙集的定义,讨论了分布式连续值决策信息系统中正域计算的可分解性.以保持分布式决策信息系统的正域不变为前提,探讨了分布式决策信息系统中属性的可约性,提出了分布式连续值决策信息系统的属性约简算法.为了验证该算法的有效性,在7份数据集上进行了3组实验.实验使用提出的算法对分布式数据进行属性约简,进而采用加权集成的方式进行分类测试.实验结果表明,该算法能够有效去除连续值分布式数据中的冗余属性,使得约简后的连续值分布式数据的集成分类能力与约简前相差不大.甚至更高.  相似文献   

11.
研究了基于聚类技术提高分类器差异性的方法.通过Bootstrap技术与分类器学习算法训练分类器模型,利用分类器在验证集上的分类结果作为聚类的数据对象;然后应用聚类算法对这些数据聚类,并在每个簇中选择分类器代表模型,以此构成集成学习的成员;最后应用融合方法实验研究了基于聚类技术提高差异性的集成学习性能,并与集成学习方法bagging,adaboost进行了实验比较.  相似文献   

12.
聚类集成是聚类分析中的一个重要技术手段,能有效地提高聚类结果的准确性、鲁棒性和稳定性。利用现有的聚类准则提出了一个新的评价指标,用于基聚类结果的有效性评估,并把评估值作为基聚类结果的权重来进行加权聚类集成。在UCI真实数据集上对提出的基于聚类准则融合的加权聚类集成算法进行了测试,实验表明新提出的算法比已有的集成聚类算法具有更高的准确率和回收率,可以得到更好的集成聚类结果。  相似文献   

13.
基于聚类算法的选择性神经网络集成   总被引:11,自引:0,他引:11  
为了提高集成个体的差异度,提出了一种利用聚类算法去除冗余个体的选择性集成方法,该方法通过使用神经网络作为基学习器,并在多值分类数据集上进行实验.结果表明,该技术计算效率高,精度与稳健性也与基于遗传算法的选择性集成方法相当甚至占优.  相似文献   

14.
不平衡数据广泛存在于现实世界中,严重影响了传统分类器的分类性能。本文提出了随机平衡采样算法(random balance sampling,RBS),并以此为基础提出了随机平衡采样bagging算法(RBSBagging)用于解决不平衡数据集的分类问题。最后,采用6组UCI数据集对提出的分类算法进行验证,结果表明本文提出的RBSBagging算法可以较好地解决不平衡数据集的分类问题。  相似文献   

15.
针对当前软件缺陷序列预测算法准确度不高的问题,提出了基于非线性加权的集成学习软件缺陷序列预测算法(NLWEPrediction)。该算法在常见线性集成预测算法的基础上增加了非线性回归项,回归项代表了集成预测算法中基预测算法之间的相互关系,修正了线性集成预测的偏差,并通过梯度下降法求解了模型中的参数。实验表明:NLWEPrediction在14个软件缺陷数据集上的均方误差均小于250,并且平均绝对误差均小于13。通过与基预测算法、集成预测Bagging、Stacking算法和只考虑两个分类器关系的非线性加权集成学习算法进行对比,可以看出,NLWEPrediction预测算法的均方误差和平均绝对误差显著减小,预测精度显著提高,说明在线性集成预测算法基础上增加非线性回归项,能够有效提高集成学习算法的分类效果。  相似文献   

16.
一种新的选择性支持向量机集成学习算法   总被引:6,自引:2,他引:6  
针对支持向量机(SVM)在应用于集成学习中会失效的问题,提出一种选择性SVM集成学习算法(SE-SVM),利用ξα误差估计法估计个体SVM泛化性度量,并基于负相关学习理论引入差异性度量,通过递归删除法选择出一组泛化性能优良、相互间差异性大的SVM参与集成学习.基于UCI数据的仿真实验表明,SE-SVM能够平均提高SVM的分类正确率0.4%,比常规的Bag-ging集成学习方法和负相关集成学习方法的分类正确率分别提高了0.24%和0.16%.  相似文献   

17.
随着互联网的普及和网络连接设备与访问方式的多样化,网络入侵方式与手段日趋多样化且变异速度快,传统入侵检测方法在有效性、自适应性和实时性方面难以应对日益复杂网络环境的安全监控要求,为此提出一种基于在线自适应极限学习机(online adaption extreme learning machine, OAELM)选择性学习的网络入侵检测方法(SEoOAELM-NID).首先,提出一种能自动设定最优隐含节点个数且具有在线增量学习功能的OAELM构建方法,采用Bagging策略快速训练出多个具有一定独立性的OAELM子学习器;然后,基于边缘距离最小化原则(margin distance minimization,MDM)对OAELM子学习器的集成增益进行计算;通过选择增益度高的部分OAELM进行选择性集成,获得泛化能力强、效率高的选择性集成学习器用于入侵检测.由于SEoOAELM-NID能自动设定ELM子学习器最优隐节点个数且能根据网络环境变化实现检测模型在线顺序更新,因而能有效适应各种复杂网络环境的入侵检测要求;选择部分最优的子学习器进行集成,保证了最终检测结果的准确性和实效性,同时利用在线数据不断更新检测器.在NSL-KDD数据集上的测试结果表明,相比基于单个学习器以及传统集成学习的网络入侵检测方法,SEoOAELM-NID无论对已知入侵类型还是未知入侵类型均能获得更高的检测率,且识别速度快.  相似文献   

18.
电力设备的负荷曲线随着时间而变化,其本质上是时间序列数据.为此提出了一种新的通过负荷曲线识别电力设备的方法,该方法在多个粒度划分出的负载曲线上使用卷积神经网络作为基分类器构造出一个集成学习器来提高分类精度.首先我们对原始数据进行不同粒度的划分,得到若干不同的新数据集.其次使用这些新的数据集训练不同的基学习器,并根据验证集上的精度得到不同基学习器的权重.将测试样本按照相同的粒度划分方式得到不同的测试数据集,使用不同的基分类器对这些测试数据集进行测试,得到对应的预测标签.最后对不同基分类器预测的标签进行加权,并选出权重最大的那个标签作为预测标签.在实际的电力负荷数据上将该模型与单个CNN模型进行对比,实验结果表明,该模型具有更高的设备识别精度.  相似文献   

19.
随着数据收集、存储和传输技术的快速发展,数据流的挖掘处理技术正在成为机器学习中的一个热点问题。在许多情形下,持续到达的数据之间可能会呈现出不平衡的态势,甚至是动态不平衡,这给许多机器学习算法造成了困难。文中提出面向动态不平衡数据流的集成超限学习机算法,设计了数据流中不平衡率变化的快速监测方法,修正了历史数据不平衡率的计算方式,使其更接近不平衡率的实时变化,并结合超限学习机的特点,将增量学习与集成学习结合。定期剔除权重低的基分类器,利用新到达的数据更新集成中的基分类器和训练新的基分类器。该方法针对动态不平衡数据流设计,具有很好的学习能力,同时也能适用于静态或者平衡的数据流的分类。实验中,将该方法与其他几种常用的方法在一些不同类型的数据流上进行了比较,结果表明,文中方法的分类性能更好。  相似文献   

20.
区间型数据是属性特征取值为区间的一类数据。由于区间型数据上下界的特殊结构,传统的支持向量机无法直接对其进行处理。针对区间型数据的分类问题,本文提出了面向区间型数据的不同区间核SVM分类模型。除之前提出的高斯区间核外,该方法通过引入调节因子,均衡区间中值与区间半径之间的关系,并据此相继构造出线性区间核、多项式区间核和Sigmoid区间核,用以衡量两个区间型数据数据间的相似性,然后将多种区间核函数集成在一个分类模型中,通过选择区间核类型建立相应的区间核SVM分类模型。在人造数据集和真实数据集上的实验结果表明,GIK_SVM的最优值最多,PIK_SVM的平均分类精度最优,说明不同分布的数据集选择合适的区间核SVM分类模型十分重要。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号