首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
一种基于投票的不平衡数据分类集成算法   总被引:1,自引:1,他引:0  
不平衡数据分类是机器学习的研究热点之一。传统的机器学习分类算法通常假定用于训练的数据集是平衡的,不能直接应用于不平衡数据分类。利用朴素贝叶斯和决策树对数据不平衡的敏感度不同,提出一种基于投票的不平衡数据分类集成算法。基分类器选择NB和C4.5,通过投票平均方法进行分类决策;并选择公开的不平衡数据集进行实验验证。实验结果表明,该算法能有效提高不平衡数据的分类性能,特别是对正类(少数类)的误报率较低,具有良好的鲁棒性。  相似文献   

2.
用于不平衡数据分类的模糊支持向量机算法   总被引:1,自引:0,他引:1  
作为一种有效的机器学习技术,支持向量机已经被成功地应用于各个领域.然而当数据不平衡时,支持向量机会产生次优的分类模型;另一方面,支持向量机算法对数据集中的噪声点和野点非常敏感.为了克服以上不足,提出了一种新的用于不平衡数据分类的模糊支持向量机算法.该算法在设计样本的模糊隶属度函数时,不仅考虑训练样本到其类中心距离,而且考虑样本周围的紧密度.实验结果表明,所提模糊支持向量机算法可以有效地处理不平衡和噪声问题.  相似文献   

3.
为了有效利用电能质量复合扰动识别中存在的大量难以标注的实测样本,提出了一种基于Jerk流形正则化深度极限学习机(DJRELM)的半监督扰动学习方法.算法通过堆叠嵌入Jerk流形正则化的极限学习机自编码器(JRELM-AE)实现在复合扰动特征自动提取的同时保持数据内部流形结构.分类层通过阈值预测极限学习机和Jerk正则化...  相似文献   

4.
针对现有的大部分细粒度图像分类算法都忽略了局部定位和局部特征学习是相互关联的问题,提出了一种基于集成迁移学习的细粒度图像分类算法。该算法的分类网络由区域检测分类和多尺度特征组合组成。区域检测分类网络通过类别激活映射(class activation mapping,CAM)方法获得局部区域,以相互强化学习的方式,从定位的局部区域中学习图像的细微特征,组合各局部区域特征作为最终的特征表示进行分类。该细粒度图像分类网络在训练过程中结合提出的集成迁移学习方法,基于迁移学习,通过随机加权平均方法集成局部训练模型,从而获得更好的最终分类模型。使用该算法在数据集CUB-200-2011和Stanford Cars上进行实验,结果表明,与原有大部分算法对比,该算法具有更优的细粒度分类结果。  相似文献   

5.
实际应用中的大量数据具有不确定属性,而传统的挖掘算法无法直接应用在不确定数据集上.针对不确定数据的分类问题,提出一种基于抽样方法的不确定极限学习机.该算法通过抽样的方法,对不确定数据集中样本的抽样实例进行学习和分类,得到该不确定样本的所属类别的概率,从而实现了传统极限学习机分类算法对不确定数据的分类,并极大降低了不确定对象实例的枚举代价.实验结果表明,该算法在不确定数据的分类问题中具有较好的有效性和高效性.  相似文献   

6.
结合LBP算子提取图像的局部纹理特征,在分类阶段根据优化解进行矩阵逆的区别计算并加入正则因子,最后结合在线学习方法,提出准确在线连续极限学习机的图像分类改进算法.实验结果表明,改进算法在图像分类方面比传统的极限学习机有更快的学习速度,更好的泛化性能.  相似文献   

7.
由于信息技术的飞速发展,在实际的数据处理过程中,单个分类器往往不能满足:(1)要求越来越高的数据分类精度和运行速度;(2)更强的泛化性能;(3)有效地适用于大样本数据分类。该文将旋转森林算法(Rotation-Forest, ROF)与极限学习机(Extreme Learning Machine, ELM)相结合,有效地解决了旋转森林算法中过拟合现象的发生,同时也提高了算法的分类性能。最后通过UCI数据集的实验验证表明,和传统的集成分类算法相比,该算法(R-ELM-C)与Bagging、Adaboosting、Rotboost、ROF、ELM等算法相比,具有更好地分类性能、稳定性与泛化性能,同时也适合于大样本数据分类。  相似文献   

8.
By combining multiple weak learners with concept drift in the classification of big data stream learning, the ensemble learning can achieve better generalization performance than the single learning approach. In this paper,we present an efficient classifier using the online bagging ensemble method for big data stream learning. In this classifier, we introduce an efficient online resampling mechanism on the training instances, and use a robust coding method based on error-correcting output codes. This is done in order to reduce the effects of correlations between the classifiers and increase the diversity of the ensemble. A dynamic updating model based on classification performance is adopted to reduce the unnecessary updating operations and improve the efficiency of learning.We implement a parallel version of EoBag, which runs faster than the serial version, and results indicate that the classification performance is almost the same as the serial one. Finally, we compare the performance of classification and the usage of resources with other state-of-the-art algorithms using the artificial and the actual data sets, respectively. Results show that the proposed algorithm can obtain better accuracy and more feasible usage of resources for the classification of big data stream.  相似文献   

9.
针对极限学习机在高维度、含噪声数据集中需要大量隐含层节点来保证分类性能的问题,设计了镜像极限学习机.该算法使用伪逆法确定输入权值,随机生成输出权值和偏置,在对数据进行分类时,它仅需极少的隐含层节点.为了提升镜像极限学习机的分类性能和抗噪性,将它与去噪自编码器相结合.利用去噪自编码器对输入数据进行特征提取,并将提取到的特征作为镜像极限学习机的输入数据,再进行网络训练.在无噪和含噪声的MNIST,Fashion MNIST,Rectangles和Convex数据集中,将基于去噪自编码器的镜像极限学习机与ELM,PCA-ELM,SAA-2和DAE-ELM作对比实验,结果表明,基于去噪自编码器的镜像极限学习机的综合性能最优,用于分类的网络隐含层节点数最少.  相似文献   

10.
针对极限学习机在高维度、含噪声数据集中需要大量隐含层节点来保证分类性能的问题,设计了镜像极限学习机.该算法使用伪逆法确定输入权值,随机生成输出权值和偏置,在对数据进行分类时,它仅需极少的隐含层节点.为了提升镜像极限学习机的分类性能和抗噪性,将它与去噪自编码器相结合.利用去噪自编码器对输入数据进行特征提取,并将提取到的特征作为镜像极限学习机的输入数据,再进行网络训练.在无噪和含噪声的MNIST,Fashion MNIST,Rectangles和Convex数据集中,将基于去噪自编码器的镜像极限学习机与ELM,PCA-ELM,SAA-2和DAE-ELM作对比实验,结果表明,基于去噪自编码器的镜像极限学习机的综合性能最优,用于分类的网络隐含层节点数最少.  相似文献   

11.
目前极限学习机在训练模型时存在占用计算资源多和模型精度低等问题.为了解决上述问题,提出了一种基于状态转移算法的极限学习机,可提升算法计算效率和模型精度.利用状态转移算法的全局搜索特性求解线性方程组,得到极限学习机的输出权重矩阵,进而完成建模.在分类和回归数据集上与极限学习机和其他主流算法进行对比,所提方法可以利用较少的隐藏层节点得到高精度的模型,同时具有更好的学习准确率.这种高性能的建模方式弥补了极限学习机的不足.  相似文献   

12.
The Extreme Learning Machine(ELM) and its variants are effective in many machine learning applications such as Imbalanced Learning(IL) or Big Data(BD) learning. However, they are unable to solve both imbalanced and large-volume data learning problems. This study addresses the IL problem in BD applications. The Distributed and Weighted ELM(DW-ELM) algorithm is proposed, which is based on the Map Reduce framework. To confirm the feasibility of parallel computation, first, the fact that matrix multiplication operators are decomposable is illustrated.Then, to further improve the computational efficiency, an Improved DW-ELM algorithm(IDW-ELM) is developed using only one Map Reduce job. The successful operations of the proposed DW-ELM and IDW-ELM algorithms are finally validated through experiments.  相似文献   

13.
Multiple-Instance Learning (MIL) is used to predict the unlabeled bags' label by learning the labeled positive training bags and negative training bags.Each bag is made up of several unlabeled instances.A bag is labeled positive if at least one of its instances is positive,otherwise negative.Existing multiple-instance learning methods with instance selection ignore the representative degree of the selected instances.For example,if an instance has many similar instances with the same label around it,the instance should be more representative than others.Based on this idea,in this paper,a multiple-instance learning with instance selection via constructive covering algorithm (MilCa) is proposed.In MilCa,we firstly use maximal Hausdorff to select some initial positive instances from positive bags,then use a Constructive Covering Algorithm (CCA) to restructure the structure of the original instances of negative bags.Then an inverse testing process is employed to exclude the false positive instances from positive bags and to select the high representative degree instances ordered by the number of covered instances from training bags.Finally,a similarity measure function is used to convert the training bag into a single sample and CCA is again used to classification for the converted samples.Experimental results on synthetic data and standard benchmark datasets demonstrate that MilCa can decrease the number of the selected instances and it is competitive with the state-of-the-art MIL algorithms.  相似文献   

14.
氧气转炉炼钢的控制目标是终点温度和碳含量,但由于不能对其进行在线连续测量,直接影响了出钢的质量.针对该问题,提出一种基于膜算法进化极限学习机(ELM)的抗干扰终点预报模型.利用进化膜算法的全局寻优能力调整ELM网络参数,不仅避免了ELM网络受异常点影响出现过拟合现象,还可以寻找最优复杂度的ELM模型.将找到的ELM模型应用到转炉炼钢领域并建立终点碳含量和温度的预报模型.在仿真实验中,分别使用含有高斯噪声的标准sin C函数和氧气转炉炼钢实际生产数据进行仿真,结果表明所提模型在含噪声的数据中具有较好的预报精度和鲁棒性.  相似文献   

15.
集成学习是提高分类精度的一种有效途径,已在许多领域显示出其优于单个分类器的良好性能。观察学习是一种基于社会学习理论的集成学习方法,以往对其研究集中于同构模式。在此提出了基于异构模式的观察学习策略,通过训练、观察、再训练三个阶段完成学习。在UCI标准数据集上对异构环境下的观察学习算法进行了实验研究。结果表明,该方法优于多数投票法和单个分类算法,其对弱分类器组成的分类器集合尤其有效。从偏差/方差分解的角度对观察学习提高分类性能的原因进行了论证,结果表明,观察学习算法既可以降低偏差,也可以降低方差。  相似文献   

16.
将ELM应用到蛋白质二级结构模型的训练中,在此基础上提出了基于概率的合并算法(probability-based combining,PBC),用该算法预测结果的合并.根据生物学中关于蛋白质二级结构的特征提出了预测结果的Helix-后处理(Helix-post-processing,HPP)算法,对合并后的预测结果进行有效的后处理,从而进一步提高预测结果的准确率.分别在CB513和RS126两个数据集上进行了实验,实验结果表明,预测结果的准确率是令人满意的,尤其是实现了训练时间上的显著缩短.  相似文献   

17.
提出一种改进的结合情感词典的主动贝叶斯情感分类方法(SLAB).为了证明提出方法的有效性,选用康奈尔影评数据集和互联网电影资料库(IMDB)数据集作为实验数据,并与基于不确定性采样策略的主动学习方法进行比较.结果表明:文中提出的方法在较少的标注训练集下,能够取得更高的分类准确率,一定程度上解决了基于不确定性采样策略的主动学习方法中的误差累积问题.  相似文献   

18.
为解决日趋增长的噪声大数据分类问题,提出了一种高度随机模糊森林算法.该算法在决策树学习中生成连续属性的模糊分区,并给出在MapReduce框架中所提算法的分布式实现,用于受属性噪声污染的大数据集中学习模糊决策树的集合,该分布式实现模型可以适应计算的有效分配策略,从而产生良好的可扩展性数据,这种分布式算法使得模糊随机森林能够处理大数据集的学习和分类.高度随机模糊森林算法能够实现噪声大数据的高精度分类,为以后的大数据分析打下良好的基础.实验结果表明,所提算法比现有算法准确率更高,在属性噪声情况下,该文分类准确率也高于随机森林算法,说明该文算法的可行性和有效性.  相似文献   

19.
针对海量数据规模下的集中式核函数极限学习机的性能问题,将基于核函数的极限学习机扩展到云计算技术框架下,提出了基于MapReduce的分布式核函数极限学习机MR-KELM.该算法将分布式径向基核函数计算出的核函数矩阵进行分布式矩阵分解,并通过分布式矩阵向量乘法得到分类器输出权重,减小了网络通讯和数据交换代价.实验结果表明,MR-KELM算法能够在不影响基于核函数的极限学习机的计算理论的前提下,具有较好的可扩展性和分类训练性能.  相似文献   

20.
对随机旋转集成方法提出了一种针对降维问题的改进,得到了新的降维算法框架进行随机变换降维,可以显著减少降维过程中造成的信息损失.采用随机变换降维后,训练监督学习算法时可以获得更高的准确率和更好的泛化性能.通过在模拟数据上进行的实验,证明了使用多重共线性数据进行回归分析时,与传统降维算法相比,经随机变换降维处理后可以保留更多的信息,获得更小的均方误差.对随机变换降维在手写数字识别数据集上的表现进行了研究,证明了与一般性的降维算法相比,随机变换降维在图像分类问题上可以获得更高的准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号