首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
针对一般的选择性集成学习算法在选择分类器阶段需要独立设置验证集因而损失了一定的训练数据的缺点,提出了一种新的选择性集成分类算法FPSE,该算法采用一种基于排序的策略,这种策略在选择阶段就存在速度上的优势;其优势在于不必独立设置验证集,而采取一种将个体选择评估融入在原始数据本身的方法.实验验证了FPSE算法在个体评估策略的有效性,以及较好的泛化性能;对比试验说明了该算法的分类预测表现要优于Bagging算法和AdaBoost算法.  相似文献   

2.
集成学习可以提高分类器的泛化性能,这种方法已经成为机器学习的重要研究方向之一.通常,集成学习主要由2部分构成,即个体生成方法及结论生成方法.从集成学习的差异性角度出发,对集成学习中个体的构造方法及结论生成方法进行了分析与研究,对集成学习中存在的问题及未来的研究方向进行了探讨.  相似文献   

3.
由于基于蛋白质结晶的X射线晶体成像技术存在成功率较低的问题,因此引入计算方法筛选容易结晶的蛋白质序列对于节约测定蛋白质序列实现成本意义重大。该文提出一种基于旋转森林的集成极端学习机分类方法,用以提高蛋白质结晶偏好预测的准确性。选择蛋白质序列及序列衍生的信息和蛋白质相关的物理、化学等性质在内的20个特征作为分类特征,采用旋转森林增加集成极端学习机基分类器之间的差异性。实验结果表明,该文方法具有较高预测精度。  相似文献   

4.
集成分类器是目前图像隐写分析中广泛使用的分类器。针对集成分类器中基分类器受离群样本影响较大,集成策略效果不佳的缺点,提出一种基于改进Fisher准则与极限学习机集成的图像隐写分析算法。首先,通过重新定义类内散度矩阵以提高Fisher准则模型的准确性,之后基于改进的Fisher准则并使用Bagging算法训练若干基分类器,最后使用极限学习机作为元分类器来建立基分类器集合与正确决策之间的联系。实验结果表明,在不同的隐写算法与嵌入率的条件下,与传统集成分类器和基于选择性集成的集成分类器相比,所提算法降低了3.5%与1.8%的检测错误率,说明能够有效提高集成分类器的检测精度。  相似文献   

5.
为了保证运算时效的同时,提高复杂数据的分类精度,提出了基于多目标蜂群算法和极限学习机的数据分类算法。该方法以最小的特征个数和最高的分类精度为优化目标,利用改进的多目标蜂群算法对数据的特征个数和分类器参数进行寻优,针对多个有代表性的数据集进行仿真,结果表明所提出方法的有效性。  相似文献   

6.
针对传统集成学习方法运用到木马流量检测中存在对训练样本要求较高、分类精度难以提升、泛化能力差等问题,提出了一种木马流量检测集成分类模型。对木马通信和正常通信反映在流量统计特征上的差别进行区分,提取行为统计特征构建训练集。通过引入均值化的方法对旋转森林算法中的主成分变换进行改进,并采用改进后的旋转森林算法对原始训练样本进行旋转处理,选取朴素贝叶斯、C4.5决策树和支持向量机3种差异性较大的分类算法构建基分类器,采用基于实例动态选择的加权投票策略实现集成并产生木马流量检测规则。实验结果表明:该模型充分利用了不同训练集之间的差异性以及异构分类器之间的互补性,在误报率不超过4.21%时检测率达到了96.30%,提高了木马流量检测的准确度和泛化能力。  相似文献   

7.
概念漂移给数据流挖掘工作带来了很大阻碍.经典的SEA算法通过动态裁剪集成分类器的方式有效地捕获到概念漂移.其裁剪集成分类器的策略是直接删除掉一个权值最低的基础分类器,这意味着算法抛弃了一个已经学习了的概念,当该概念再出现时还需再学习,导致算法效率的降低.现提出了一种能够提取旧概念的算法(ECRRC),并给出了存储和提取概念的具体方法.面对概念的重复出现,ECRRC不用再学习就能够完成数据流分类.实验结果表明,ECRRC能够提高数据流分类效率.  相似文献   

8.
结合LBP算子提取图像的局部纹理特征,在分类阶段根据优化解进行矩阵逆的区别计算并加入正则因子,最后结合在线学习方法,提出准确在线连续极限学习机的图像分类改进算法.实验结果表明,改进算法在图像分类方面比传统的极限学习机有更快的学习速度,更好的泛化性能.  相似文献   

9.
基于随机森林的文本分类模型研究   总被引:1,自引:1,他引:1  
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.随机森林模型是决策树的集成,并且由一随机向量决定决策树的构造. 当森林中决策树的数目增大,随机森林的泛化误差将趋向一个上界.将随机森林模型应用于文本分类,在Reuter21578数据集上的实验表明,分类效果比较好,性能比较稳定,将其同C4.5, KNN, SM0, SVM 4种典型的文本分类器进行了比较,结果显示它的分类性能胜于C4.5,同KNN, SMO和SVM方法相当.  相似文献   

10.
基于随机森林的文本分类模型研究   总被引:3,自引:0,他引:3  
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.随机森林模型是决策树的集成,并且由一随机向量决定决策树的构造.当森林中的决策树的数目增大,随机森林的泛化误差将趋向一个上界.将随机森林模型应用于文本分类,在Reuter21578数据集上的实验表明,分类效果比较好,性能比较稳定,将共同C4.5,KNN,SM0,SVM4种典型的文本分类器进行了比较,结果显示它的分类性能胜于CA.5,同KNN,SMO和SVM方法相当.  相似文献   

11.
传统的分类算法大多假设数据集是均衡的,追求整体的分类精度.而实际数据集经常是不均衡的,因此传统的分类算法在处理实际数据集时容易导致少数类样本有较高的分类错误率.现有针对不均衡数据集改进的分类方法主要有两类:一类是进行数据层面的改进,用过采样或欠采样的方法增加少数类数据或减少多数类数据;另一个是进行算法层面的改进.本文在原有的基于聚类的欠采样方法和集成学习方法的基础上,采用两种方法相结合的思想,对不均衡数据进行分类.即先在数据处理阶段采用基于聚类的欠采样方法形成均衡数据集,然后用AdaBoost集成算法对新的数据集进行分类训练,并在算法集成过程中引用权重来区分少数类数据和多数类数据对计算集成学习错误率的贡献,进而使算法更关注少数数据类,提高少数类数据的分类精度.  相似文献   

12.
移动通信技术的飞速发展在提升用户通信体验的同时也为不良信息的散布提供了便利,针对如何在大量数据中进行不良内容的识别与过滤问题,提出一种基于深度模型集成的不良图像分类模型(EDM),通过集成多个结构不同、信息互补的深度模型来最优地区分分布差异较大的不良图像.为了验证本方法的有效性,建立一个真实移动通信场景下的不良图像数据集,并在此数据集上与基于传统支持向量机(SVM)的不良图像分类模型、基于深度卷积神经网络的Alexnet、VGG与Googlenet分类模型做对比.实验结果表明:本文所提深度模型集成方法在不良图像分类性能上明显优于其他模型,分类精度、精确率和召回率分别达到94%、84%和98%.  相似文献   

13.
当前动态数据流下的实时分类问题存在3个难点:针对海量数据的实时处理;概念漂移的跟踪和模型的更新;模型的稳定和鲁棒性.针对上述问题,将极端支持向量机(extreme support vector machine,ESVM)与MapReduce框架结合,提出了带遗忘因子的鲁棒ESVM算法.该方法通过构造残差权重矩阵,对残差进行修正,同时加入遗忘因子,提高新样本的作用,从而实现对海量数据处理问题的求解.实验结果显示,所提出方法能够快速有效地对动态数据流进行分类,且结果不易受到噪声干扰,稳定性强.  相似文献   

14.
图像分类作为图像处理和计算机视觉的重要组成部分,能够快速准确地对数字图像进行分析和管理.对基于bag of word(BOW)模型的分类问题进行了研究,针对图像理解中的图像相似度之间的关系,提出了一种最大间隔最近邻居分类算法,通过对成对约束的度量学习算法,在优化目标中增加原空间数据分类的约束,学习到了一个可以反映当前样本数据的距离函数,并且在k-Nearest Neighbor(KNN)分类器上使用该学习到的距离函数来构建分类器,并在多个国际标准图像数据集上进行实验,结果表明:该算法相比传统的基于欧式距离的算法具备更高的正确率.  相似文献   

15.
针对基于数据块的集成算法,存在数据块大小影响分类效果,且不能及时应对完整式概念漂移的问题,提出了一种考虑数据流局部特征的和能应对多种类型概念漂移的集成分类算法.用滑动窗口作为概念漂移检测器,当检测到概念漂移时,则建立新的分类器并加入到集成分类器中.本文提出的算法在人工合成和真实数据集上与经典算法进行了广泛的对比实验.结果表明:提出的算法在分类准确率上具有明显优势,消耗更少的内存,更适合多种类型概念漂移的环境.  相似文献   

16.
为解决不均衡多分类问题,提出一种特征选择和AdaBoost的集成方法。首先,数据进行预处理。利用WSPSO算法进行特征选择,根据特征重要性选取初始粒子构建初始种群,使得算法初期就可以沿着正确的搜索方向开展,减少不相关特征的影响。其次,利用AdaBoost算法对于样本权重较敏感的特点,增强对小类样本的关注度。并且利用AUCarea作为评价标准,相对于其他评价标准,AUCarea具有可视化的优点且对较差AUC更加敏感。最后,与其他几种不均衡分类算法在不平衡数据集上进行对比,结果证明该算法可有效处理不均衡多分类问题。  相似文献   

17.
随着时间的推移,网络协议流将出现不平衡的现象,经常出现不可预知的在线流量种类,传统在线流量分类模型无法对未知的流量种类进行分类,导致整体分类精度低,适应能力差。为此提出一种新的基于机器学习算法的在线流量分类方法,针对不同类别的在线流量样本流集合筛取出若干最近邻样本流,求出各个样本流特征权重,确定各个特征与类别的相关性,将相关性大的特征当成在线流量特征。依据得到的特征选取部分标识在线流量数据,确定K中值聚类的起始中心,构造映射关系,获取未知的在线流量种类。实验结果表明,所提方法有很高的分类精度,且扩展性和适应能力较强。  相似文献   

18.
提出了一种有效的快速k近邻分类文本分类算法,即PSOKNN算法,该算法利用粒子群优化方法的随机搜索能力在训练文档集中进行有指导的全局随机搜索. 在搜索k近邻的过程中,粒子群跳跃式移动,掠过大量不可能成为k近邻的文档向量,从而可以快速找到测试样本的k个近邻. 以Reuters 21578文档集分类为例验证算法的有效性,结果表明,保持k近邻法分类精度,新算法比KNN算法降低分类时间70%.  相似文献   

19.
在文本分类中,选取一个高效的分类算法是提高文本分类准确度,缩短分类时间的关键。提出基于指数分布族的多项式贝叶斯类特定分类算法(exponential family-multinomial naive Bayes,EF-MNB),基于多项式模型构造了N个类的分布,利用类特定特征选择算法得到第N个类的特征子集及对应类的特征概率密度函数(probability density function,PDF),通过指数分布族构造了N个类的原始PDF估计表达式,给定N个类的训练集,得到了第N个类的最优PDF估计,并基于贝叶斯定理制定了分类规则。仿真结果表明,与基于文档主题生成模型和支持向量机(latent dirichlet allocation-support vector machine,LDA-SVM)的层次分析分类算法、改进的超球支持向量机(improved hyper-sphere support vector machine,IHS-SVM)文本分类算法和基于主成份分析和k最近邻(principal component analysis-k-nearest-neighbor,PCA-KNN)混合分类算法相比,EF-MNB类特定分类算法使用少量的时间就可获得更高分类准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号