首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 114 毫秒
1.
【目的】机器学习中不同算法适用于具有不同分布特征的数据集。在用整个训练集上训练得到的单个分类器预测新样本类别时,由于缺少对局部区域样本的针对性,可能导致分类器对某一区域数据的预测能力较差而产生错误分类。为了解决这个问题,提出基于k-means+ +的多分类器选择算法。【方法】首先用3种分类综合性能较好的算法———Ada-Boost、SVM、随机森林(RF)在训练集上分别训练得到3个分类器作为候选基分类器,然后利用k-means++算法将训练数据集分为k个簇,用3个候选分类器分别对每个簇进行分类测试,选择对这一簇中数据分类精度最高的分类器作为与它的数据相似数据的分类器。在对新样本进行类别预测时,首先判定样本属于哪个簇,然后用它的分类器进行分类预测。【结果】实验结果表明,新算法在9个UCI数据集上优于单个分类算法。【结论】基于局部区域动态选择最优分类器可以提高模型分类准确性。
  相似文献   

2.
针对K2算法在构建贝叶斯分类器时节点排序不同影响分类准确率的问题,提出了一种MWST+T-K2结构学习算法,运用Matlab软件的BNT工具箱构建了MWST+T-K2分类器,并经过NBC、TANC、MWST和MWST+T-K2分类器对UCI数据库的24个分类数据集进行分类检验.结果表明,对4种分类器在24个数据集上的分类水平进行整体与两两比较时,MWST+T-K2分类器的分类水平均最优;在小数据集上比较时,MWST+T-K2分类器的分类水平取得全局最优,未取得局部最优;在大数据集上比较时,未取得全局或局部最优,低于TANC的分类水平.所以,MWST+T-K2结构学习算法是一种适合构建小数据集贝叶斯分类器的方法.  相似文献   

3.
基于代表的邻域覆盖粗糙集分类算法,在某些数据集上表现良好,数据的类别不平衡问题严重影响算法的分类精度.为尽量消除类别不平衡问题的影响,在k折交叉验证方法的基础上,针对基于代表的邻域覆盖粗糙集分类算法,提出了3种集成策略.策略1依靠k折交叉验证,获得对应的k个基分类器,所有的基分类器组成委员会对未分类样本分类;在策略1的基础上,策略2选择分类精度相对较高的基分类器组成委员会,对未分类的样本进行分类;策略3在前2种策略的基础上,利用主动学习的思想,对训练集进行扩充,得到新的分类器再对未分类样本分类.实验所用数据集为UCI标准数据集,且对k的取值做了对比实验.结果显示,3种策略均有不同程度的提升,且k取5时总能取得较好的提升效果.对于不同数据集,应选择相适应的改进策略.  相似文献   

4.
在计算机辅助诊断系统中使用集成分类器是提高机器识别能力的一种重要途径。针对集成分类器投票组合算法中存在的投票可信度问题,提出了一种基于Grading的集成分类器组合算法EGR,该算法根据集成分类器对样本的预测结果是否正确来转换相应样本的类标签,用新数据构造元分类器。在UCI医学数据集上进行的实验结果显示,EGR算法对分类精度的提升以及敏感性与特异性的整体改善是有效的。  相似文献   

5.
不均衡数据分类算法的综述   总被引:3,自引:1,他引:2  
传统的分类方法都是建立在类分布大致平衡这一假设基础上的,然而实际情况中,数据往往都是不均衡的.因此,传统分类器分类性能通常比较有限.从数据层面和算法层面对国内外分类算法做了详细而系统的概述.并通过仿真实验,比较了多种不平衡分类算法在6个不同数据集上的分类性能,发现改进的分类算法在整体性能上得到不同程度的提高,最后列出了不均衡数据分类发展还需解决的一些问题.  相似文献   

6.
为了解决传统方法不能按照训练样本量设计最优网络模型,集成效率低的弊端,通过机器学习方法研究数据库小数据集并行集成方法。机器学习选用朴素贝叶斯算法,依据条件独立性假设,通过计算目标先验概率,采用贝叶斯定理求出其后验概率,对后验概率进行比较,完成决策分类,对基分类器进行训练,把不同朴素贝叶斯基分类器当成集成分类器,在原始数据库上对基分类器进行训练,依据分类结果对数据库中小数据集样本分布进行调整,将其当成新数据集对基分类器进行训练,按照基分类器的表现,通过加权将其组合在一起,产生强分类器,实现对数据库小数据集的集成处理。通过MapReduce并行处理完成并行数据集成,输出并行集成结果。通过仿真实验与实例分析验证所提方法的有效性,结果表明:所提方法在训练样本规模相同的情况下有最高的分类精度和最小的波动,在不同集成规模下的分类精度一直最高,波动最小;所提方法可达到数据的最优集成,数据失效比降低,合成比提高。可见所提方法集成精度高,计算稳定性强,集成效果好,效率优。  相似文献   

7.
综合考虑对海雷达目标识别的高实时性和强泛化能力要求,提出一种利用模拟退火算法(SA)进行集成间隔优化的静态选择集成(SSE)算法.该算法首先利用SA基于集成间隔最大化搜索出不同大小的最优基分类器子集,然后利用集成分类精确度从中筛选出最终的集成分类器系统.进而提出一种分类器权值、样本权值的迭代求解算法,并考虑这两类权值以及基分类器的分类置信度,给出了8种集成间隔定义.在自建全极化高分辨率距离像(HRRP)分类数据集和17个UCI数据集上分析了集成间隔定义对集成算法性能的影响,通过对比实验验证了该算法的有效性.  相似文献   

8.
经典的分类算法对小型数据集分类是非常有效的,但当面对超大型数据集时往往失去了分类能力。在平均值和方差以及新定义的权这三个度量的基础上提出了一种快速有效处理超大型数据集分类问题的新算法一核心向量算法,简称CV算法。试验结果表明,该方法对超大型数据集分类是比较有效的。  相似文献   

9.
在大脑胶质瘤诊断数据集中.病例样本数通常比正常样本数要少,由此引发了数据不均衡问题下病例诊断的问题.此外,在大脑胶质瘤数据集中有一些冗余甚至是不相关的特征,这些特征降低了学习器的泛化能力.为解决这类问题,提出一种基于互信息特征选择的EasyEnsemble算法来解决大脑胶质瘤诊断中的数据不均衡问题.在UCI数据集和大脑胶质瘤数据集上的实验结果表明新算法提高了分类器在不均衡数据集上的分类性能和预报能力.  相似文献   

10.
张燕 《河南科学》2018,(1):11-16
针对网络行为数据的不均衡、数量大、更新快的问题,结合均衡化、增量学习、分类器集成思想提出一种用于网络入侵检测的协同增量支持向量机算法,该算法利用多个分类器的协同工作,提高算法速度,每个子分类器依据类样本的空间分布计算类样本错分代价,避免分类超平面偏移,对多个子分类器进行加权集成获得最终分类器,提高最终分类器在不均衡数据集下的分类性能.最后,在KDDCUP1999数据集上的仿真实验结果表明,该算法对整体准确率、少数类及未知攻击都有较高的检测准确率.  相似文献   

11.
提出了一种从肿瘤的基因表达数据挖掘肿瘤分类规则的方法. 首先用Bhattacharyya距离指标和相关性分析去除分类无关基因和冗余,然后以决策树作为分类器,用遗传算法搜索所得的特征空间,优化分类精度和分类模型的复杂度. 运行多次得到多个分类树和多组分类规则,由此构建组合树分类器在测试集数据上检验分类效果. 在结肠癌基因表达数据上的实验结果表明了分类规则挖掘方法的有效性和可用性.  相似文献   

12.
唐永红 《科学技术与工程》2013,13(7):1832-1835,1859
针对混合属性数据集对象间差异性度量丢失原有数据特性的问题,引入了新的差异性度量方法,构造出对象的混合属性异常因子。在此基础上提出一种新的基于混合属性数据集的局部密度异常检测算法。实验结果表明,该算法高效可行,检测精度高,且参数设置简单。  相似文献   

13.
通过研究特征变量与类变量的信息测度和特征子集与类变量之间信息测度计算方法,实现快速的特征选择。将基于扩展熵的信息损失量测度用于度量类变量之间的相关性。为避免计算联合互信息的复杂计算,提出了基于信息损失量的变量相关度增加量计算方法,在保证新增特征可提供更多信息量前提下,同时提高特征选择的速度。最后对UCI的3种分类数据集进行实例分析,利用支持向量机对选择的特征子集进行分类验证,并将分类结果与其它常用特征选择方法进行了比较。结果表明所提出的特征选择方法比现有的特征选择方法更有效。  相似文献   

14.
基于蚁群优化的分类规则挖掘方法   总被引:1,自引:0,他引:1  
蚁群优化是人工智能领域中群体智能分支之一,已成功地应用于复杂优化问题的求解,但其在知识发现领域的应用还是一个新的研究课题。在此提出一种新的基于蚁群优化的分类规则挖掘方法,先利用蚁群算法通过对属性约简简化数据集,再使用蚁群算法进行分类规则的挖掘,并用新的规则剪枝方法,提高了分类算法的效率和准确率。实验表明该方法是有效的。  相似文献   

15.
Keystroke dynamics is the process to identify or authenticate individuals based on their typing rhythm behaviors. Several classifications have been proposed to verify a user's legitimacy, and the performances of these classifications should be confirmed to identify the most promising research direction. However, classification research contains several experiments with different conditions such as datasets and methodologies. This study aims to benchmark the algorithms to the same dataset and features to equally measure all performances. Using a dataset that contains the typing rhythm of 51 subjects, we implement and evaluate 15 classifiers measured by F1-measure, which is the harmonic mean of a false-negative identification rate and false-positive identification rate.We also develop a methodology to process the typing data. By considering a case in which the model will reject the outsider, we tested the algorithms on an open set. Additionally, we tested different parameters in random forest and k nearest neighbors classifications to achieve better results and explore the cause of their high performance. We also tested the dataset on one-class classification and explained the results of the experiment. The top-performing classifier achieves an F1-measure rate of 92% while using the normalized typing data of 50 subjects to train and the remaining data to test. The results, along with the normalization methodology, constitute a benchmark for comparing the classifiers and measuring the performance of keystroke dynamics for insider detection.  相似文献   

16.
为了在数据集过小时更好的训练卷积神经网络,本文提出一种方法通过训练GAN(生成对抗网络)生成新的样本进行图像数据增强。扩充后的数据集应用于训练图像分类模型,得到了不错的效果。针对Herlev宫颈细胞数据集的二分类问题,本文首先使用原始训练集训练GAN,生成了大量高质量的高分辨率细胞图像,将每类训练集扩充到24 000例。然后使用扩充后的训练集进行分类网络训练,在Resnet迁移学习的验证集准确率高达97%,高于仿射变换扩充的数据集的训练结果93%,可见本文方法可以有效地实现图像的数据增强。本文方法也可用于其他领域的图像数据增强。  相似文献   

17.
针对传统流量分类方法(基于端口和有效载荷)分类不可靠的问题,提出基于C4.5决策树算法,根据训练集中属性的信息增益比率构建分类模型,按属性对测试数据集进行预测,通过查找分类模型实现对网络流量的分类。在公开数据集和自己采集的数据集上进行实验,结果表明,采用C4.5决策树算法对网络流量分类,平均分类精度为93%,单类别分类精度均在90%以上,能有效地实现对网络流量应用类型的识别。  相似文献   

18.
提出一种基于关联规则的分类算法 .这个算法既可以快速分类 ,又可以不受数据集规模的限制  相似文献   

19.
根据生物医学文本中基因名的特点,提出了一组新特征用于基因名的识别。利用精简的特征集,将提出的新特征融合进精简特征集中。应用GlobalLinear模型和感知机学习算法在BioCreativeⅡ数据集中对提出的方法进行了验证,结果表明,通过使用数量较少的、区分能力强的特征,仍能使系统达到较高的性能。当融合新特征时,系统的精确率和召回率也有一定的提高。  相似文献   

20.
在直推式支持向量机(transductive support vector machine, TSVM)中,迭代过程中样本标注错误会导致错误传递,影响下一次迭代中样本标注准确度,使得错误不断地被积累,造成最终分类超平面的偏移。在不均衡数据集下,传统支持向量机(support vector machine, SVM)对样本分类的错误率较高,导致TSVM在每次迭代中标注样本准确度不高。针对此,本文提出一种不均衡数据集下的直推式学习算法,该算法依据各类支持向量的密度分布关系动态计算各类的惩罚因子,提高每次迭代中样本标注的准确度,算法在继承渐进赋值和动态调整规则的基础上,减少分类超平面的偏移。最后,在KDD CUP99数据集上的仿真实验结果表明该算法能够提高TSVM在不均衡数据下的分类性能,降低误警率和漏报率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号