首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
在介绍了ID3算法和J48算法之间的关系以及J48算法的流程的基础上,着重对信息增益率的计算方法进行了说明,然后在Weka平台上选用鸢尾花数据集(Iris)进行分类实验,并对结果进行了分析,最后随机选取了几种常见的决策树算法继续实验,与J48算法实验结果进行对比分析可知,J48算法在同类决策树算法中不仅分类准确率高而且速度快.实验研究结果旨在为J48算法研究工作提供一些参考.  相似文献   

2.
阐述了Na(i)ve MIDEA分布估计算法的相关内容及多目标优化问题中的一些基本概念,提出了基于Na(i)ve MIDEA分布估计算法的模糊分类系统构建方法.通过在Iris,Pima,Wine三个标准数据集的仿真实验表明,该方法比基于遗传算法的模糊分类器在准确率和解释性方面更有效.  相似文献   

3.
基于卷积神经网络与随机森林算法的专利文本分类模型   总被引:1,自引:1,他引:0  
为解决专利文档的自动化分类,根据机械领域专利文本的特点,提出了一种基于卷积神经网络与随机森林的机械专利文本分类模型;该模型应用卷积神经网络作为有监督的文本特征提取器,结合随机森林作为分类器,面向机械领域专利文本进行专利文本分类。该模型被应用在包含96类的107 302份英文机械专利文档的数据集上。实验结果表明,该模型相比k近邻、Na6ve Bayes、随机森林等经典机器学习算法在准确率、召回率以及查全率方面均有显著提高。  相似文献   

4.
C4.5算法是进行数据分类分析的经典决策树数据挖掘算法,应用广泛。介绍了决策树及其常用算法ID3,指出了它存在的缺点。分析了C4.5算法,通过其在高校教学决策中的应用实例,说明数据分类并实现预测的过程。最后指出了C4.5算法的不足及未来的研究方向。  相似文献   

5.
一种改进的C4.5算法   总被引:1,自引:0,他引:1  
为了提高C4.5算法的有效性,提出了一种改进的MB-C4.5算法.该算法主要改进了C4.5算法的分枝策略和属性选取的标准.把分类效果较差的分枝合并到分类效果较好的分枝中.引进一个平衡度系数,系数大小由决策者依靠先验知识或领域知识确定.MB-C4.5算法在提高重要属性的选择、减少无意义分枝、过度拟合等方面有一定提高.用该算法构造出的决策树进行分类更为准确、合理.对改进前后的算法用实例进行分析,说明MB-C4.5算法的有效性.  相似文献   

6.
针对传统C4.5决策树分类算法需要进行多次扫描,导致运行效率低的缺陷,提出一种新的改进C4.5决策树分类算法.通过优化信息增益推导算法中相关的对数运算,以减少决策树分类算法的运行时间;将传统算法中连续属性的简单分裂属性改进为最优划分点分裂处理,以提高算法效率.实验结果表明,改进的C4.5决策树分类算法相比传统的C4.5决策树分类算法极大提高了执行效率,减小了需求空间.  相似文献   

7.
数据挖掘技术从产生以来得到了广泛的研究和应用,在数据的分类技术方面C4.5算法的研究已经比较成熟,但在学生成绩挖掘方面的应用比较少,本文首先论述了主要分类技术,详细介绍了C4.5决策树分类算法,并以实际学生成绩数据为依据,进行学生成绩的数据挖掘,通过对挖掘结果的分析表明,C4.5决策树算法高效、准确,是对学生成绩数据挖掘的首选工具.  相似文献   

8.
提出了一种基于决策树C4.5的多示例学习算法C4.5-MI,通过拓展C4.5的熵函数和信息增益比来适应多示例学习框架.应用梯度提升方法对C4.5-MI算法进行优化,得到效果更优的GDBT-MI算法.与同类决策树算法在benchmark数据集上进行比较,结果表明,C4.5-MI和GDBT-MI算法具有更好的多示例分类效果.  相似文献   

9.
介绍了决策树C4.5算法,并利用该算法实现了对遥感数据规则的挖掘,在此基础上设计并实现了针对于C4.5规则的编辑器,通过该编辑器能够实现对规则的编辑与管理。规则编辑器的设计与实现,为在分类过程中人工的干预提供了可能。将人工干预与基于数学理论规则的自动提取相结合,尤其是在地形较复杂的地区,将有利于分类精度的提高。利用黄山市Land Sat TM影像,进行了基于C4.5算法自动提取规则的遥感影像分类实验。实验结果表明,利用C4.5算法提取的分类规则准确率高,利用提取的分类规则进行的遥感影像分类效果较好。  相似文献   

10.
针对传统流量分类方法(基于端口和有效载荷)分类不可靠的问题,提出基于C4.5决策树算法,根据训练集中属性的信息增益比率构建分类模型,按属性对测试数据集进行预测,通过查找分类模型实现对网络流量的分类。在公开数据集和自己采集的数据集上进行实验,结果表明,采用C4.5决策树算法对网络流量分类,平均分类精度为93%,单类别分类精度均在90%以上,能有效地实现对网络流量应用类型的识别。  相似文献   

11.
分类发现是数据挖掘的一个重要任务,Bayes统计推断是数据挖掘中数据分类的主要方法也是其基础之一。建立在粗糙集基础上。利用概率工具以及Expectation-Maximization思想(RUBIN算法)和Bayes统计推断规则的结合提出了分类的方法和步骤,并给出实例分析,重点是RUBIN算法和Bayes统计推断规则相结合在粗糙集上建立的决策方法。  相似文献   

12.
李晋  顾宏斌  潘湑 《科技信息》2010,(28):270-271
决策树学习策略广泛应用于模式识别和机器学习等领域,用来解决与分类相关的问题。决策树剪枝的作用是简化决策树,提高决策树的泛化能力,避免对训练集的过适应,是决策树学习中的重要研究内容。本文详细介绍了数据挖掘算法中的C4.5算法的基本思想,并且对REP剪枝技术进行分析,以此对C4.5算法进行剪枝。实验表明改进的C4.5算法与原C4.5算法相比能很好地处理训练集的非平衡性,并降低决策树的规模,效率得到提高。  相似文献   

13.
王雪飞 《科学技术与工程》2013,13(17):4987-4993
通过卫星图像识别地面小尺度低分辨率民居屋顶截面目标,使用C4.5算法依据古民居不同年代的图像数据指纹对古民居进行分类。古民居屋顶(下称古民居)卫星图像处理形成灰度图,应用直方图与SUSAN算法精确分离出民居单元,与已知古民居位置形成不同年代"古民居图像指纹数据(组)",在冗余避免的改良C4.5分类算法中完成对民居分类与统计,实验结果 Kappa系数约为0.9107,统计结果与实际人工验证统计相符合。  相似文献   

14.
Bayes算法在已知先验概率与条件概率的情况下进行模式分类,待分样本的分类结果取决于各类域中样本的全体,但实际上类别总体的概率分布和各类样本的概率分布函数是不确定的。为了解决上述问题,提出了一种基于SVM-EM算法的Bayes算法,首先利用非线性变换和结构风险最小化原则将流量分类问题转化为二次寻优问题,然后要求EM算法对Bayes算法要求条件独立性假设进行填补,最后利用Bayes算法进行网络留言分类,提高了分类的准确性和稳定性。  相似文献   

15.
决策树C4.5算法在森林资源二类调查中的应用   总被引:3,自引:0,他引:3  
C4.5算法是基于信息熵理论进行数据分类分析的经典决策树数据挖掘算法.它主要包括数据预处理、决策树生成、决策树修剪、决策树规则提取等步骤.笔者将C4.5算法应用于森林资源二类调查的数据分析中,通过对调查数据挖掘分析表明,数据挖掘在森林资源调查数据分析中具有广泛的应用前景.  相似文献   

16.
决策树分类算法是智能指导系统实现"智能"的一种有效工具。通过对数据的分析和挖掘,能够实现对数据的精确分类。另外,对于决策树和产生式规则集的计算相对简单而且高效。提出了智能指导系统,并介绍了该系统的主要功能模块。在比较了ID3算法和C4.5算法后,结合个性化教学的需求,提出了新的基于规则属性相关的C4.5r算法。同时,给出了系统的计算评估模块。实验结果表明,新的C4.5r算法在运算时间、产生式规则集的规模及计算产生式规则的开销方面明显优于传统的C4.5算法。  相似文献   

17.
决策树学习算法是数据挖掘中一类经典的分类算法。传统的决策树学习算法把数据集合中的实例同等对待,而忽略了实例之间存在的可疑性和影响度差异,导致错误实例扭曲了学习结果,严重影响学习质量。在此提出基于可疑实例影响度分析改进的C4.5 rules算法,在给定一个噪音集合后,首先把可疑实例与原集合划分开,并对可疑实例的影响度进行分析和度量,然后依据分类规则对可疑实例的覆盖情况进行重新排序和分类预测。算法在对分类规则重排序后将错误实例对学习结果的影响最小化,得出尽可能接近正确数据的学习结果。将此算法与经典的C4.5 rules算法进行实验比较,结果表明该算法有着良好的性能。  相似文献   

18.
基于C4.5算法的敏感图像检测方法   总被引:1,自引:0,他引:1  
提出一种基于2次C4.5分类的敏感图像检测方法.该方法利用Daubechies小波和灰度共生矩阵提取图片的纹理信息,在HSI空间和YCbCr空间提取颜色特征,进行第1次基于C4.5算法的训练和分类;对分类生成的0,1二值空间进行特征提取,将所有特征分量融合进行基于C4.5算法和2次训练和分类.基于2次训练生成的规则进行敏感图片的检测.实验结果表明,该方法对于敏感图片分类正确率达93.3%以上,与基于颜色和纹理特征的直接检测方法相比,进一步提高了正确识别率.  相似文献   

19.
基于基因表达式编程的代价敏感分类算法   总被引:3,自引:1,他引:2  
针对传统分类算法在稀有类上的分类效果不佳,通过引进代价矩阵,改进了基因表达式编程的适应度函数,提出了一种基于基因表达式编程的代价敏感分类 (CSC-GEP:Cost-Sensitive Classification-Gene Expression Programming) 算法,并在UCI数据集上对该算法进行了实验。实验结果表明,CSC-GEP的召回率、精度和F-度量值较C4.5分类器分别提高了7.07%,2.89%,5.12%,证明了CSC-GEP是一种有效的代价敏感分类算法。  相似文献   

20.
基于应用的流量分类在网络安全和管理中具有非常重要的作用.传统流量分类大部分是基于端口的预测方法和基于有效载荷的深度检测方法.由于当前网络环境中各种隐私问题以及基于动态端口和加密的应用,传统的网络流量分类策略的有效性已经逐步下降,目前主要集中在基于机器学习技术的流量分类模型进行研究.本文对各种基于机器学习算法的流量分类的比较,如贝叶斯网络(Bayes Net)、朴素贝叶斯(Naive Bayes)、基于RBF的SVM流量分类和基于遗传算法的SVM (GaSVM)流量分类等.这些算法分别使用了全特征选择和优化后的特征集合,实验结果表明基于遗传算法的SVM流量分类精度较高,并在使用主成分特征也可以达到很高的精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号