共查询到15条相似文献,搜索用时 97 毫秒
1.
一种改进的决策树学习算法 总被引:3,自引:1,他引:2
为提高C4.5算法的准确率引进一个平衡度系数,其大小由决策者依靠先验知识或领域知识确定,在特定环境下人工协调了各属性信息增益率,用改进后的算法构造出的决策树进行分类更为准确、合理.并通过实例分析对改进前后的算法进行了比较,证明改进算法的有效性. 相似文献
2.
本文为提高C4.5算法的准确率引进一个平衡度系数,其大小由决策者依靠先验知识或领域知识确定,在特定环境下人工协调了各属性信息增益率,用改进后的算法构造出的决策树进行分类更为准确、合理。并通过实例分析对改进前后的算法进行了比较,证明改进算法的有效性。 相似文献
3.
针对网页广告中存在的安全问题,提出了一种基于C4.5算法的广告数据包分类方法。通过对用户访问网页时产生的数据包进行收集,从中提取有用信息来构建分类模型实现广告数据包的分类。在对数据包进行处理时根据数据包中包含的信息生成网络关系图,之后在对关系图进行分析时将图论中的量作为属性选取的依据。本方法将数据包的时间属性作为分类的主要属性之一,针对时间属性的处理方法提出了新定义。实验结果表明,本文提出的分类方法能够快速构建具有较高的分类准确率的分类模型,研究结果可为类似问题的研究提供参考借鉴。 相似文献
4.
决策树C4.5算法的改进及应用 总被引:12,自引:3,他引:9
根据C4.5算法中信息增益率计算原理的特点,利用数学上等价无穷小的性质提出一种新的改进的C4.5算法,减少了信息增益率的计算量,进而提高C4.5算法中信息增益率的计算效率.改进的C4.5算法与原C4.5算法相比,在构造决策树时具有相同的准确率和更高的计算速度,将改进后的C4.5算法应用到成绩分析中. 相似文献
5.
王文霞 《吉林大学学报(理学版)》2017,55(5):1274-1277
针对传统C4.5决策树分类算法需要进行多次扫描,导致运行效率低的缺陷,提出一种新的改进C4.5决策树分类算法.通过优化信息增益推导算法中相关的对数运算,以减少决策树分类算法的运行时间;将传统算法中连续属性的简单分裂属性改进为最优划分点分裂处理,以提高算法效率.实验结果表明,改进的C4.5决策树分类算法相比传统的C4.5决策树分类算法极大提高了执行效率,减小了需求空间. 相似文献
6.
刘耀南 《东莞理工学院学报》2012,19(5):47-52
C4.5算法是进行数据分类分析的经典决策树数据挖掘算法,应用广泛。介绍了决策树及其常用算法ID3,指出了它存在的缺点。分析了C4.5算法,通过其在高校教学决策中的应用实例,说明数据分类并实现预测的过程。最后指出了C4.5算法的不足及未来的研究方向。 相似文献
7.
决策树C4.5算法在森林资源二类调查中的应用 总被引:3,自引:0,他引:3
C4.5算法是基于信息熵理论进行数据分类分析的经典决策树数据挖掘算法.它主要包括数据预处理、决策树生成、决策树修剪、决策树规则提取等步骤.笔者将C4.5算法应用于森林资源二类调查的数据分析中,通过对调查数据挖掘分析表明,数据挖掘在森林资源调查数据分析中具有广泛的应用前景. 相似文献
8.
决策树C4.5连续属性分割阈值算法改进及其应用 总被引:1,自引:0,他引:1
结合Fayyad边界点原理提出一种新的连续值属性最佳分割阈值的选择算法.根据Fayyad连续值属性的最佳分割点总在边界点处的原理,只在连续属性分界点处的少数几个分割点中选择最佳分割阈值.构造并训练了改进C4.5分类器,将其应用于视频序列中的人车目标识别.实验结果表明:改进C4.5算法的计算量减少近20%,大大提高了决策树的生成效率,分类准确率也略有提高. 相似文献
9.
基于C4.5算法的敏感图像检测方法 总被引:1,自引:0,他引:1
提出一种基于2次C4.5分类的敏感图像检测方法.该方法利用Daubechies小波和灰度共生矩阵提取图片的纹理信息,在HSI空间和YCbCr空间提取颜色特征,进行第1次基于C4.5算法的训练和分类;对分类生成的0,1二值空间进行特征提取,将所有特征分量融合进行基于C4.5算法和2次训练和分类.基于2次训练生成的规则进行敏感图片的检测.实验结果表明,该方法对于敏感图片分类正确率达93.3%以上,与基于颜色和纹理特征的直接检测方法相比,进一步提高了正确识别率. 相似文献
10.
信息增益率倾向于取值数较少的属性和产生不平衡的划分,GINI指数偏向于取值数较多的属性且区间趋于平衡的划分.基于此,该文提出融合GINI指数的C4.5改进算法,首先计算候选属性的信息增益率和GINI指数,其次计算信息增益率和GINI指数的比值,最后筛选出比值最大的属性作为划分结点,改进了C4.5算法的不足.以10次10折交叉验证准确率和运行时间为评价指标,通过5组UCI数据测试改进算法性能,并与ID3、C4.5和CART算法对比实验.实验结果表明:融合GINI指数的C4.5算法减轻了属性取值多少对划分结点选择的影响,并且缓和了划分区间的不平衡,提高了分类准确率和运行效率,算法更加稳定,可行有效. 相似文献
11.
一种有效的C 4.5改进模型 总被引:7,自引:0,他引:7
介绍了一种有效的决策树改进模型:R-C 4.5及其简化版本,旨在构造一棵简单的树,同时提高决策树属性选择度量的可解释性,减少空枝和无意义分枝,以及过度拟合。该决策树模型基于著名的C 4.5决策树模型,但在属性的选取和分枝策略上进行了改进。在R-C 4.5中,通过合并分类效果差的分枝,有效避免了碎片等问题。实验表明,R-C 4.5决策树在保持模型预测准确率的同时,有效改进了树的健壮性。作为R-C 4.5的简化版本,R-C 4.5c和R-C 4.5s可生成更为简单的树,而且R-C 4.5s通过数据预处理阶段完成,易于实现。 相似文献
12.
将C4.5决策树分类算法用于硕士研究生智育测评并提取规则.对考试成绩进行处理,选取决策属性,构造决策树,由提取的规则,获取课程间的依赖关系,以及各门课程和培养目标间的联系,挖掘结果显示,该算法能将学习成绩进行正确分类,指导教育管理者制定正确的培养计划,对辅助决策有很大帮助. 相似文献
13.
决策树的经典算法:ID3与C4.5 总被引:7,自引:0,他引:7
黄文 《达县师范高等专科学校学报》2007,17(5):16-18
决策树各类算法,各有特点,其中J.R.Quinlan提出的ID3算法最具代表性,在国际上的影响也最大,C4.5算法就是在ID3算法基础上进行改进得到的.通过对两种算法详细描述,阐明了决策树算法步骤及其主要思想. 相似文献
14.
研究了数据挖掘技术的概念、过程、方法和技术等内容,详细地介绍了决策树技术在学生心理问题数据挖掘中的全过程,采用C4.5算法生成了学生心理问题的决策树模型,并由此产生了分类规则,为高校心理咨询工作提供了一些有用的参考依据。实验’结果表明,该方法对高校构建预防型大学生心理健康教育模式具有一定的实用价值。 相似文献
15.
数据挖掘技术从产生以来得到了广泛的研究和应用,在数据的分类技术方面C4.5算法的研究已经比较成熟,但在学生成绩挖掘方面的应用比较少,本文首先论述了主要分类技术,详细介绍了C4.5决策树分类算法,并以实际学生成绩数据为依据,进行学生成绩的数据挖掘,通过对挖掘结果的分析表明,C4.5决策树算法高效、准确,是对学生成绩数据挖掘的首选工具. 相似文献