共查询到17条相似文献,搜索用时 46 毫秒
1.
一种改进的决策树学习算法 总被引:3,自引:1,他引:2
为提高C4.5算法的准确率引进一个平衡度系数,其大小由决策者依靠先验知识或领域知识确定,在特定环境下人工协调了各属性信息增益率,用改进后的算法构造出的决策树进行分类更为准确、合理.并通过实例分析对改进前后的算法进行了比较,证明改进算法的有效性. 相似文献
2.
本文为提高C4.5算法的准确率引进一个平衡度系数,其大小由决策者依靠先验知识或领域知识确定,在特定环境下人工协调了各属性信息增益率,用改进后的算法构造出的决策树进行分类更为准确、合理。并通过实例分析对改进前后的算法进行了比较,证明改进算法的有效性。 相似文献
3.
针对网页广告中存在的安全问题,提出了一种基于C4.5算法的广告数据包分类方法。通过对用户访问网页时产生的数据包进行收集,从中提取有用信息来构建分类模型实现广告数据包的分类。在对数据包进行处理时根据数据包中包含的信息生成网络关系图,之后在对关系图进行分析时将图论中的量作为属性选取的依据。本方法将数据包的时间属性作为分类的主要属性之一,针对时间属性的处理方法提出了新定义。实验结果表明,本文提出的分类方法能够快速构建具有较高的分类准确率的分类模型,研究结果可为类似问题的研究提供参考借鉴。 相似文献
4.
决策树C4.5算法的改进及应用 总被引:9,自引:3,他引:9
根据C4.5算法中信息增益率计算原理的特点,利用数学上等价无穷小的性质提出一种新的改进的C4.5算法,减少了信息增益率的计算量,进而提高C4.5算法中信息增益率的计算效率.改进的C4.5算法与原C4.5算法相比,在构造决策树时具有相同的准确率和更高的计算速度,将改进后的C4.5算法应用到成绩分析中. 相似文献
5.
王文霞 《吉林大学学报(理学版)》2017,55(5):1274-1277
针对传统C4.5决策树分类算法需要进行多次扫描,导致运行效率低的缺陷,提出一种新的改进C4.5决策树分类算法.通过优化信息增益推导算法中相关的对数运算,以减少决策树分类算法的运行时间;将传统算法中连续属性的简单分裂属性改进为最优划分点分裂处理,以提高算法效率.实验结果表明,改进的C4.5决策树分类算法相比传统的C4.5决策树分类算法极大提高了执行效率,减小了需求空间. 相似文献
6.
刘耀南 《东莞理工学院学报》2012,19(5):47-52
C4.5算法是进行数据分类分析的经典决策树数据挖掘算法,应用广泛。介绍了决策树及其常用算法ID3,指出了它存在的缺点。分析了C4.5算法,通过其在高校教学决策中的应用实例,说明数据分类并实现预测的过程。最后指出了C4.5算法的不足及未来的研究方向。 相似文献
7.
决策树C4.5连续属性分割阈值算法改进及其应用 总被引:1,自引:0,他引:1
结合Fayyad边界点原理提出一种新的连续值属性最佳分割阈值的选择算法。根据Fayyad连续值属性的最佳分割点总在边界点处的原理,只在连续属性分界点处的少数几个分割点中选择最佳分割阈值。构造并训练了改进C4.5分类器,将其应用于视频序列中的人车目标识别。实验结果表明:改进C4.5算法的计算量减少近20%,大大提高了决策树的生成效率,分类准确率也略有提高。 相似文献
8.
决策树C4.5算法在森林资源二类调查中的应用 总被引:3,自引:0,他引:3
C4.5算法是基于信息熵理论进行数据分类分析的经典决策树数据挖掘算法.它主要包括数据预处理、决策树生成、决策树修剪、决策树规则提取等步骤.笔者将C4.5算法应用于森林资源二类调查的数据分析中,通过对调查数据挖掘分析表明,数据挖掘在森林资源调查数据分析中具有广泛的应用前景. 相似文献
9.
信息增益率倾向于取值数较少的属性和产生不平衡的划分,GINI指数偏向于取值数较多的属性且区间趋于平衡的划分.基于此,该文提出融合GINI指数的C4.5改进算法,首先计算候选属性的信息增益率和GINI指数,其次计算信息增益率和GINI指数的比值,最后筛选出比值最大的属性作为划分结点,改进了C4.5算法的不足.以10次10折交叉验证准确率和运行时间为评价指标,通过5组UCI数据测试改进算法性能,并与ID3、C4.5和CART算法对比实验.实验结果表明:融合GINI指数的C4.5算法减轻了属性取值多少对划分结点选择的影响,并且缓和了划分区间的不平衡,提高了分类准确率和运行效率,算法更加稳定,可行有效. 相似文献
10.
基于C4.5算法的敏感图像检测方法 总被引:1,自引:0,他引:1
提出一种基于2次C4.5分类的敏感图像检测方法.该方法利用Daubechies小波和灰度共生矩阵提取图片的纹理信息,在HSI空间和YCbCr空间提取颜色特征,进行第1次基于C4.5算法的训练和分类;对分类生成的0,1二值空间进行特征提取,将所有特征分量融合进行基于C4.5算法和2次训练和分类.基于2次训练生成的规则进行敏感图片的检测.实验结果表明,该方法对于敏感图片分类正确率达93.3%以上,与基于颜色和纹理特征的直接检测方法相比,进一步提高了正确识别率. 相似文献
11.
一种有效的C 4.5改进模型 总被引:7,自引:0,他引:7
介绍了一种有效的决策树改进模型:R-C 4.5及其简化版本,旨在构造一棵简单的树,同时提高决策树属性选择度量的可解释性,减少空枝和无意义分枝,以及过度拟合。该决策树模型基于著名的C 4.5决策树模型,但在属性的选取和分枝策略上进行了改进。在R-C 4.5中,通过合并分类效果差的分枝,有效避免了碎片等问题。实验表明,R-C 4.5决策树在保持模型预测准确率的同时,有效改进了树的健壮性。作为R-C 4.5的简化版本,R-C 4.5c和R-C 4.5s可生成更为简单的树,而且R-C 4.5s通过数据预处理阶段完成,易于实现。 相似文献
12.
将C4.5决策树分类算法用于硕士研究生智育测评并提取规则.对考试成绩进行处理,选取决策属性,构造决策树,由提取的规则,获取课程间的依赖关系,以及各门课程和培养目标间的联系,挖掘结果显示,该算法能将学习成绩进行正确分类,指导教育管理者制定正确的培养计划,对辅助决策有很大帮助. 相似文献
13.
电网调度中心报警信息中的大量噪声信息不仅加重了调度员的工作量,而且严重影响了事故异常处理的准确性和快速性。为了对报警信息进行噪声滤除,分析了决策树算法中C4.5算法的信息增益率的计算原理和特点,针对其计算量大的特点,对原C4.5算法进行改进,使其在相同准确率的情况下有更高的计算效率。将改进后的C4.5算法应用到报警信息噪声处理中。 相似文献
14.
由于现有断路器的开断策略过于复杂,算法设计者不能完全预测算法的执行结果,而将决策树算法应用到智能断路器中,利用C4.5算法对断路器采集的信息进行自动提取知识,根据获得的知识,以最大信息增益率来建立决策树,并进行了简化,能够满足对断路器实时性的要求。 相似文献
15.
基于纹理特征的回转窑熟料烧结状态分类 总被引:1,自引:0,他引:1
采用灰度共生矩阵方法,利用Fisher系数提取出最佳分类位置算子和纹理特征参数,通过对实际回转窑窑头熟料图像分析,发现位置算子为(5,-5)即距离为5、方向为45°下的灰度共生矩阵对应的和平均、逆差距、差异熵、对比度、差方差和熵这6个参数具有较好的区分度,其表面纹理特征能客观地反映其烧结程度,并通过基于C4.5算法实现了过烧、欠烧和正常烧结3种不同状态下的熟料纹理分类,其精度达到了95.65%.同时结合实际工况对熟料纹理进行了分析,给出了各自的变化特点. 相似文献
16.
C4.5算法在客户关系管理中的应用研究 总被引:1,自引:0,他引:1
通过数据挖掘技术可以挖掘出隐藏在大量数据背后的信息,企业才能对客户进行细分,预测客户行为和做出正确的决策.文章在数据挖掘常用技术的基础上,提出了其在CRM中的应用模型,并基于C4.5算法,对数据挖掘在客户获取中的应用进行了实证分析. 相似文献
17.
介绍了决策树C4.5算法,并利用该算法实现了对遥感数据规则的挖掘,在此基础上设计并实现了针对于C4.5规则的编辑器,通过该编辑器能够实现对规则的编辑与管理。规则编辑器的设计与实现,为在分类过程中人工的干预提供了可能。将人工干预与基于数学理论规则的自动提取相结合,尤其是在地形较复杂的地区,将有利于分类精度的提高。利用黄山市Land Sat TM影像,进行了基于C4.5算法自动提取规则的遥感影像分类实验。实验结果表明,利用C4.5算法提取的分类规则准确率高,利用提取的分类规则进行的遥感影像分类效果较好。 相似文献