首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 390 毫秒
1.
针对传统C4.5决策树分类算法需要进行多次扫描,导致运行效率低的缺陷,提出一种新的改进C4.5决策树分类算法.通过优化信息增益推导算法中相关的对数运算,以减少决策树分类算法的运行时间;将传统算法中连续属性的简单分裂属性改进为最优划分点分裂处理,以提高算法效率.实验结果表明,改进的C4.5决策树分类算法相比传统的C4.5决策树分类算法极大提高了执行效率,减小了需求空间.  相似文献   

2.
提出了一种基于决策树C4.5的多示例学习算法C4.5-MI,通过拓展C4.5的熵函数和信息增益比来适应多示例学习框架.应用梯度提升方法对C4.5-MI算法进行优化,得到效果更优的GDBT-MI算法.与同类决策树算法在benchmark数据集上进行比较,结果表明,C4.5-MI和GDBT-MI算法具有更好的多示例分类效果.  相似文献   

3.
决策树是分类数据挖掘的重要方法.C4.5算法延用了经典ID3算法的基本策略,增加了处理连续属性的方法.在C4.5算法的基础上,讨论了新的基于属性变换的连续属性处理方法.该方法基于统计概率信息,依据概率属性的最佳分裂对应分裂连续属性,增加了决策树的分类精度.  相似文献   

4.
李晋  顾宏斌  潘湑 《科技信息》2010,(28):270-271
决策树学习策略广泛应用于模式识别和机器学习等领域,用来解决与分类相关的问题。决策树剪枝的作用是简化决策树,提高决策树的泛化能力,避免对训练集的过适应,是决策树学习中的重要研究内容。本文详细介绍了数据挖掘算法中的C4.5算法的基本思想,并且对REP剪枝技术进行分析,以此对C4.5算法进行剪枝。实验表明改进的C4.5算法与原C4.5算法相比能很好地处理训练集的非平衡性,并降低决策树的规模,效率得到提高。  相似文献   

5.
针对传统流量分类方法(基于端口和有效载荷)分类不可靠的问题,提出基于C4.5决策树算法,根据训练集中属性的信息增益比率构建分类模型,按属性对测试数据集进行预测,通过查找分类模型实现对网络流量的分类。在公开数据集和自己采集的数据集上进行实验,结果表明,采用C4.5决策树算法对网络流量分类,平均分类精度为93%,单类别分类精度均在90%以上,能有效地实现对网络流量应用类型的识别。  相似文献   

6.
传统的ID3决策树算法存在诸多不足,如计算效率低、多值偏向等,对此,提出了属性值空缺、多值属性的选择以及属性选择标准方面的改进方案,并将加权熵和简化熵引入决策树算法以改进传统ID3算法.实验结果表明,改进后的算法在整体性能方面较目前广泛应用的ID3算法有更优秀的性能表现.  相似文献   

7.
分类是数据挖掘的一个重要研究方向,使用决策树进行分类是一种常用而且高效的分类方法。目前传统的算法有ID 3、C 4.5、CART等,这些算法都有如下的局限性:必须人工输入归类集合,划分属性,确定最优的分类集合。为了解决这些问题,本文做了如下工作:①提出信息增益排列GEP染色体头部的思想;②给出基于信息增益的GEP构造决策树属性约简算法(IG-GEPDTAR)并用实验进行验证;③实验表明该算法构造的决策树在具有100%准确性的同时,比使用GEP算法构造的决策树减少了冗余分支,其节点数比传统的ID 3算法和P ID算法构造的决策树的节点数分别减少了82.9%和31.2%。  相似文献   

8.
决策树分类算法是智能指导系统实现"智能"的一种有效工具。通过对数据的分析和挖掘,能够实现对数据的精确分类。另外,对于决策树和产生式规则集的计算相对简单而且高效。提出了智能指导系统,并介绍了该系统的主要功能模块。在比较了ID3算法和C4.5算法后,结合个性化教学的需求,提出了新的基于规则属性相关的C4.5r算法。同时,给出了系统的计算评估模块。实验结果表明,新的C4.5r算法在运算时间、产生式规则集的规模及计算产生式规则的开销方面明显优于传统的C4.5算法。  相似文献   

9.
应用分类贡献函数的决策树构造方法   总被引:1,自引:0,他引:1  
在构造决策树的过程中,分类属性选择的标准直接影响分类的效果。本文基于粗糙集的理论,提出了在核中应用分类贡献函数来选择分类属性的新方法。利用UCI提供的数据集对该算法和基于信息熵的算法C4.5,以及基于加权平均粗糙度的决策树生成算法相比较。实验证明:用该方法构造的决策树与传统的基于信息熵方法构造的决策树相比较,复杂性低,且能有效提高分类效果。  相似文献   

10.
传统的模糊决策树虽然可以从模糊数据中抽取模糊分类规则,但只能获取节点的隶属度信息,无法得出样本数据对于节点的非隶属度和犹豫度信息,导致数据分类的准确率不高。针对此,基于毕达哥拉斯模糊集理论,提出了一种新的加权毕达哥拉斯模糊决策树算法(Weighted Pythagorean Fuzzy Decision Tree,WPFDT)。首先,通过改进的K-means聚类算法得到连续属性数据的聚类中心,并结合三角模糊数对连续数据进行模糊处理;其次,定义并计算每一个属性的加权毕达哥拉斯模糊熵,选择加权毕达哥拉斯模糊熵最小的属性作为决策树根节点,在根节点下递归选择模糊熵最小的属性作为分裂节点,同时通过阈值控制树的规模,得到从根节点到叶子节点路径的模糊规则以及模糊规则的隶属度、非隶属度以及犹豫度,并完成预测分类,直至生成WPFDT模型;最后,选取UCI上的3个医学数据集(Haberman、Breast Cancer、Parkinson)进行实验,在分类准确率和得出模糊规则的数量与3种传统决策树算法(模糊ID3算法、C4.5算法、CART算法)比较,实验结果表明:WPFDT在分类精度和树大小上都优于其他传统决策树算法,并且有较高的召回率和精确率。  相似文献   

11.
基于粗糙集决策树优化研究   总被引:2,自引:0,他引:2  
决策树分类方法是一种有效的数据挖掘分类方法.单变量决策树结构简单,但规模较大.多变量决策树是为了进一步缩减树的规模而提出的决策树结构,通过选取属性的合理组合作为分裂属性,可使树的规模相对较小.文章在对以往所提出的混合变量决策树算法RSH2的抗噪性差和属性被多次选取等问题进行改进的基础上,提出了基于粗糙集的多变量决策树算法VPMDT.通过与ID3、HACRs、RSH2和C4.5等算法进行的实验比较表明,VPMDT有较好的时空性能,并保持较高的分类预测正确率.  相似文献   

12.
一种改进的C4.5算法   总被引:1,自引:0,他引:1  
为了提高C4.5算法的有效性,提出了一种改进的MB-C4.5算法.该算法主要改进了C4.5算法的分枝策略和属性选取的标准.把分类效果较差的分枝合并到分类效果较好的分枝中.引进一个平衡度系数,系数大小由决策者依靠先验知识或领域知识确定.MB-C4.5算法在提高重要属性的选择、减少无意义分枝、过度拟合等方面有一定提高.用该算法构造出的决策树进行分类更为准确、合理.对改进前后的算法用实例进行分析,说明MB-C4.5算法的有效性.  相似文献   

13.
决策树构建方法:向前两步优于一步   总被引:1,自引:0,他引:1  
为提高搜索算法找到全局最优解的可能性,在C4.5算法的基础上,本文提出了向前两步的决策树(two-step forward decision tree,TSFDT)构建算法。该算法在选择属性时,考虑同时选择两个属性带来的信息增益,而不是只考虑单一最优属性对于信息增益的贡献,从而在寻找问题全局最优方面比只考虑单一最优属性具有更大的可能性。10个UCI基准数据集上的实验结果表明,该算法明显优于C4.5算法。  相似文献   

14.
决策树方法是一种非常有效的分类方法,这种方法能够用来改善农场管理中的薄弱点。决策树计算基于C4.5算法,这种算法构造决策树采用自顶向下递归策略,把信息增益率的高低作为属性选择的度量标准。  相似文献   

15.
决策树C4.5算法在森林资源二类调查中的应用   总被引:3,自引:0,他引:3  
C4.5算法是基于信息熵理论进行数据分类分析的经典决策树数据挖掘算法.它主要包括数据预处理、决策树生成、决策树修剪、决策树规则提取等步骤.笔者将C4.5算法应用于森林资源二类调查的数据分析中,通过对调查数据挖掘分析表明,数据挖掘在森林资源调查数据分析中具有广泛的应用前景.  相似文献   

16.
一种新型决策树属性选择标准   总被引:7,自引:0,他引:7  
讨论传统决策树算法中三种常用的基于熵的属性选择标准,提出一种基于属性重要性排序的建立决策树的新方法。该方法在决策树的每个内结点首先依据属性重要性将属性进行排序,然后选择最重要的属性作为分类属性生成决策树,并抽取出规则。与传统的决策树数据分类方法相比,此方法可有效地选择出对于分类最重要的分类属性,增强决策树的抗干扰能力,并提高规则的预测精度。  相似文献   

17.
针对原始信息系统往往存在大量重复样本和冗余属性,从而影响实际故障诊断的精度和速度这一问题,介绍了一种基于粗糙集和决策树C4.5算法相融合的故障诊断模型,用于设备的精确和快速故障诊断.利用粗糙集具有较强的处理不确定和不完备信息的能力,对原始样本集进行离散化及约简处理;同时,利用决策树C4.5算法对约简后的决策表进行快速学习并形成树状故障分类器.以实例介绍了利用该模型进行故障诊断的完整过程.  相似文献   

18.
针对决策树C4.5算法在处理数值型因素时比较复杂和分类精度不高等问题,在数据预处理过程中采用云变换进行连续因素离散化,给出了连续属性离散化的具体算法.利用因素空间理论给出一种构造决策树算法的新的启发式函数—分辨度,分析了算法的时间复杂度,证明其为多项式算法.研究结果表明:改进算法的测试准确率和效率均优于决策树算法.  相似文献   

19.
分析了全断面掘进机复杂的故障机理和运行参数,研究了将粗糙集和决策树应用到数据挖掘中的方法.以全断面掘进机刀盘的一些实时数据为例,采用MATLAB 7.0对数据进行离散化处理,结合粗糙集属性约简的算法对故障样本进行冗余属性的约简;然后,利用决策树算法对约简后的故障样本集进行规则提取,利用数据挖掘工具Clementine实现了C4.5算法和改进的C4.5算法,对其结果进行了对比分析;最后,运用VB编程对全断面掘进机采集的部分数据进行测试,结果表明该融合算法是一种快速、有效、可靠的故障检测与诊断的新途径.  相似文献   

20.
一种基于属性贡献度的决策树学习算法   总被引:3,自引:1,他引:2  
文章提出一种基于属性贡献度的决策树算法ICD,该算法利用信息熵理论构建基于样本类别信息分布确定的属性贡献度函数模型,从属性选优上消除了多值属性选择的偏向,将ICD算法与ID3、C4.5算法进行实验对比,数据结果表明该算法具有良好的性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号