首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
决策树算法广泛应用于数据挖掘领域之中.属性选择是决策树方法挖掘效率的关键,但ID3方法和C4.5方法在选择属性时,都会产生一定程度的选择偏差.据此,该文对信息增益模型进行了改进,将多次对数运算的信息熵求取过程简化为多值求和,从而规避了属性选择出现偏差的可能性,也加快了决策树构建的执行速度.依托学生情况数据展开的实验研究表明,与经典的ID3方法相比,该文方法构建的决策树更加简洁.同时,随着数据样本数量的增大,该文方法的执行时间大为降低.  相似文献   

2.
ID3算法是决策树学习归纳和数据挖掘中的核心方法。针对ID3算法存在的多值偏向问题,该文提出了一种新的方法对ID3算法加以改进。首先建立属性的关联矩阵,然后通过计算属性的类方差选择分裂属性,结合实例说明了改进算法的基本思想。实验结果表明,改进后的算法能够构造更合理的决策树并能在一定程度上克服多值偏向。  相似文献   

3.
以ID3算法为基础,提出了改进决策树ID3算法的一种新方法,而该方法建立的决策树与ID3建立的决策树在结点属性选择上具有一致性,因而建立的决策树是相同的,但效率是高的.  相似文献   

4.
蔡贺  张睿 《甘肃科技》2011,(14):31-33,8
从分析ID3决策树算法及解析入手,引入属性样本结构相似度概念,构建了样本结构相似度模型,并以该模型和属性的信息增益共同作为决策树内部结点的选择标准。改进SS_ID3决策树算法,着眼于决策树非叶结点的选择标准的优化,继承了原始ID3决策树算法的优点,并在多值偏向性的修正、决策树的大小控制及分类预测性能等方面取得了积极的改进。  相似文献   

5.
基于粗糙集的RDT决策树生成算法的研究及应用   总被引:1,自引:0,他引:1  
介绍了一种基于粗糙集理论的决策树生成算法--RDT(Rought Set Decision Tree).该方法运用了粗糙集理论中条件属性相对于决策属性的核,引入启发式条件计算并选择条件属性作为决策树的根结点或子结点.通过一个例子,与运用信息熵概念建立决策树的算法进行比较,结果表明采用RDT方法得到的决策树优于采用信息熵方法得到的决策树.还讨论了RDT与ID3算法对决策树精度和规模的影响,分析数据分类和知识发现的过程及特点.  相似文献   

6.
ID3算法是决策树归纳中普遍而有效的启发式算法.本文针对ID3算法的不足,给出了一个改进版本,它在选择测试属性时不仅要求该属性和类的交互信息较大,而且要求和祖先结点使用过的属性之间的交互性息尽可能小,从而避免了对冗余属性的选择,实现信息熵的真正减少.在生成树的过程中,设定分类阈值,对树进行剪枝,以避免数据子集过小,使进一步划分失去统计意义.实验结果表明,该算法能构造出比ID3算法更优的决策树.  相似文献   

7.
针对ID3决策树生成法中存在的缺点,通过引用属性关联度和代价敏感学习,提出了一种基于属性关联度和代价敏感学习的决策树生成法。该方法利用粗糙集理论对条件属性进行约减,在构建决策树过程中,把属性的关联程度和性价比作为选择分裂结点的依据,利用改进的信息增益方法构建代价敏感决策树。试验结果表明,该方法在分类准确度和生结点总数量上比常用决策树生成方法优越。  相似文献   

8.
一种基于属性贡献度的决策树学习算法   总被引:2,自引:1,他引:2  
文章提出一种基于属性贡献度的决策树算法ICD,该算法利用信息熵理论构建基于样本类别信息分布确定的属性贡献度函数模型,从属性选优上消除了多值属性选择的偏向,将ICD算法与ID3、C4.5算法进行实验对比,数据结果表明该算法具有良好的性能.  相似文献   

9.
基于属性间交互信息的模糊ID3算法的扩展   总被引:4,自引:0,他引:4  
模糊ID3算法是模糊决策树归纳中比较普遍和有效的启发式算法.以模糊ID3算法为例,分析了属性之间的冗余信息对构建模糊决策树的影响,并提出一个扩展算法,要求所选择的测试属性不仅和类的交互信息较大,而且和祖先节点上用过的属性之间的交互信息较小.实验结果表明:扩展算法优于模糊ID3算法  相似文献   

10.
首先介绍了决策树算法的基本理论和建模过程及传统的决策属性的选取标准。然后介绍了传统的ID3决策树算法,并对常用决策树算法的优缺点进行了总结。以经典的决策树ID3模型为基础,对已有决策属性挑选策略进行了分析和总结,对决策属性挑选策略进行了改进,提出了基于"相关信息增益度"的决策属性挑选策略。该方法基于信息增益的计算标准,并通过引入属性间相关性关系对传统ID3算法"多值偏向性"的缺陷进行补偿。最后,将该方法应用于UCI数据中心的标准数据集合中,从分类精确度方面对改进的ID3算法和传统ID3算法进行比较和分析。通过实验分析,改进的E-ID3算法在分类精确度方面有更优秀的性能表现。  相似文献   

11.
传统的ID3决策树算法存在诸多不足,如计算效率低、多值偏向等,对此,提出了属性值空缺、多值属性的选择以及属性选择标准方面的改进方案,并将加权熵和简化熵引入决策树算法以改进传统ID3算法.实验结果表明,改进后的算法在整体性能方面较目前广泛应用的ID3算法有更优秀的性能表现.  相似文献   

12.
分析经典ID3型决策树挖掘算法中存在的问题,对其熵值计算过程进行改进,构建一种改进的ID3型决策树挖掘算法.重新设计决策树构建中的熵值计算过程,以获得具有全局最优的挖掘结果,并针对UCI数据集中的6类数据集展开挖掘实验.结果表明:改进后的挖掘算法在决策树构建的简洁程度和挖掘精度上,都明显优于ID3型决策树挖掘算法.  相似文献   

13.
一种改进的决策树算法   总被引:1,自引:0,他引:1  
为解决决策树算法ID3的多值偏向的缺点,利用属性相似度偏向少值属性的特点,提出一种将属性相似度作为信息熵的系数的属性选择标准,从而提出相应的决策树生成算法.实验结果表明,新算法既避免了以信息熵作为属性选择标准的决策树算法的多值偏向,也避免了以属性相似度作为属性选择标准的决策树算法的少值偏向.  相似文献   

14.
ID3算法的改进和简化   总被引:2,自引:0,他引:2  
针对ID3算法倾向于选择取值较多的属性的缺点,引进属性重要性来改进ID3算法,并根据改进的ID3算法中信息增益的计算特点,利用凸函数的性质来简化该算法.实验表明,优化的ID3算法与原ID3算法相比,在构造决策树时具有较高的准确率和更快的计算速度,并且构造的决策树还具有较少的平均叶子数.  相似文献   

15.
针对ID3算法倾向于选择取值较多的属性的缺点,首先引入属性重要性进行改进,然后根据ID3算法中信息增益的计算特点,利用凸函数的性质进行简化,减少了信息增益的计算量,提高ID3算法中信息增益的计算效率.实验证明,优化ID3算法与传统ID3算法相比,在构造决策树时具有较高的准确率和更快的计算速度,并且构造的决策树还具有较少的平均叶子数.  相似文献   

16.
介绍了决策树算法的基本原理,指出在决策树构建的过程中,ID3(Interative Dichotomic Version3)算法按照信息增益最大的原则选取属性,公式比较复杂,相应计算的复杂度也比较高,耗费较多的硬件资源.相对于ID3算法而言,条件概率决策树算法按照条件概率最大的原则选取属性,条件概率能够把属性和类别联系在一起,公式比较简单,有效地降低了计算的复杂性,并且决策树的建立提高了系统的精确度和检测速度.  相似文献   

17.
在变精度粗糙集模型的基础上,通过定义近似分类质量来对条件属性进行选择,在ID3算法的基础上生成决策树,实现了对ID3算法的改进,使分类速度加快,并且有效地解决了含噪数据的分类问题。  相似文献   

18.
引入ID3算法的大学生体育训练决策支持系统可以根据学生的特征对其分类。而传统的决策树ID3算法存在多值倾向的问题,选择分裂属性不符合客观事实。本文运用了一种基于灰色关联度的修正因子属性选择方法予以改进,克服了传统ID3算法的不足,改进的ID3算法可使分类更加精确,更好的为大学生体育训练提供决策支持。  相似文献   

19.
 决策树算法是数据挖掘领域的重要算法之一.文章首先对决策树算法的数据进行逻辑描述,然后使用保险公司客户数据来构建决策树,利用Prolog语言实现了基于逻辑描述的ID3算法,尝试了用逻辑推理方法解决数据挖掘问题,并对结果进行了分析.  相似文献   

20.
决策树是医疗数据挖掘中一种重要分类方法,针对原始医疗数据存在大量重复样本和冗余属性,影响医疗诊断的精度和速度这一问题,提出了一种基于粗糙集和ID3算法相结合的决策树方法.将所提方法应用于冠心病诊断决策,并对属性约简前后的决策性能进行了比较分析.实验表明了该方法的有效性和实用性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号