首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
根据数据属性间存在的线性相关和非线性相关影响决策树性能的特点,提出了一种用拟合回归建立决策树的算法,并利用这种相关性来提高分类能力.该算法选择了一个较优的属性子集,对此子集中的属性进行加权组合,用于构造决策树的节点,采用二次多项式来拟合两个属性间可能存在的相关性,从而构造出分类能力更强的决策树.研究中用UCI标准数据集对各种算法进行测试及比较,实验结果及分析表明此决策树算法具有良好性能.  相似文献   

2.
样本分类规则提取是基因表达谱数据挖掘工作中的重要内容,提取肿瘤病理组织与正常组织的样本分类规则具有重要的生物学意义与临床诊断价值.针对该问题,基于机器学习与数据挖掘技术,研究了用于区分肿瘤与正常组织样本的分类规则提取问题.首先,利用改进的Relief算法生成候选特征子集,并以支持向量机作为样本分类模型,利用交叉验证方法在训练集上评估候选特征子集的样本分类能力,确定分类特征基因集合;然后,利用CART(classification and regression trees)学习算法构建决策树获得样本分类规则;最后,对所得规则进行了分析和解释.  相似文献   

3.
在决策树算法中,即使存在两个"最好"属性,也只是随机选择一个作为根或节点属性.因此,决策树算法产生的分类规则较少.此外,决策树算法采用全匹配测试实例,测试实例最多匹配一条分类规则甚至没有匹配,进而影响分类准确率.针对该问题,提出了基于双属性节点部分匹配的决策树改进算法(DAID3):首先,如果存在两个信息熵相等或相近的"最好"属性,DAID3算法选择两个属性构建节点,它们的属性值及组合作为分枝.因此,每个训练实例可能被多条分类规则覆盖.其次,判断新实例时,在分枝节点上可能匹配到多条路径,为了选择最好路径,为每个分枝节点设置了节点强度.最后,如果不存在一条从根节点到叶子节点的路径全匹配测试实例,则找出部分匹配该实例的路径,返回该路径的终节点强度最大的类标值.为了便于部分匹配时返回强度最大的类标值,为每一个分枝节点设置节点类标值.实验结果表明,与决策树算法相比,DAID3算法具有分类规则多且有更高的分类准确率.  相似文献   

4.
ID3算法是决策树归纳中普遍而有效的启发式算法.本文针对ID3算法的不足,给出了一个改进版本,它在选择测试属性时不仅要求该属性和类的交互信息较大,而且要求和祖先结点使用过的属性之间的交互性息尽可能小,从而避免了对冗余属性的选择,实现信息熵的真正减少.在生成树的过程中,设定分类阈值,对树进行剪枝,以避免数据子集过小,使进一步划分失去统计意义.实验结果表明,该算法能构造出比ID3算法更优的决策树.  相似文献   

5.
基于Rough集的决策树算法   总被引:1,自引:0,他引:1  
针对基于Rough集的经典分类算法值约简算法等不适合大数据集的问题,提出了基于Rough集的决策树算法。采用一个新的选择属性的测度——属性分类粗糙度作为选择属性的启发式,该测度较Rough中刻画属性相关性的测度正区域等更为全面地刻画了属性分类综合贡献能力,并且比信息增益和信息增益率的计算更为简单。采取了一种新的剪枝方法——预剪枝,即在选择属性计算前基于变精度正区域修正属性对数据的初始划分模式,以更有效地消除噪音数据对选择属性和生成叶节点的影响.采取了一种与决策树算法高度融合的简单有效的检测和处理不相容数据的方法,从而使算法对相容和不相容数据都能进行有效处理。对UCI机器学习数据库中几个数据集的挖掘结果表明,该算法生成的决策树较ID3算法小,与用信息增益率作为启发式的决策树算法生成的决策树规模相当。算法生成所有叶节点均满足给定最小置信度和支持度的决策树或分类规则,并易于利用数据库技术实现,适合大数据集。  相似文献   

6.
在Ant-Miner算法基础上提出了一种利用蚁群算法解决分类规则挖掘的算法(ACR),设计了合理的蚂蚁选择属性及属性分区的概率公式,并对规则质量的衡量等策略进行改进,可以较好地挖掘分类规则.在标准数据集上通过与Ant-Miner算法和经典的基于决策树的C 4.5算法比较,ACR在挖掘分类规则的简单性、正确率上有较好的表现.  相似文献   

7.
一种新型决策树属性选择标准   总被引:7,自引:0,他引:7  
讨论传统决策树算法中三种常用的基于熵的属性选择标准,提出一种基于属性重要性排序的建立决策树的新方法。该方法在决策树的每个内结点首先依据属性重要性将属性进行排序,然后选择最重要的属性作为分类属性生成决策树,并抽取出规则。与传统的决策树数据分类方法相比,此方法可有效地选择出对于分类最重要的分类属性,增强决策树的抗干扰能力,并提高规则的预测精度。  相似文献   

8.
针对决策树泛化能力差,容易产生过拟合问题,提出基于随机化属性选择和决策树组合分类器。首先运用随机化邻域属性约减产生多个分类较高的属性子集;其次每个属性子集作为分类回归树(CART)的输入,训练多个基分类器;最后对得到的多个分类精度结果进行投票融合的方式获得最后的分类结果。实验表明,提出的随机属性选择和决策树集成算法有效性。  相似文献   

9.
决策树是分类数据挖掘的重要方法.C4.5算法延用了经典ID3算法的基本策略,增加了处理连续属性的方法.在C4.5算法的基础上,讨论了新的基于属性变换的连续属性处理方法.该方法基于统计概率信息,依据概率属性的最佳分裂对应分裂连续属性,增加了决策树的分类精度.  相似文献   

10.
基于粗糙集的RDT决策树生成算法的研究及应用   总被引:1,自引:0,他引:1  
介绍了一种基于粗糙集理论的决策树生成算法--RDT(Rought Set Decision Tree).该方法运用了粗糙集理论中条件属性相对于决策属性的核,引入启发式条件计算并选择条件属性作为决策树的根结点或子结点.通过一个例子,与运用信息熵概念建立决策树的算法进行比较,结果表明采用RDT方法得到的决策树优于采用信息熵方法得到的决策树.还讨论了RDT与ID3算法对决策树精度和规模的影响,分析数据分类和知识发现的过程及特点.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号