首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 203 毫秒
1.
基于Rough集的决策树算法   总被引:1,自引:0,他引:1  
针对基于Rough集的经典分类算法值约简算法等不适合大数据集的问题,提出了基于Rough集的决策树算法。采用一个新的选择属性的测度——属性分类粗糙度作为选择属性的启发式,该测度较Rough中刻画属性相关性的测度正区域等更为全面地刻画了属性分类综合贡献能力,并且比信息增益和信息增益率的计算更为简单。采取了一种新的剪枝方法——预剪枝,即在选择属性计算前基于变精度正区域修正属性对数据的初始划分模式,以更有效地消除噪音数据对选择属性和生成叶节点的影响.采取了一种与决策树算法高度融合的简单有效的检测和处理不相容数据的方法,从而使算法对相容和不相容数据都能进行有效处理。对UCI机器学习数据库中几个数据集的挖掘结果表明,该算法生成的决策树较ID3算法小,与用信息增益率作为启发式的决策树算法生成的决策树规模相当。算法生成所有叶节点均满足给定最小置信度和支持度的决策树或分类规则,并易于利用数据库技术实现,适合大数据集。  相似文献   

2.
为解决目前常用于就业数据分析的C4.5算法、基于粗糙集等的决策树生成算法均无法很好地处理决策精度需求不同和噪声适应能力的问题,运用基于多尺度粗糙集模型的决策树算法于于高校就业数据分析,并以某高校2012年就业数据为例进行分析,同时将分析结果与C4.5算法和基于粗糙集的决策树生成算法的分析结果进行比较.结果表明:基于多尺度粗糙集模型的决策树算法生成的决策树树形结构简单、产生的规则简洁、不存在不可分的数据集、运算速度快.  相似文献   

3.
基于支持度置信度框架的关联分类算法在生成规则时难以提出大量高质量规则,而且在一些数据集尤其是不平衡数据集上,部分训练实例未被产生的关联规则所覆盖,导致算法的分类准确率不高.基于以上问题提出了改进的关联分类的算法(Improved Algorithm based on Multiple learning and Correlation degree,IAMC).首先,在提取规则时,IAMC对训练集进行多次关联分类学习,尽量多地提出高质量的规则.其次,在生成规则时采用综合考虑了置信度,补类支持度的新度量关联度,以提高生成的规则的质量.最后,在关联分类规则提取后,对利用已有规则无法判断类别的和未被已有规则覆盖的训练实例用决策树方法再次提取规则,并加入到规则集中.实验结果表明,IAMC算法能提出更多高质量的规则,在多个UCI数据集上具有较高的分类准确率.  相似文献   

4.
数据挖掘的目标是在海量数据集中寻找和分析某些内涵信息,其数据分析的方法对结果集有很大的影响. 通过改进决策树算法的数据结构,产生分类关联规则并进行规则剪枝,实现了决策树的CMAR(Accurate and Efficient Classification Based on Multiple Class-Association Rules)生成算法;实验表明CMAR算法具有快速和精确度高的优点,具有一定的应用前景.  相似文献   

5.
针对ID3算法构造的决策树结构复杂、对噪声数据比较敏感等局限性,提出一种新的面向噪声数据的决策树构造算法。算法借鉴变精度粗糙集和尺度函数概念,采用不同尺度下近似分类精度选择测试属性构造决策树,在算法形成过程中利用决策规则的可信度对决策树进行修剪,避免了生成的决策树过于庞大。结果表明,该方法是有效的,能够克服部分噪声数据对决策树的影响,且能满足不同用户对决策精度的要求。  相似文献   

6.
针对目前上下文规则生成方法通常是依靠人工定义的,提出一种修正的ID3算法用于虚拟环境上下文规则的自动生成.该算法先构建上下文决策树,然后再将此树自动转换成规则集.实验结果验证该算法在生成规则的有效性与计算效率上具有良好性能.  相似文献   

7.
赵艳春 《中国西部科技》2013,(1):109-110,104
目前,数据挖掘技术已广泛应用于市场营销、金融、保险、工程与科学数据分析等领域。本文尝试性地利用数据挖掘中的决策树算法,对中职考生的报考数据进行分析研究,生成决策树,总结出规则,为决策;等提供理论支持。  相似文献   

8.
文章提出了一种新的决策树构建算法,算法选择使生成的规则满足给定可信度阀值且支持度最大的属性作为结点,不仅简化了生成的决策树;且可以根据用户输入的可信度,得到相应的决策规则集,提高了决策树的泛化能力,有效地去除了噪音规则。应用实例分析,结果表明算法提取的决策规则简洁有效。  相似文献   

9.
本文首先阐述数据挖掘流程的基本概念,介绍了决策树算法的原理,根据决策树算法分析了影响高职高专院校学生计算机二级考试Access的考试成绩的诸多因素,对这些因素按照数据挖掘思想生成了规则集。分析了影响因素后,可为教师在教学过程中明确教学方向和教学重点奠定了基础。  相似文献   

10.
介绍了数据挖掘和决策树生成算法,利用决策树生成工具对纳税人的税收数据进行挖掘,并对挖掘结果进行了分析。  相似文献   

11.
为解决日趋增长的噪声大数据分类问题,提出了一种高度随机模糊森林算法.该算法在决策树学习中生成连续属性的模糊分区,并给出在MapReduce框架中所提算法的分布式实现,用于受属性噪声污染的大数据集中学习模糊决策树的集合,该分布式实现模型可以适应计算的有效分配策略,从而产生良好的可扩展性数据,这种分布式算法使得模糊随机森林能够处理大数据集的学习和分类.高度随机模糊森林算法能够实现噪声大数据的高精度分类,为以后的大数据分析打下良好的基础.实验结果表明,所提算法比现有算法准确率更高,在属性噪声情况下,该文分类准确率也高于随机森林算法,说明该文算法的可行性和有效性.  相似文献   

12.
传统的模糊决策树虽然可以从模糊数据中抽取模糊分类规则,但只能获取节点的隶属度信息,无法得出样本数据对于节点的非隶属度和犹豫度信息,导致数据分类的准确率不高。针对此,基于毕达哥拉斯模糊集理论,提出了一种新的加权毕达哥拉斯模糊决策树算法(Weighted Pythagorean Fuzzy Decision Tree,WPFDT)。首先,通过改进的K-means聚类算法得到连续属性数据的聚类中心,并结合三角模糊数对连续数据进行模糊处理;其次,定义并计算每一个属性的加权毕达哥拉斯模糊熵,选择加权毕达哥拉斯模糊熵最小的属性作为决策树根节点,在根节点下递归选择模糊熵最小的属性作为分裂节点,同时通过阈值控制树的规模,得到从根节点到叶子节点路径的模糊规则以及模糊规则的隶属度、非隶属度以及犹豫度,并完成预测分类,直至生成WPFDT模型;最后,选取UCI上的3个医学数据集(Haberman、Breast Cancer、Parkinson)进行实验,在分类准确率和得出模糊规则的数量与3种传统决策树算法(模糊ID3算法、C4.5算法、CART算法)比较,实验结果表明:WPFDT在分类精度和树大小上都优于其他传统决策树算法,并且有较高的召回率和精确率。  相似文献   

13.
朱红超 《科技信息》2010,(35):I0098-I0099
民航应急救援是民航航空安全系统的重要组成部分,是航空安全的基本保障。在救援过程中,救援等级的决策直接影响到对整个事态的评估及所需救援措施、救援力量的确定。在救援等级决策中,利用粗糙集理论对传统的决策树构造算法——ID3算法作了一些改进,对原始数据表进行属性约简,并在决策树的构造过程中引入粗糙度,得出了较好的救援等级决策规则。  相似文献   

14.
基于决策树和遗传算法的模糊分类系统设计   总被引:1,自引:0,他引:1  
提出一种基于决策树初始化和遗传算法优化的模糊分类系统的设计方法.该方法首先采用分类和递归树(CART)算法进行决策树的生长,树的修剪过程简化了初始决策树;然后,把修剪后的决策树转化为模糊模型,利用匹茨堡型实数编码的遗传算法优化该模糊模型.为了提高模型的解释性,在遗传算法中利用基于相似性的模型简化方法对模型进行约简.最后利用该方法对Iris问题进行研究,仿真结果验证了该方法的有效性.  相似文献   

15.
提出了一种新型的决策规则约简方法。基于均匀划分和正态分布隶属度函数,对决策表的连续属性进行模糊化,用欧氏距离贴近度来构建相似矩阵,并提出了一种论域的模糊划分算法;依据粗糙集隶属度进行属性约简的基础上,给出了一种决策规则约简算法,从而达到发掘知识并简化知识的目的。  相似文献   

16.
兼顾模糊系统精确性和解释性,提出1种基于遗传算法的模糊分类系统设计方法.该算法在考虑模糊分类系统解释性的前提下,基于数据样本构建完整的规则集,并采用密歇根编码方式优化规则集和隶属函数参数,在保证系统解释性的同时提高了系统的精确性,仿真实验结果验证了该方法的有效性.  相似文献   

17.
基于模糊-粗糙集模型的一种归纳学习方法   总被引:10,自引:1,他引:10  
对传统粗糙集理论进行了扩展,提出了一种模糊-粗糙集模型。利用模糊集理论和Koho-nen网络自组织映射算法对决策表的连续属性进行模糊化,并用模糊贴近度构造模糊相似矩阵,把普通粗糙集的不可分辨关系推广为模糊相似关系。提出一种基于模糊-粗糙集模型的归纳学习算法FRILA,此算法和决策树算法相比,具有得到的规则数目少、规则表示简单等优点。实例验证了此方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号