首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
C4.5算法是进行数据分类分析的经典决策树数据挖掘算法,应用广泛。介绍了决策树及其常用算法ID3,指出了它存在的缺点。分析了C4.5算法,通过其在高校教学决策中的应用实例,说明数据分类并实现预测的过程。最后指出了C4.5算法的不足及未来的研究方向。  相似文献   

2.
决策树作为从大规模数据中探索概念构成的代表,是弱化模型结构仅从数据出发构建概念的典型,所以决策树作为数据挖掘的典型技术得到了广泛的应用。根据临床检验资料信息,利用决策树模型建立2型糖尿病预测模型,为能更准确地诊断2型糖尿病提出理论依据。首先,搜集数据并进行预处理;然后,利用R语言编程构造ID3算法和CART算法的分类模型;再通过对ID3算法和分类回归树(CART)算法研究相比较,分析对比每个单一算法的性能和挖掘收集到的糖尿病数据;最后,比较2种方法的准确率,对预测结果进行评估。构建的诊断模型都具有较高的预测准确度,且CART模型优于ID3模型,对预测2型糖尿病的患病风险具有一定的临床参考价值。  相似文献   

3.
针对分类决策树算法存在的结构冗余及误差迁移问题,提出了软聚类节点分裂层次模型.通过叶子节点处决策模型构建以及软聚类节点分裂方法,实现对样本空间的高效划分,生成精简的层次结构模型.利用层次结构判别方法,从层次结构模型叶子节点到根节点对样本进行加权求和预测,降低模型结构对判定效果的影响,提高模型对判别误差的调节能力.对比了CART、ID3、C4.5共3种分类算法,该方法构建的模型结构简单,在两个数据集上均有最好的分类效果,F1-measure分别为0.53和0.38.说明软聚类节点分裂层次模型能够避免冗余结构,缓解误差迁移问题.   相似文献   

4.
提出了基于两步策略的3种多类多标签英文文本分类方法:①以贝叶斯为分类器,以抽取词根的单词和未抽词根的单词分别作为第一、第二步使用特征的两步方法;②以贝叶斯和决策树分别为第一、第二步使用分类器的两步方法;③以ID 3、C 4.5和贝叶斯的组合分类器对部分特定类别进行分类,然后对余下类别采用方法②进行二次分类的混合两步方法。实验表明,3种方法中方法③具有最好的性能。  相似文献   

5.
分类是数据挖掘的一个重要研究方向,使用决策树进行分类是一种常用而且高效的分类方法。目前传统的算法有ID 3、C 4.5、CART等,这些算法都有如下的局限性:必须人工输入归类集合,划分属性,确定最优的分类集合。为了解决这些问题,本文做了如下工作:①提出信息增益排列GEP染色体头部的思想;②给出基于信息增益的GEP构造决策树属性约简算法(IG-GEPDTAR)并用实验进行验证;③实验表明该算法构造的决策树在具有100%准确性的同时,比使用GEP算法构造的决策树减少了冗余分支,其节点数比传统的ID 3算法和P ID算法构造的决策树的节点数分别减少了82.9%和31.2%。  相似文献   

6.
由于矿石矿物的分布范围广,矿石数量巨大,使矿石矿物难以被识别。矿石矿物的形成类型受外力影响,导致矿体中不同部位的构成元素不同,而形成的矿石矿物种类不同。某些矿石中适用于工业生产的元素较少,在开采的过程中会导致回收率低,不能为工业所利用。这种矿石矿物的开采浪费人力物力,使用智能矿石矿物智能识别算法识别出适合开采的矿石矿物将有助于提高矿石矿物开采利润。使用基于CART和PU学习算法的矿石矿物的智能识别,研究适合开采矿石矿物的识别问题,首先从获取的数据中进行样本制作,然后使用PU学习算法针对数据中没有负向样本标注的问题进行负向样本标注,得到完整的样本数据。最后使用样本数据对CART算法进行训练,得出CART算法分类器。通过实验得到基于CART算法和PU学习算法模型的准确率为89.45%,对比ID3算法和C4.5算法得到较为准确的识别结果。  相似文献   

7.
为提高分类挖掘的准确度,在分析ID3,C4.5和进化算法(EC)的基础上,设计了两个共同进化的种群分别表示选择的属性子集和分类规则子集,提出基于共同进化计算的分类规则算法(CRCEC),并构建CRCEC算法的适应度评价函数.用4个加利福尼亚大学Irvine分校的数据集对CRCEC,ID3,C4.5和EC算法进行测试比较,结果表明CRCEC算法分类准确度高,可以得到简洁的、可理解性强的规则.最后给出了CRCEC算法在公路车辆征费分类预测系统中的一个应用实例.  相似文献   

8.
【目的】机器学习中不同算法适用于具有不同分布特征的数据集。在用整个训练集上训练得到的单个分类器预测新样本类别时,由于缺少对局部区域样本的针对性,可能导致分类器对某一区域数据的预测能力较差而产生错误分类。为了解决这个问题,提出基于k-means+ +的多分类器选择算法。【方法】首先用3种分类综合性能较好的算法———Ada-Boost、SVM、随机森林(RF)在训练集上分别训练得到3个分类器作为候选基分类器,然后利用k-means++算法将训练数据集分为k个簇,用3个候选分类器分别对每个簇进行分类测试,选择对这一簇中数据分类精度最高的分类器作为与它的数据相似数据的分类器。在对新样本进行类别预测时,首先判定样本属于哪个簇,然后用它的分类器进行分类预测。【结果】实验结果表明,新算法在9个UCI数据集上优于单个分类算法。【结论】基于局部区域动态选择最优分类器可以提高模型分类准确性。
  相似文献   

9.
单桂军 《科学技术与工程》2013,13(22):6605-6609,6624
为了有效识别声纳信号,提出一种基于连续数据量化的声纳传感器数据识别方法。首先用声学传感器采集数据;其次运用数据离散化方法,有效地将采集到的数据进行连续数据离散化;最后,通过数据挖掘技术(C4.5/C5.0决策树、SVM和Naive-Bayes分类器)对离散后的声纳信号数据进行分类识别。实验首先在UCI数据集上进行Naive-Bayes分类预测来评价提出离散化方法的性能,得到了较好的效果。其后,通过声学传感器收集到的Sonar数据集进行实验。结果表明,新的离散化方法提高了四个分类器的识别精度,表明该声纳传感器数据识别技术是非常有效的。  相似文献   

10.
决策树分类算法是智能指导系统实现"智能"的一种有效工具。通过对数据的分析和挖掘,能够实现对数据的精确分类。另外,对于决策树和产生式规则集的计算相对简单而且高效。提出了智能指导系统,并介绍了该系统的主要功能模块。在比较了ID3算法和C4.5算法后,结合个性化教学的需求,提出了新的基于规则属性相关的C4.5r算法。同时,给出了系统的计算评估模块。实验结果表明,新的C4.5r算法在运算时间、产生式规则集的规模及计算产生式规则的开销方面明显优于传统的C4.5算法。  相似文献   

11.
决策树算法在医学图像数据挖掘中的应用   总被引:8,自引:1,他引:8  
目的研究决策树算法在医学图像数据挖掘中的应用。方法利用决策树算法对乳腺癌图像数据进行分类,提出了一个基于决策树算法的医学图像分类器。结果实现了ID3和C4.5算法对图像数据的分类,获得了分类的实验结果。结论该模型系统达到了较高的分类准确率,证明数据挖掘在辅助医疗诊断中有着广泛的应用前景。  相似文献   

12.
传统的模糊决策树虽然可以从模糊数据中抽取模糊分类规则,但只能获取节点的隶属度信息,无法得出样本数据对于节点的非隶属度和犹豫度信息,导致数据分类的准确率不高。针对此,基于毕达哥拉斯模糊集理论,提出了一种新的加权毕达哥拉斯模糊决策树算法(Weighted Pythagorean Fuzzy Decision Tree,WPFDT)。首先,通过改进的K-means聚类算法得到连续属性数据的聚类中心,并结合三角模糊数对连续数据进行模糊处理;其次,定义并计算每一个属性的加权毕达哥拉斯模糊熵,选择加权毕达哥拉斯模糊熵最小的属性作为决策树根节点,在根节点下递归选择模糊熵最小的属性作为分裂节点,同时通过阈值控制树的规模,得到从根节点到叶子节点路径的模糊规则以及模糊规则的隶属度、非隶属度以及犹豫度,并完成预测分类,直至生成WPFDT模型;最后,选取UCI上的3个医学数据集(Haberman、Breast Cancer、Parkinson)进行实验,在分类准确率和得出模糊规则的数量与3种传统决策树算法(模糊ID3算法、C4.5算法、CART算法)比较,实验结果表明:WPFDT在分类精度和树大小上都优于其他传统决策树算法,并且有较高的召回率和精确率。  相似文献   

13.
信息增益率倾向于取值数较少的属性和产生不平衡的划分,GINI指数偏向于取值数较多的属性且区间趋于平衡的划分.基于此,该文提出融合GINI指数的C4.5改进算法,首先计算候选属性的信息增益率和GINI指数,其次计算信息增益率和GINI指数的比值,最后筛选出比值最大的属性作为划分结点,改进了C4.5算法的不足.以10次10折交叉验证准确率和运行时间为评价指标,通过5组UCI数据测试改进算法性能,并与ID3、C4.5和CART算法对比实验.实验结果表明:融合GINI指数的C4.5算法减轻了属性取值多少对划分结点选择的影响,并且缓和了划分区间的不平衡,提高了分类准确率和运行效率,算法更加稳定,可行有效.  相似文献   

14.
目前决策树中很多分类算法例如ID3/C4.5/C5.0等都依赖于离散的属性值,并且希望将它们的值域划分到一个有限区间。利用统计学法则,提出一种新的连续属性值的划分方法;该方法通过统计学法则来发现精准的合并区间。另外在此基础上,为提高决策树算法分类学习性能,提出一种启发式的划分算法来获得理想的划分结果.在UCI真实数据集上进行仿真实验.结果表明获得了一个比较高的分类学习精度、与常见的划分算法比较起来有很好的分类学习能力。  相似文献   

15.
针对彩铃业务交易记录海量化和客户属性高维化、混合性的特点,提出一种应用模糊信息熵对彩铃客户属性进行约简的方法。以两个地区的营销返回样本为原始数据,结合CART分类器和10折交叉验证,比较由文中方法和经典粗糙集属性约简方法得到的特征数量和分类精度。实验结果表明,文中方法获得了相对较高的平均分类精度(81.36%)和最少的平均特征属性(4.5个),有效地约简了彩铃客户属性并改善了分类能力。  相似文献   

16.
绿地建设是气候适应型城市建设的重要内容之一,为客观评价建设情况,基于高分系列多光谱数据,以常德城区作为研究区域,选用包括纹理特征的26项特征变量,构建CART(Classification And Regression Tree,分类与回归树)决策树进行面向对象监督分类,使用Khat方法完成分类精度评价。精度评价数据表明,2014至2019年6年间的总体分类精度大于90%,Kappa系数大于0.8,绿地提取的用户精度与制图精度达到89%,验证了该方法在城市绿地的提取工作的上具有可行性。分析常德城区近6年的绿地变化监测结果,得出城市绿地面积从2014年的149.01km2上升至2019年的166.79km2,面积增加17.78km2,增长率11.93%,经与实际变化趋势比对一致。结果表明,基于CART决策树的面向对象高分遥感解译方法,具有一定参考价值,可为气候适应型试点城市绿地变化监测评估提供有效依据。  相似文献   

17.
以某钢铁企业的热轧带钢生产实际数据作为分析对象,基于改进的随机森林算法分析工艺参数与产品质量间的隐含关系,进行影响产品质量关键工艺参数的特征提取,建立热轧带钢产品缺陷预测模型.实验结果表明,对非平衡数据集进行平衡处理可以提高样本预测精度;采用CART与C4.5相结合的方法比单一方法可以进一步提升预测精度;同时根据特征的高相关与低相关特性,将互信息作为评价指标应用于特征选择,可以提升随机森林算法的分类效果.在以上三种改进策略下,热轧带钢缺陷的识别率得到明显提高.  相似文献   

18.
阐述了ID3决策树算法原理,分析了汽车评测数据,提出了应用决策树来处理汽车评测问题的方法,该方法利用训练数据的信息增益来构建评测模型,并通过对评测模型的查找来完成其它数据的分类预测.实验结果表明:利用决策树来处理汽车评测问题具有良好的预测准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号