首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
部分民族地区高校毕业生就业是个难点问题。本文介绍了ID3、C4.5和CART三种决策树算法,并选取河池学院毕业生追踪调查数据,分别建立ID3、C4.5和CART分类器进行预测比较。结果表明,C4.5预测分类器具有最小计算量和最高准确率。通过测试,C4.5分类器预测分类准确度和精度与实测数据相符,能够较好地满足应用要求。C 4.5分类器分类规则表明,道德素养、专业素质和实践能力是用人单位录用毕业生的主要标准。预测结果同时也为学校创新人才培养模式,提高毕业生就业能力提供一定的决策支持。  相似文献   

2.
以某钢铁企业的热轧带钢生产实际数据作为分析对象,基于改进的随机森林算法分析工艺参数与产品质量间的隐含关系,进行影响产品质量关键工艺参数的特征提取,建立热轧带钢产品缺陷预测模型.实验结果表明,对非平衡数据集进行平衡处理可以提高样本预测精度;采用CART与C4.5相结合的方法比单一方法可以进一步提升预测精度;同时根据特征的高相关与低相关特性,将互信息作为评价指标应用于特征选择,可以提升随机森林算法的分类效果.在以上三种改进策略下,热轧带钢缺陷的识别率得到明显提高.  相似文献   

3.
大多数机器学习算法能得到较好的分类效果,但模型却无法解释;而随机森林等模型有良好的可解释性,却无法处理中医数据中兼证的情况。本文利用极值随机森林算法对慢性胃炎中医数据进行证候分类研究,其中决策树的叶节点能输出多个标签,通过加权机制综合分量来处理兼证问题。与已有多标记学习算法和C4.5、CART等基于决策树的算法进行比较,实验结果表明,极值随机森林算法无论在6个证型的分类准确率上,还是在多标记评价指标上都具有更好的效果,而且模型中得到的规则基本符合中医理论。  相似文献   

4.
通过数据挖掘软件工具weka,对Bank Marketing数据集分别用分类算法中的J48(C4.5)及Na?ve Bayes算法进行分类实验分析,并从运行速度、正确率、可伸缩性、强壮性等方面对两种算法的分类效果进行了对比分析,得出了Na?ve Bayes算法相较J48(C4.5)算法能得到更有效的分类结果。  相似文献   

5.
提出了一种基于决策树C4.5的多示例学习算法C4.5-MI,通过拓展C4.5的熵函数和信息增益比来适应多示例学习框架.应用梯度提升方法对C4.5-MI算法进行优化,得到效果更优的GDBT-MI算法.与同类决策树算法在benchmark数据集上进行比较,结果表明,C4.5-MI和GDBT-MI算法具有更好的多示例分类效果.  相似文献   

6.
由于矿石矿物的分布范围广,矿石数量巨大,使矿石矿物难以被识别。矿石矿物的形成类型受外力影响,导致矿体中不同部位的构成元素不同,而形成的矿石矿物种类不同。某些矿石中适用于工业生产的元素较少,在开采的过程中会导致回收率低,不能为工业所利用。这种矿石矿物的开采浪费人力物力,使用智能矿石矿物智能识别算法识别出适合开采的矿石矿物将有助于提高矿石矿物开采利润。使用基于CART和PU学习算法的矿石矿物的智能识别,研究适合开采矿石矿物的识别问题,首先从获取的数据中进行样本制作,然后使用PU学习算法针对数据中没有负向样本标注的问题进行负向样本标注,得到完整的样本数据。最后使用样本数据对CART算法进行训练,得出CART算法分类器。通过实验得到基于CART算法和PU学习算法模型的准确率为89.45%,对比ID3算法和C4.5算法得到较为准确的识别结果。  相似文献   

7.
决策树分类算法是智能指导系统实现"智能"的一种有效工具。通过对数据的分析和挖掘,能够实现对数据的精确分类。另外,对于决策树和产生式规则集的计算相对简单而且高效。提出了智能指导系统,并介绍了该系统的主要功能模块。在比较了ID3算法和C4.5算法后,结合个性化教学的需求,提出了新的基于规则属性相关的C4.5r算法。同时,给出了系统的计算评估模块。实验结果表明,新的C4.5r算法在运算时间、产生式规则集的规模及计算产生式规则的开销方面明显优于传统的C4.5算法。  相似文献   

8.
李晋  顾宏斌  潘湑 《科技信息》2010,(28):270-271
决策树学习策略广泛应用于模式识别和机器学习等领域,用来解决与分类相关的问题。决策树剪枝的作用是简化决策树,提高决策树的泛化能力,避免对训练集的过适应,是决策树学习中的重要研究内容。本文详细介绍了数据挖掘算法中的C4.5算法的基本思想,并且对REP剪枝技术进行分析,以此对C4.5算法进行剪枝。实验表明改进的C4.5算法与原C4.5算法相比能很好地处理训练集的非平衡性,并降低决策树的规模,效率得到提高。  相似文献   

9.
信息增益率倾向于取值数较少的属性和产生不平衡的划分,GINI指数偏向于取值数较多的属性且区间趋于平衡的划分.基于此,该文提出融合GINI指数的C4.5改进算法,首先计算候选属性的信息增益率和GINI指数,其次计算信息增益率和GINI指数的比值,最后筛选出比值最大的属性作为划分结点,改进了C4.5算法的不足.以10次10折交叉验证准确率和运行时间为评价指标,通过5组UCI数据测试改进算法性能,并与ID3、C4.5和CART算法对比实验.实验结果表明:融合GINI指数的C4.5算法减轻了属性取值多少对划分结点选择的影响,并且缓和了划分区间的不平衡,提高了分类准确率和运行效率,算法更加稳定,可行有效.  相似文献   

10.
将神经网络集成与C4.5Rule方法相结合,提出了一种改进的决策规则生成算法.该算法以神经网络集成作为C4.5Rule学习的前端,利用其产生用于C4.5Rule学习的数据集,在此基础上进行决策规则的生成.在UCI机器学习数据库上的实验结果表明,该算法可以产生泛化能力较强的决策规则.  相似文献   

11.
分析了全断面掘进机复杂的故障机理和运行参数,研究了将粗糙集和决策树应用到数据挖掘中的方法.以全断面掘进机刀盘的一些实时数据为例,采用MATLAB 7.0对数据进行离散化处理,结合粗糙集属性约简的算法对故障样本进行冗余属性的约简;然后,利用决策树算法对约简后的故障样本集进行规则提取,利用数据挖掘工具Clementine实现了C4.5算法和改进的C4.5算法,对其结果进行了对比分析;最后,运用VB编程对全断面掘进机采集的部分数据进行测试,结果表明该融合算法是一种快速、有效、可靠的故障检测与诊断的新途径.  相似文献   

12.
王雪飞 《科学技术与工程》2013,13(17):4987-4993
通过卫星图像识别地面小尺度低分辨率民居屋顶截面目标,使用C4.5算法依据古民居不同年代的图像数据指纹对古民居进行分类。古民居屋顶(下称古民居)卫星图像处理形成灰度图,应用直方图与SUSAN算法精确分离出民居单元,与已知古民居位置形成不同年代"古民居图像指纹数据(组)",在冗余避免的改良C4.5分类算法中完成对民居分类与统计,实验结果 Kappa系数约为0.9107,统计结果与实际人工验证统计相符合。  相似文献   

13.
决策树学习算法是数据挖掘中一类经典的分类算法。传统的决策树学习算法把数据集合中的实例同等对待,而忽略了实例之间存在的可疑性和影响度差异,导致错误实例扭曲了学习结果,严重影响学习质量。在此提出基于可疑实例影响度分析改进的C4.5 rules算法,在给定一个噪音集合后,首先把可疑实例与原集合划分开,并对可疑实例的影响度进行分析和度量,然后依据分类规则对可疑实例的覆盖情况进行重新排序和分类预测。算法在对分类规则重排序后将错误实例对学习结果的影响最小化,得出尽可能接近正确数据的学习结果。将此算法与经典的C4.5 rules算法进行实验比较,结果表明该算法有着良好的性能。  相似文献   

14.
采用开放应用架构(OAA)准则训练多个二分类感知机,以Gini指数筛选最优的方法构建二叉决策树.推算说明感知机多分类准则在每个树节点上对空间划分的局限性,将基于口袋算法的二叉树与多叉树在8个UCI数据集上进行比较,并与单变量决策树CART和C4.5的结果进行对照.结果表明:采用口袋算法基于OAA方法构建的二叉树,在准确率和空间划分的可解释性上优于基于经典多分类准则构建的多叉树.  相似文献   

15.
为解决目前常用于就业数据分析的C4.5算法、基于粗糙集等的决策树生成算法均无法很好地处理决策精度需求不同和噪声适应能力的问题,运用基于多尺度粗糙集模型的决策树算法于于高校就业数据分析,并以某高校2012年就业数据为例进行分析,同时将分析结果与C4.5算法和基于粗糙集的决策树生成算法的分析结果进行比较.结果表明:基于多尺度粗糙集模型的决策树算法生成的决策树树形结构简单、产生的规则简洁、不存在不可分的数据集、运算速度快.  相似文献   

16.
针对退役动力电池存在一致性差、等级筛选效率低的难题,提出了一种基于改进CART算法的退役动力电池等级筛选方法。首先,分析了传统CART算法的基本原理,为克服算法计算量大的缺陷,将Fayyad边界点判定定理与CART算法相结合,通过选取属性最优阈值点来减少计算量,提高分类效率;其次,基于代价复杂度后剪枝算法,采用交叉验证法对算法进行进一步优化;最后,将改进CART算法用于退役动力电池筛选分类,实验结果表明改进CART算法在保持较高准确率的情况下,可以有效提高退役动力电池的等级筛选效率。  相似文献   

17.
针对传统C4.5决策树分类算法需要进行多次扫描,导致运行效率低的缺陷,提出一种新的改进C4.5决策树分类算法.通过优化信息增益推导算法中相关的对数运算,以减少决策树分类算法的运行时间;将传统算法中连续属性的简单分裂属性改进为最优划分点分裂处理,以提高算法效率.实验结果表明,改进的C4.5决策树分类算法相比传统的C4.5决策树分类算法极大提高了执行效率,减小了需求空间.  相似文献   

18.
介绍了决策树C4.5算法,并利用该算法实现了对遥感数据规则的挖掘,在此基础上设计并实现了针对于C4.5规则的编辑器,通过该编辑器能够实现对规则的编辑与管理。规则编辑器的设计与实现,为在分类过程中人工的干预提供了可能。将人工干预与基于数学理论规则的自动提取相结合,尤其是在地形较复杂的地区,将有利于分类精度的提高。利用黄山市Land Sat TM影像,进行了基于C4.5算法自动提取规则的遥感影像分类实验。实验结果表明,利用C4.5算法提取的分类规则准确率高,利用提取的分类规则进行的遥感影像分类效果较好。  相似文献   

19.
数据挖掘技术从产生以来得到了广泛的研究和应用,在数据的分类技术方面C4.5算法的研究已经比较成熟,但在学生成绩挖掘方面的应用比较少,本文首先论述了主要分类技术,详细介绍了C4.5决策树分类算法,并以实际学生成绩数据为依据,进行学生成绩的数据挖掘,通过对挖掘结果的分析表明,C4.5决策树算法高效、准确,是对学生成绩数据挖掘的首选工具.  相似文献   

20.
蔡星 《科技咨询导报》2014,(12):40-40,45
该文对传统的C 4.5决策树数据挖掘算法进行了改进,提出了一种双重熵平均决策树算法。传统的C 4.5决策树算法易出现无意义分枝,过度拟合等问题,针对该类问题,基于双重熵平均决策树算法,通过两次对样本子集熵平均值的计算、排序、合并处理,得到修正后的属性信息增益,并以此作为属性选择的依据,从而解决了传统C 4.5决策树算法可解释性差、易产生碎片等问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号