首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 171 毫秒
1.
为解决目前常用于就业数据分析的C4.5算法、基于粗糙集等的决策树生成算法均无法很好地处理决策精度需求不同和噪声适应能力的问题,运用基于多尺度粗糙集模型的决策树算法于于高校就业数据分析,并以某高校2012年就业数据为例进行分析,同时将分析结果与C4.5算法和基于粗糙集的决策树生成算法的分析结果进行比较.结果表明:基于多尺度粗糙集模型的决策树算法生成的决策树树形结构简单、产生的规则简洁、不存在不可分的数据集、运算速度快.  相似文献   

2.
基于变精度粗糙集模型,对文献[3]提出的生成决策树方法进行改进,把变精度加权平均粗糙度作为属性选择标准,提出一种构造决策树新算法.新算法用变精度近似精度来代替近似精度,能有效地克服噪声数据在构造决策树过程中对刻画精度的影响,使生成的决策树复杂性降低,泛化能力更强.  相似文献   

3.
传统的决策树方法在实际应用中存在很多不足,如生成树规模过大,抗噪性较差等,因此,提出了将变精度粗糙集和混合变量集算法应用于决策树分类中,通过变精度和混合属性集分类减小树的规模和过度拟合问题,降低了噪声数据对属性选择的影响,并通过实验证明该算法与传统的算法相比具有较大的优越性。  相似文献   

4.
为了提升传统随机森林算法的分类精度,本文首先对传统随机森林模型中的决策树根据分类性能评价指标AUC值进行降序排列,从中选取出AUC值高的决策树,计算这些决策树之间的相似度并生成相似度矩阵,然后根据相似度矩阵对这些决策树进行聚类,从每一类中选出一棵AUC最大的决策树组成新的随机森林模型,从而达到提升传统随机森林算法分类精度的目的。通过UCI数据集的实验表明,改进后的随机森林算法分类精度上最大提高了2.91%。  相似文献   

5.
一种基于粗糙集的决策树构造方法   总被引:2,自引:1,他引:2  
决策树是一种有效的数据分类方法。传统的决策树方法是通过信息熵的计算去生成决策树的节点,计算量大。基于粗糙集理论,利用近似精度的概念来进行属性选择,构造决策树,有效地提高了效率并降低了决策树的复杂度。  相似文献   

6.
使用决策类划分的新型多变量决策树算法,对选用的东南沿海天气与户外运动相关典型数据进行决策分析,简便有效地构造出相关决策树.验证了算法的有效性、准确性和高效性,同时提出了简单的优化数据方法,也证明了新算法的内敛性.  相似文献   

7.
基于贝叶斯决策树的交通事件持续时间预测   总被引:2,自引:2,他引:0  
采用基于贝叶斯方法的决策树算法,利用上海市中心城区1536个交通事件持续时间数据,建立交通事件持续时间的预测模型.结果表明,事件类型是决策树中的第一层测试属性,不同类型事件的特性属性在决策树中的位置并不相同.并用384个交通事件数据对模型的预测精度进行检验.检验结果表明,抛锚事件持续时间预测误差小于10 min的正确率为79%,而交通事故持续时间预测误差小于20 min的正确率为65%.基于贝叶斯推理的决策树算法比仅基于贝叶斯或仅基于决策树算法的分类精度更高,鲁棒性更强.  相似文献   

8.
为了分析研究不同地表发射率反演算法的精度和适用性,文中选取西安市的遥感影像Landsat 8为基础数据,运用ENVI,ArcGIS等软件,首先对Landsat 8数据进行预处理,提取西安市的NDVI影像;然后,建立决策树模型得到西安市地表分类影像,并基于像元二分模型反演得到植被覆盖度,基于NDVI得到4种不同算法的地表发射率;最后,以精度0. 01的MODIS LSE产品为标准数据,从像元尺度上对比分析了4种算法的精度,并依据回归决策树方法的分类结果,对比分析了不同算法在各类地表覆盖类型上的发射率反演差异。结果表明:在像元尺度上,植被指数混合模型法与NDVI~(TEM)改进算法精度较高且较为接近;从不同下垫面的反演差异来看,在植被区域4种算法之间的差异较小,而对于水体区域,4种算法之间的差异较大;从反演方法的适用性而言,植被指数混合模型法与NDVI~(TEM)改进算法较为适合本研究区。  相似文献   

9.
基于熵和变精度粗糙集的规则不确定性量度   总被引:21,自引:0,他引:21  
由已知数据中产生的粗糙决策规则往往具有不确定性 ,需要适当的不确定性量度。借鉴变精度粗糙集理论的思想 ,采用基于信息熵的方法构造了两个新的粗糙决策规则不确定性量度函数。它们不仅可以兼顾由划分的粒度引起的规则不确定性的两个方面 ,即不一致性和随机性 ,还考虑了数据中的噪声对规则一致性的影响。因此 ,它们对一类“几乎一致性规则”具有一定的保护作用。通过举例分析 ,说明它们更适于评价从有噪声数据中提取的粗糙决策规则。  相似文献   

10.
基于粗糙集的RDT决策树生成算法的研究及应用   总被引:1,自引:0,他引:1  
介绍了一种基于粗糙集理论的决策树生成算法--RDT(Rought Set Decision Tree).该方法运用了粗糙集理论中条件属性相对于决策属性的核,引入启发式条件计算并选择条件属性作为决策树的根结点或子结点.通过一个例子,与运用信息熵概念建立决策树的算法进行比较,结果表明采用RDT方法得到的决策树优于采用信息熵方法得到的决策树.还讨论了RDT与ID3算法对决策树精度和规模的影响,分析数据分类和知识发现的过程及特点.  相似文献   

11.
为解决日趋增长的噪声大数据分类问题,提出了一种高度随机模糊森林算法.该算法在决策树学习中生成连续属性的模糊分区,并给出在MapReduce框架中所提算法的分布式实现,用于受属性噪声污染的大数据集中学习模糊决策树的集合,该分布式实现模型可以适应计算的有效分配策略,从而产生良好的可扩展性数据,这种分布式算法使得模糊随机森林能够处理大数据集的学习和分类.高度随机模糊森林算法能够实现噪声大数据的高精度分类,为以后的大数据分析打下良好的基础.实验结果表明,所提算法比现有算法准确率更高,在属性噪声情况下,该文分类准确率也高于随机森林算法,说明该文算法的可行性和有效性.  相似文献   

12.
基于Rough集的决策树算法   总被引:1,自引:0,他引:1  
针对基于Rough集的经典分类算法值约简算法等不适合大数据集的问题,提出了基于Rough集的决策树算法。采用一个新的选择属性的测度——属性分类粗糙度作为选择属性的启发式,该测度较Rough中刻画属性相关性的测度正区域等更为全面地刻画了属性分类综合贡献能力,并且比信息增益和信息增益率的计算更为简单。采取了一种新的剪枝方法——预剪枝,即在选择属性计算前基于变精度正区域修正属性对数据的初始划分模式,以更有效地消除噪音数据对选择属性和生成叶节点的影响.采取了一种与决策树算法高度融合的简单有效的检测和处理不相容数据的方法,从而使算法对相容和不相容数据都能进行有效处理。对UCI机器学习数据库中几个数据集的挖掘结果表明,该算法生成的决策树较ID3算法小,与用信息增益率作为启发式的决策树算法生成的决策树规模相当。算法生成所有叶节点均满足给定最小置信度和支持度的决策树或分类规则,并易于利用数据库技术实现,适合大数据集。  相似文献   

13.
针对绝大部分多变量决策树只能联合数值型属性,而不能直接为带有分类型属性数据集进行分类的问题,提出一种可联合多种类型属性的多变量决策树算法(CMDT).该算法通过统计各个分类型属性的属性值在各个类别或各个簇中的频率分布,来定义样本集合在分类型属性上的中心,以及样本到中心的距离.然后,使用加权k-means算法划分决策树中的非终端结点.使用这种结点划分方法构建的决策树可用于数值型数据、分类型数据以及混合型数据.实验结果表明,该算法建立的分类模型在各种类型的数据集上均获得比经典决策树算法更好的泛化正确率和更简洁的树结构.  相似文献   

14.
自动生成决策树的通用算法模板   总被引:4,自引:0,他引:4  
目的 提供自动生成决策树的通用算法模板,从而使算法的设计能够快速验证为解决特定决策问题而设计的新算法。方法 提供智能编辑器供算法设计定义自己的公式,并利用该公式或内置算示来初始化通用算法模板,从而实现连续属性的离散化、采用基于概率分布的方法处理未知属性和噪声数据,利用预剪枝和后剪枝算法进行剪枝。结果与结论 用户能够利用该模板,在系统提供的交互式图形环境中,针对不同的决策问题测试决策树生成算法。  相似文献   

15.
基于粗糙集决策树优化研究   总被引:2,自引:0,他引:2  
决策树分类方法是一种有效的数据挖掘分类方法.单变量决策树结构简单,但规模较大.多变量决策树是为了进一步缩减树的规模而提出的决策树结构,通过选取属性的合理组合作为分裂属性,可使树的规模相对较小.文章在对以往所提出的混合变量决策树算法RSH2的抗噪性差和属性被多次选取等问题进行改进的基础上,提出了基于粗糙集的多变量决策树算法VPMDT.通过与ID3、HACRs、RSH2和C4.5等算法进行的实验比较表明,VPMDT有较好的时空性能,并保持较高的分类预测正确率.  相似文献   

16.
针对传统故障诊断模型面向海量故障数据时诊断准确度低的问题,首先,提出了一种局部均值分解与固定点算法联合降噪方法,以消除轴承振动信号中的噪声;其次,为了避免原始信号中敏感特征难以提取的问题,提出了一种基于核主成分分析的降维方法;再次,构建了一种基于改进极端梯度提升决策树的故障诊断模型,采用GS-PSO算法优化SVM性能,进而运用改进极端梯度提升决策树思想修正分类模型的残差以提升模型分类精度,应用Spark-大数据平台,通过并行处理技术进行科学计算;最后,采用CWRU提供的滚动轴承数据进行训练与仿真,证明构建的模型能实现对不同类型滚动轴承的识别诊断,并保证诊断结果的准确率。通过对4种不同故障诊断模型的对比分析,表明本文模型具有可行性和优越性。  相似文献   

17.
文章提出了一种新的决策树构建算法,算法选择使生成的规则满足给定可信度阀值且支持度最大的属性作为结点,不仅简化了生成的决策树;且可以根据用户输入的可信度,得到相应的决策规则集,提高了决策树的泛化能力,有效地去除了噪音规则。应用实例分析,结果表明算法提取的决策规则简洁有效。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号