共查询到20条相似文献,搜索用时 0 毫秒
1.
传统决策树在中小型数据集的预测分类上表现优秀,但在大数据集的处理上仍然存在效率低下、准确率较低等问题.为了适应大数据集环境,国内外学术界和工业界提出了将决策树与分布式处理平台相结合的分布式决策树算法,面向大数据处理的Hadoop和Spark分布式计算系统的出现,为研究分布式决策树算法提供了新的契机.为此,面向以基于大数... 相似文献
2.
针对对等模式下并行决策树分类算法的通信开销太大,提出了一种基于主从模式的FPM_DT并行决策树挖掘算法,此算法综合使用了横向与纵向的数据划分模型,并采用根据分支数据分布情况进行结点分组的策略.实验结果表明,它与对等模式下并行SPRINT分类算法相比,降低了通信开销,具有更好的可扩展性与加速比性能. 相似文献
3.
一种基于属性贡献度的决策树学习算法 总被引:3,自引:1,他引:2
文章提出一种基于属性贡献度的决策树算法ICD,该算法利用信息熵理论构建基于样本类别信息分布确定的属性贡献度函数模型,从属性选优上消除了多值属性选择的偏向,将ICD算法与ID3、C4.5算法进行实验对比,数据结果表明该算法具有良好的性能. 相似文献
4.
许俊 《河北理工大学学报(自然科学版)》2007,29(2)
决策树是分类数据挖掘的重要方法.C4.5算法延用了经典ID3算法的基本策略,增加了处理连续属性的方法.在C4.5算法的基础上,讨论了新的基于属性变换的连续属性处理方法.该方法基于统计概率信息,依据概率属性的最佳分裂对应分裂连续属性,增加了决策树的分类精度. 相似文献
5.
在对大规模数据进行蜻蜓算法优化时,由于要计算的维度过多,迭代次数过大,从而耗费大量运算时间,而基于Spark分布式计算可以减少大数据运算的耗时。将DA算法在Spark分布式计算平台下进行并行计算,把蜻蜓种群被分配到各个节点,每节点中蜻蜓个体信息通过多线程并行更新,然后共享全局最优解,从而提高大规模数据优化的运行速度。最后仿真实验的验证是由4个测试函数进行测试,验证结果显示:在保证正确率的前提下,基于Spark的DA算法在对大规模数据优化的计算用用时最少。 相似文献
6.
许俊 《河北理工学院学报》2007,29(2):71-74,80
决策树是分类数据挖掘的重要方法。C4.5算法延用了经典ID3算法的基本策略,增加了处理连续属性的方法。在C4.5算法的基础上,讨论了新的基于属性变换的连续属性处理方法。该方法基于统计概率信息,依据概率属性的最佳分裂对应分裂连续属性,增加了决策树的分类精度。 相似文献
7.
针对现有大数据空间查询处理方法存在执行时间长和查询结果不够准确的问题,提出一种基于动态分布式聚类算法的大数据查询处理方法,该方法分为数据预处理、数据聚类和查询处理3个部分.首先将输入数据划分为多个子集,以RRD格式存储在一组机器节点中;其次采用划分和层次混合动态聚类算法,在Apache Spark平台上对数据进行分布式... 相似文献
8.
一种改进的决策树学习算法 总被引:3,自引:1,他引:2
为提高C4.5算法的准确率引进一个平衡度系数,其大小由决策者依靠先验知识或领域知识确定,在特定环境下人工协调了各属性信息增益率,用改进后的算法构造出的决策树进行分类更为准确、合理.并通过实例分析对改进前后的算法进行了比较,证明改进算法的有效性. 相似文献
9.
基于Rough集的决策树算法 总被引:1,自引:0,他引:1
针对基于Rough集的经典分类算法值约简算法等不适合大数据集的问题,提出了基于Rough集的决策树算法。采用一个新的选择属性的测度——属性分类粗糙度作为选择属性的启发式,该测度较Rough中刻画属性相关性的测度正区域等更为全面地刻画了属性分类综合贡献能力,并且比信息增益和信息增益率的计算更为简单。采取了一种新的剪枝方法——预剪枝,即在选择属性计算前基于变精度正区域修正属性对数据的初始划分模式,以更有效地消除噪音数据对选择属性和生成叶节点的影响.采取了一种与决策树算法高度融合的简单有效的检测和处理不相容数据的方法,从而使算法对相容和不相容数据都能进行有效处理。对UCI机器学习数据库中几个数据集的挖掘结果表明,该算法生成的决策树较ID3算法小,与用信息增益率作为启发式的决策树算法生成的决策树规模相当。算法生成所有叶节点均满足给定最小置信度和支持度的决策树或分类规则,并易于利用数据库技术实现,适合大数据集。 相似文献
10.
11.
提出一种基于粗糙集理论的决策树分类算法.首先,将核属性集中的核属性进行合取后加入析取变换,实现属性约简;其次,在决策树构造阶段,对各条件属性分别求其上下近似集,进而得到各属性的近似精度.选择近似精度最大的属性作为决策树的根结点,以此方法递归应用到各子树上来选择决策树的结点并实现决策树的剪枝.实例分析表明,改进的算法提高了决策树方法的效率. 相似文献
12.
本文为提高C4.5算法的准确率引进一个平衡度系数,其大小由决策者依靠先验知识或领域知识确定,在特定环境下人工协调了各属性信息增益率,用改进后的算法构造出的决策树进行分类更为准确、合理。并通过实例分析对改进前后的算法进行了比较,证明改进算法的有效性。 相似文献
13.
赵小松 《华中科技大学学报(自然科学版)》2003,31(11):7-10
在探讨并行系统环境中影响实时事务执行时间3个因素:工作负载、数据的获取以及事务调度等的基础上。利用启发策略并采用新的数据迁徙及事务迁徙技术,提出了一种并行实时数据库动态平衡算法.在PRTS系统上实现了该算法,从加速比和实时事务执行成功率两个参数上论证了该算法的可行性和优越性. 相似文献
14.
一种改进的决策树算法 总被引:1,自引:0,他引:1
为解决决策树算法ID3的多值偏向的缺点,利用属性相似度偏向少值属性的特点,提出一种将属性相似度作为信息熵的系数的属性选择标准,从而提出相应的决策树生成算法.实验结果表明,新算法既避免了以信息熵作为属性选择标准的决策树算法的多值偏向,也避免了以属性相似度作为属性选择标准的决策树算法的少值偏向. 相似文献
15.
针对绝大部分多变量决策树只能联合数值型属性,而不能直接为带有分类型属性数据集进行分类的问题,提出一种可联合多种类型属性的多变量决策树算法(CMDT).该算法通过统计各个分类型属性的属性值在各个类别或各个簇中的频率分布,来定义样本集合在分类型属性上的中心,以及样本到中心的距离.然后,使用加权k-means算法划分决策树中的非终端结点.使用这种结点划分方法构建的决策树可用于数值型数据、分类型数据以及混合型数据.实验结果表明,该算法建立的分类模型在各种类型的数据集上均获得比经典决策树算法更好的泛化正确率和更简洁的树结构. 相似文献
16.
17.
针对ID3算法构造的决策树结构复杂、对噪声数据比较敏感等局限性,提出一种新的面向噪声数据的决策树构造算法。算法借鉴变精度粗糙集和尺度函数概念,采用不同尺度下近似分类精度选择测试属性构造决策树,在算法形成过程中利用决策规则的可信度对决策树进行修剪,避免了生成的决策树过于庞大。结果表明,该方法是有效的,能够克服部分噪声数据对决策树的影响,且能满足不同用户对决策精度的要求。 相似文献
18.
一种新型决策树属性选择标准 总被引:7,自引:0,他引:7
讨论传统决策树算法中三种常用的基于熵的属性选择标准,提出一种基于属性重要性排序的建立决策树的新方法。该方法在决策树的每个内结点首先依据属性重要性将属性进行排序,然后选择最重要的属性作为分类属性生成决策树,并抽取出规则。与传统的决策树数据分类方法相比,此方法可有效地选择出对于分类最重要的分类属性,增强决策树的抗干扰能力,并提高规则的预测精度。 相似文献
19.
基于粗糙集理论的决策树构造算法 总被引:3,自引:0,他引:3
应用粗糙集理论,提出了一种利用新的启发式函数构造决策树的方法。该方法以属性重要性评价指标作为信息熵函数,对务件属性进行选择,充分考虑了属性间的依赖性和冗余性,弥补了ID3算法对属性间依赖性强调不够的缺点,解决了决策树中子树的重复和有些属性在同一决策树上被多次选择的问题,该方法还能对不相容决策表进行正确分类。实例表明该方法是正确有效的,而且明显优于传统的决策树构造方法。 相似文献
20.
针对海量数据的特性及KMeans算法的并行特性,提出了一种基于MapReduce编程框架的并行聚类算法,给出了算法的主要设计方法和策略.Map函数计算出每个记录所属的簇并用簇标号来标记;为了减少网络流量,利用Combine函数合并了本地的簇中的样本和;Reduce函数合并簇中所有的记录,并重新计算聚类的中心,供下一轮MapReduce迭代使用.最后用不同大小的数据集对改进算法的效率及伸缩性进行了验证,结果表明基于Hadoop的并行KMeans算法适合于海量数据的分析和挖掘. 相似文献