首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 119 毫秒
1.
李晋  顾宏斌  潘湑 《科技信息》2010,(28):270-271
决策树学习策略广泛应用于模式识别和机器学习等领域,用来解决与分类相关的问题。决策树剪枝的作用是简化决策树,提高决策树的泛化能力,避免对训练集的过适应,是决策树学习中的重要研究内容。本文详细介绍了数据挖掘算法中的C4.5算法的基本思想,并且对REP剪枝技术进行分析,以此对C4.5算法进行剪枝。实验表明改进的C4.5算法与原C4.5算法相比能很好地处理训练集的非平衡性,并降低决策树的规模,效率得到提高。  相似文献   

2.
决策树是数据挖掘技术中一种有效的分类方法,使用该方法的入侵检测系统能够更加准确高效的对网络数据进行处理和告警.然而面对庞大的网络数据集,生成的决策树规模常常较大,难以理解.本文提出一种多策略的剪枝算法修剪生成的决策树,来提高入侵检测系统的效率和准确性.  相似文献   

3.
在介绍了一些典型决策树分类算法的基础上,研究了一种基于相关性分析的决策树分类器。其主要思想是通过属性相关性来压缩训练集的大小并在建立决策树过程中采用此度量值来确定划分条件属性的顺序,通过阈值设定和处理简化了决策树的剪枝和优化过程,提高了处理的效率和规模。文章详细描述了算法的执行过程以及正确性证明和时间复杂性分析。  相似文献   

4.
在介绍了一些典型决策树分类算法的基础上,研究了一种基于相关性分析的决策树分类器。其主要思想是通过属性相关性来压缩训练集的大小并在建立决策树过程中采用此度量值来确定划分条件属性的顺序,通过阈值设定和处理简化了决策树的剪枝和优化过程,提高了处理的效率和规模。文章详细描述了算法的执行过程以及正确性证明和时间复杂性分析。  相似文献   

5.
提出了一种基于模糊化决策树的自适应分类算法.介绍基于决策树的分类算法,指出训练样本分布不均匀或树剪枝操作都可能引起分类规则的不完全,导致分类出现"盲区".引入决策树的模糊化方法及分支(规则)激活度的概念,给出一种新的自适应分类算法.并用实例分析表明,该算法不仅解决了分类规则不完全的问题,而且也提高了决策树分类的精度及分类结果的可解释性.  相似文献   

6.
基于Rough集的决策树算法   总被引:1,自引:0,他引:1  
针对基于Rough集的经典分类算法值约简算法等不适合大数据集的问题,提出了基于Rough集的决策树算法。采用一个新的选择属性的测度——属性分类粗糙度作为选择属性的启发式,该测度较Rough中刻画属性相关性的测度正区域等更为全面地刻画了属性分类综合贡献能力,并且比信息增益和信息增益率的计算更为简单。采取了一种新的剪枝方法——预剪枝,即在选择属性计算前基于变精度正区域修正属性对数据的初始划分模式,以更有效地消除噪音数据对选择属性和生成叶节点的影响.采取了一种与决策树算法高度融合的简单有效的检测和处理不相容数据的方法,从而使算法对相容和不相容数据都能进行有效处理。对UCI机器学习数据库中几个数据集的挖掘结果表明,该算法生成的决策树较ID3算法小,与用信息增益率作为启发式的决策树算法生成的决策树规模相当。算法生成所有叶节点均满足给定最小置信度和支持度的决策树或分类规则,并易于利用数据库技术实现,适合大数据集。  相似文献   

7.
傅玥 《科技信息》2013,(22):53-54
为了进一步提高基于数据挖掘的客户关系管理系统的决策能力,本文提出了多决策树的加权平均融合模型MDWAF,其基本思想是在客户数据集上用决策树进行挖掘,形成剪枝程度不同的子决策树,然后用加权平均法将多棵子决策树对客户数据的分类结果进行融合形成最优判断。采用German数据集,实验结果表明,该方法可以得到较好的分类效果,从而提高企业的营销精度和企业效益。  相似文献   

8.
为获得网络赌博犯罪行为涉案电子证据的分布规律,针对网络赌博案例库所导出的训练样本集,提出容粗糙集属性约简思想的决策树分类预测算法,由属性约简进行决策树预剪枝,将属性重要性度量融入决策树分支属性结点的选择过程,案例拟合验证表明所建决策树分类模型具有较高的分类预测精度,所获预测规则可有效指导网络赌博案件的侦破。  相似文献   

9.
在解决分类问题的各种方法中,决策树是比较常用的一种方法。基于决策树理论,在 ID3算法基础上提出基于悲观错误剪枝的后剪枝算法,并将其运用于医疗系统手术诊断的数据挖掘分析过程中,所得实验结果与专家诊断结果基本吻合,取得了较好的实际应用效果。  相似文献   

10.
决策树采取的是一种急切式学习算法,是迄今为止在实践中应用最为广泛的一种分类方法。决策树分类器在训练阶段根据训练实例集合建立了一棵整体上最优的树,这棵树被用来在测试阶段给未分类的实例指派最适合的类标。决策树具有良好的可解释性,分类速度快,但是它的剪枝过程非常繁琐,分类精确度也不是非常高.把懒惰式思想引入决策树,学习过程被推迟到给定一个测试实例时才进行。它从概念上为每一个测试实例建立一棵最优决策树。实验数据显示此法显著提高了分类器性能,但分类速度较慢。  相似文献   

11.
针对ID3算法构造的决策树结构复杂、对噪声数据比较敏感等局限性,提出一种新的面向噪声数据的决策树构造算法。算法借鉴变精度粗糙集和尺度函数概念,采用不同尺度下近似分类精度选择测试属性构造决策树,在算法形成过程中利用决策规则的可信度对决策树进行修剪,避免了生成的决策树过于庞大。结果表明,该方法是有效的,能够克服部分噪声数据对决策树的影响,且能满足不同用户对决策精度的要求。  相似文献   

12.
基于粗集理论的新决策树剪枝方法   总被引:4,自引:1,他引:3  
提出了一种基于粗糙集理论的新决策树剪枝方法.在剪枝的过程中,不仅考虑了树的分类精度,而且还考虑了生成树的深度对剪枝的影响;最后针对具体的数据集对新方法进行了验证,得到了较好的效果.  相似文献   

13.
根据词条聚合和决策树原理,提出了一种文本分类的新方法.决策树分类方法具有出色的数据分析效率和容易抽取易于理解的分类规则等优势,但只能应用于维数较低的特征空间.本方法将与各个类别相关程度相似的词条聚合为一个特征,有效地降低了向量空间的维数,然后再使用决策树进行分类,从而既保证了分类精度又获得了决策树易于抽取分类规则的优势.  相似文献   

14.
决策树技术在人工智能中得到了广泛的应用,将大量检测样本的数据进行采集,利用决策树实现数据处理,可以提取有用数据进行数理统计,从而提高生化分析的精度和分析速度,在医用生化分析上有重要意义.  相似文献   

15.
分辨矩阵为属性约简与求核运算提供了一种规范精确的数学模型,通过分辨矩阵模型可方便地获取决策系统全体属性约简.本文基于分辨矩阵运用启发式信息与二分策略扩展结点,设计了一种构造约简树求取全体属性约简的有效算法,该约简树从根结点到叶结点全体路径构成的析取范式与系统分辨函数等价,其极小析取范式所有析取项即为决策系统全体属性约简.该方法适用于满足任意约简准则的分辨矩阵,能够显著地减少搜索空间和保证全体约简求解的完备性,理论分析与实验结果说明了算法的可行性与有效性.  相似文献   

16.
 识别储层流体性质是测井评价储层的内容之一,识别结果影响着对油气藏的认识和开发方案部署。本文以多种测井参数作为储层流体的分类参数,采用样品分解思想的交汇图和决策树方法对苏丹某油田流体性质进行分类建模。结果表明,(1) 单个交汇图最高识别正确率为80%,而样品分解思想将交汇图分为两个层次,可提高识别准确率,但是仍存在不足之处;(2) 决策树方法通过计算参数权重,依据权重大小自动挑选参数,识别准确率达到了86.7%;而交汇图和决策树法相结合,识别准确率可达到100%,弥补了样品分解交汇图的不足;(3) 原来认为苏丹某油田是具有统一油气界面的油气藏,应用决策树结合交汇图方法后,认为该油田应为层状油气藏;油田据此调整开发方案,取得了良好效果。  相似文献   

17.
By redefining test selection measure, we propose in this paper a new algorithm, Flexible NBTree, which induces a hybrid of decision tree and Naive Bayes. Flexible NBTree mitigates the negative effect of information loss on test selection by applying postdiscretization strategy: at each internal node in the tree, we first select the test which is the most useful for improving classification accuracy, then apply discretization of continuous tests. The finial decision tree nodes contain univariate splits as regular decision trees, but the leaves contain Naive Bayesian classifiers. To evaluate the performance of Flexible NBTree, we compare it with NBTree and C4.5, both applying pre-discretization of continuous attributes. Experimental results on a variety of natural domains indicate that the classification accuracy of Flexible NBTree is substantially improved.  相似文献   

18.
目前决策树中很多分类算法例如ID3/C4.5/C5.0等都依赖于离散的属性值,并且希望将它们的值域划分到一个有限区间。利用统计学法则,提出一种新的连续属性值的划分方法;该方法通过统计学法则来发现精准的合并区间。另外在此基础上,为提高决策树算法分类学习性能,提出一种启发式的划分算法来获得理想的划分结果.在UCI真实数据集上进行仿真实验.结果表明获得了一个比较高的分类学习精度、与常见的划分算法比较起来有很好的分类学习能力。  相似文献   

19.
基于邻域决策错误率的属性约简可以在删除冗余属性的同时,提升邻域分类器的留一验证分类精度.但这种约简方式并未充分考虑邻域分类结果在约简前后的差异.为解决这一问题,借助联合分布矩阵,提出了邻域决策一致性的概念,构建了邻域决策一致性与邻域分类精度的调和平均值,并将其作为约简求解的度量准则.在12个UCI数据集上的实验结果表明,所提出的新约简不仅能够有效地提升邻域分类器的决策一致性,而且在多数情况下能够进一步提高邻域分类器的留一验证分类精度.  相似文献   

20.
一种基于粗糙集的决策树构造方法   总被引:2,自引:1,他引:2  
决策树是一种有效的数据分类方法。传统的决策树方法是通过信息熵的计算去生成决策树的节点,计算量大。基于粗糙集理论,利用近似精度的概念来进行属性选择,构造决策树,有效地提高了效率并降低了决策树的复杂度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号