首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
决策树C4.5算法在森林资源二类调查中的应用   总被引:3,自引:0,他引:3  
C4.5算法是基于信息熵理论进行数据分类分析的经典决策树数据挖掘算法.它主要包括数据预处理、决策树生成、决策树修剪、决策树规则提取等步骤.笔者将C4.5算法应用于森林资源二类调查的数据分析中,通过对调查数据挖掘分析表明,数据挖掘在森林资源调查数据分析中具有广泛的应用前景.  相似文献   

2.
C4.5算法是进行数据分类分析的经典决策树数据挖掘算法,应用广泛。介绍了决策树及其常用算法ID3,指出了它存在的缺点。分析了C4.5算法,通过其在高校教学决策中的应用实例,说明数据分类并实现预测的过程。最后指出了C4.5算法的不足及未来的研究方向。  相似文献   

3.
介绍了决策树C4.5算法,并利用该算法实现了对遥感数据规则的挖掘,在此基础上设计并实现了针对于C4.5规则的编辑器,通过该编辑器能够实现对规则的编辑与管理。规则编辑器的设计与实现,为在分类过程中人工的干预提供了可能。将人工干预与基于数学理论规则的自动提取相结合,尤其是在地形较复杂的地区,将有利于分类精度的提高。利用黄山市Land Sat TM影像,进行了基于C4.5算法自动提取规则的遥感影像分类实验。实验结果表明,利用C4.5算法提取的分类规则准确率高,利用提取的分类规则进行的遥感影像分类效果较好。  相似文献   

4.
文章在深入分析异构Web数据对于统一查询接口的模式匹配问题的基础上,提出一种基于混合决策树的自适应数据集成方法。该方法通过引入可疑实例影响度分析的概念,能够在解决数据源与统一查询接口模式匹配的同时进行可疑实例的划分和分类规则的重列,可提高数据集成的自动化程度及精度;通过在多个领域数据集上的实验结果证明了方法的有效性。  相似文献   

5.
在Ant-Miner算法基础上提出了一种利用蚁群算法解决分类规则挖掘的算法(ACR),设计了合理的蚂蚁选择属性及属性分区的概率公式,并对规则质量的衡量等策略进行改进,可以较好地挖掘分类规则.在标准数据集上通过与Ant-Miner算法和经典的基于决策树的C 4.5算法比较,ACR在挖掘分类规则的简单性、正确率上有较好的表现.  相似文献   

6.
一种新型决策树属性选择标准   总被引:7,自引:0,他引:7  
讨论传统决策树算法中三种常用的基于熵的属性选择标准,提出一种基于属性重要性排序的建立决策树的新方法。该方法在决策树的每个内结点首先依据属性重要性将属性进行排序,然后选择最重要的属性作为分类属性生成决策树,并抽取出规则。与传统的决策树数据分类方法相比,此方法可有效地选择出对于分类最重要的分类属性,增强决策树的抗干扰能力,并提高规则的预测精度。  相似文献   

7.
提出了一种基于决策树C4.5的多示例学习算法C4.5-MI,通过拓展C4.5的熵函数和信息增益比来适应多示例学习框架.应用梯度提升方法对C4.5-MI算法进行优化,得到效果更优的GDBT-MI算法.与同类决策树算法在benchmark数据集上进行比较,结果表明,C4.5-MI和GDBT-MI算法具有更好的多示例分类效果.  相似文献   

8.
决策树分类算法是智能指导系统实现"智能"的一种有效工具。通过对数据的分析和挖掘,能够实现对数据的精确分类。另外,对于决策树和产生式规则集的计算相对简单而且高效。提出了智能指导系统,并介绍了该系统的主要功能模块。在比较了ID3算法和C4.5算法后,结合个性化教学的需求,提出了新的基于规则属性相关的C4.5r算法。同时,给出了系统的计算评估模块。实验结果表明,新的C4.5r算法在运算时间、产生式规则集的规模及计算产生式规则的开销方面明显优于传统的C4.5算法。  相似文献   

9.
王磊  郑任儿 《科技信息》2012,(30):156-157
本文分析与比较了两种既能处理离散数据又能处理连续数据的决策树经典算法C4.5与CART。首先论述了两种算法的思想,并通过实例解析了C4.5算法和CART的实现过程,最后基于WEKA平台对它们进行了对比实验,利用实验结果的各项评价指标对这两种算法进行了性能分析与比较。  相似文献   

10.
针对计算机免疫系统模型GECISM中的类MC Agent,利用模糊决策树Fuzzy-Id3算法并使用应用程序中的系统调用作为数据集构造决策树,从而生成计算机免疫系统中的入侵检测规则,并与C4.5算法生成规则进行了对比分析,利用Fuzzy-Id3算法方法生成的规则对未知数据集进行分类有较低的误报率和漏报率.  相似文献   

11.
为解决目前常用于就业数据分析的C4.5算法、基于粗糙集等的决策树生成算法均无法很好地处理决策精度需求不同和噪声适应能力的问题,运用基于多尺度粗糙集模型的决策树算法于于高校就业数据分析,并以某高校2012年就业数据为例进行分析,同时将分析结果与C4.5算法和基于粗糙集的决策树生成算法的分析结果进行比较.结果表明:基于多尺度粗糙集模型的决策树算法生成的决策树树形结构简单、产生的规则简洁、不存在不可分的数据集、运算速度快.  相似文献   

12.
This paper presents a new inductive learning algorithm, HGR (Version 2.0), based on the newly-developed extension matrix theory The basic idea is to partition the positive examples of a specific class in a given example set into consistent groups, and each group corresponds to a consistent rule which covers all the examples in this group and none of the negative examples. Then a performance comparison of the HGR algorithm with other inductive algorithms, such as C4.5,OC1, HCV and SVM, is given in the paper. The authors not only selected 15 databases from the famous UCI machine learning repository, but also considered a real world problem. Experimental results show that their method achieves higher accuracy and fewer rules as compared with other algorithms.  相似文献   

13.
在基于χ2统计独立性的离散化算法中,自由度与期望频数的选取直接影响χ2计算的准确性,从而影响离散化的性能.为此,提出了一种基于改进χ2统计的数据离散化算法,提高了基于统计独立性离散化算法的质量.首先,分析了χ2函数中自由度选取的不足,给出了自由度选取的修正方案;其次,根据数据类分布等特点,提出了期望频数的改进方案,克服了不同数据集赋予相同期望频数的缺陷,提高了χ2计算的准确性.实验结果表明,改进的方法显著提高了C4.5决策树与Naive贝叶斯分类器的学习精度.  相似文献   

14.
决策树算法在医学图像数据挖掘中的应用   总被引:8,自引:1,他引:8  
目的研究决策树算法在医学图像数据挖掘中的应用。方法利用决策树算法对乳腺癌图像数据进行分类,提出了一个基于决策树算法的医学图像分类器。结果实现了ID3和C4.5算法对图像数据的分类,获得了分类的实验结果。结论该模型系统达到了较高的分类准确率,证明数据挖掘在辅助医疗诊断中有着广泛的应用前景。  相似文献   

15.
从数据挖掘的一般性定义入手,给出了EIS环境下数据挖掘的概念和过程.并根据EIS和数据挖掘各自的特点,以概念树算法和决策树算法为例,在分析了它们的算法原理的基础上,探讨了通过属性值间概念存在的层次关系实现EIS数据查询的逐级细化;根据信息论原理,以分类学习为基础,通过计算各属性所含信息量大小,得出判断规则,为EIS辅助决策提供支持.  相似文献   

16.
基于频繁模式树的关联分类规则挖掘算法   总被引:1,自引:1,他引:1  
构建精确而有效的分类器是数据挖掘和机器学习中的一个重要任务.提出了一种基于频繁模式树的关联分类规则挖掘算法,该算法同时考虑所有属性,并对现有关联分类规则挖掘算法中内存要求高、类别属性处理难、I/O访问次数多等问题提出了相应的解决方案.试验结果表明,该方法可以取得比同样基于关联规则的分类算法CMAR更高的执行效率以及基于规则的决策树分类算法C4.5更好的分类效果.  相似文献   

17.
目前决策树中很多分类算法例如ID3/C4.5/C5.0等都依赖于离散的属性值,并且希望将它们的值域划分到一个有限区间。利用统计学法则,提出一种新的连续属性值的划分方法;该方法通过统计学法则来发现精准的合并区间。另外在此基础上,为提高决策树算法分类学习性能,提出一种启发式的划分算法来获得理想的划分结果.在UCI真实数据集上进行仿真实验.结果表明获得了一个比较高的分类学习精度、与常见的划分算法比较起来有很好的分类学习能力。  相似文献   

18.
hldirect association is a high level relationship between items and frequent itemsets in data. Current research approaches on indirect association mining are limited to indirect association between itempairs,which will discover too many rules from dataset. A formal definition of indirect association between multiple items is presented, along with an algorithm, SET NIA, for mining this kind of indirect associations based on anti-monotonicity of indirect associations and frequent itempair support matrix. While the found rules contain same information as compared to the rules found by indirect association between itempairs algorithms, this notion brings space-saving in storage of the rules as well as superiority for human to understand and apply the ndes. Experiments conducted on two real-word datasets show that SET _ NIA can effectively find fewer rules than existing algorithms which mine indirect association between itempairs,the experimental results also prove that SET_NIA has better performance than existing algorithms.  相似文献   

19.
基于有监督机器学习算法的蛋白质相互作用关系抽取方法仍然面临一个问题:标注数据集有限,导致算法无法得到充分学习。该文首先构造了一个丰富的特征空间,包括句法、词汇、词性等特征;然后,该文对不同数据集数据分布的不一致性进行了分析,在此基础上提出了一种基于自训练的数据添加算法,通过不断从未标注数据集中选择置信度高的样本加入到已标注数据集中,扩大数据集规模,提高算法效率。实验结果表明:在5个常用的蛋白质相互作用关系数据集上,该方法均有助于提高抽取性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号