首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 552 毫秒
1.
为了能够对软件维护性进行评价,以类级软件维护性数据集为例进行了软件维护性实验,应用Logiscope对类的维护性做了定性评价;运用Krakatau Professional收集类各个度量的度量值;通过WEKA得到了类级度量关键属性;最后,选取决策树分类方法训练分类模型,并利用训练好的分类模型对测试集进行测试,得到基本满足要求的类级软件维护性评价模型。  相似文献   

2.
选择昆明市作为研究区,以2011年LandsatTM影像为基础数据,通过分析研究区地形特征,提出把研究区进行分区并分别确定高程、坡度决策规则的改进型决策树分类方法,并结合分析的光谱特征规律,在决策分类中引进了比值型指数、NDVI值,构建基于光谱特征和地学辅助知识的决策树信息提取模型,最后对传统计算机自动监督分类方法与决策树信息提取模型方法解译的昆明市土地利用数据的精度进行评价。研究结果表明:基于改进的决策树分类方法进行遥感信息提取的昆明市土地利用数据的Kappa指数比传统监督分类方法提高了0.234,分类精度提高了17.03%;从各种地类类型的测试样本点平均正确率来看,改进的决策树分类方法比传统监督分类方法提高了21%,大大提高了LandsatTM遥感数据分类的精确度和可靠性。  相似文献   

3.
目的比较R语言中rpart包与party包所构建决策树的不同。两个不同的包所构建的模型可推广应用于其他领域的决策树分类问题。实验过程中涉及的数据预处理、分类树建模、模型可视化、测试的思路与方法,也可借鉴应用于其他领域的分类树建模预测工作。方法对R语言内置数据集iris应用分类回归树(classification and regression tree,CART)方法与条件推断决策树,并运用R语言实现并建立决策树模型。结果 rpart包所得决策树模型与party包所得决策树模型在预测iris测试集的准确率均为96.7%。结论 rpart包所得到的决策树与party包所得到的决策树在对iris测试集的预测效果上无差异。  相似文献   

4.
针对传统流量分类方法(基于端口和有效载荷)分类不可靠的问题,提出基于C4.5决策树算法,根据训练集中属性的信息增益比率构建分类模型,按属性对测试数据集进行预测,通过查找分类模型实现对网络流量的分类。在公开数据集和自己采集的数据集上进行实验,结果表明,采用C4.5决策树算法对网络流量分类,平均分类精度为93%,单类别分类精度均在90%以上,能有效地实现对网络流量应用类型的识别。  相似文献   

5.
针对传统决策树在非平衡数据集分类时少数类预测性能出现偏差的问题,提出一种基于强化学习累积回报的属性优化策略即改进型同分布多决策树方法。首先通过同分布随机抽样法对非平衡数据集中的多数类样本进行随机采样,进而对各子集建立单决策树形成多个决策树,各决策树采用分类回归树算法建树,并利用强化学习累积回报机制进行属性选择策略的优化。研究结果表明:提出的基于强化学习累积回报机制的属性优化策略可有效提高少数类被正确分类的概率;同分布多决策树方法可有效提高非平衡数据集整体预测性能,且正类率和负类率的几何平均值都有所提高。  相似文献   

6.
决策树算法在医学图像数据挖掘中的应用   总被引:8,自引:1,他引:8  
目的研究决策树算法在医学图像数据挖掘中的应用。方法利用决策树算法对乳腺癌图像数据进行分类,提出了一个基于决策树算法的医学图像分类器。结果实现了ID3和C4.5算法对图像数据的分类,获得了分类的实验结果。结论该模型系统达到了较高的分类准确率,证明数据挖掘在辅助医疗诊断中有着广泛的应用前景。  相似文献   

7.
为了提升传统随机森林算法的分类精度,本文首先对传统随机森林模型中的决策树根据分类性能评价指标AUC值进行降序排列,从中选取出AUC值高的决策树,计算这些决策树之间的相似度并生成相似度矩阵,然后根据相似度矩阵对这些决策树进行聚类,从每一类中选出一棵AUC最大的决策树组成新的随机森林模型,从而达到提升传统随机森林算法分类精度的目的。通过UCI数据集的实验表明,改进后的随机森林算法分类精度上最大提高了2.91%。  相似文献   

8.
电能质量扰动分类的决策树方法   总被引:1,自引:1,他引:0  
提出一种新颖的基于决策树方法的电能质量扰动自动分类方法.该方法首先对采集到的扰动信号进行小波多分辨率分解,扰动信号在每个小波分解尺度的能量分布构成一个特征向量;然后利用CART决策树算法从这些特征向量构成的训练样本中自动提取相应的分类规则,得到决策树分类模型,并将该模型应用到电能质量扰动测试数据中.仿真结果表明所提电能质量扰动数据分类挖掘方法的有效性和鲁棒性.  相似文献   

9.
针对现有大数据分类算法中存在准确率低的问题,本文提出一种基于差异灰狼优化决策树的大数据分类方法.该方法首先将复杂的大数据输入Map-Reduce框架中,采用主成分分析法对输入数据进行降维;然后利用支持向量机对压缩后的数据进行粗略分类;最后采用基于差异灰狼优化的决策树对支持向量机输出的类标签进行精细分类,获得更高的分类准确度.实验结果表明,相比于其他分类算法,本文提出的方法在复杂大数据分类方面具有明显的优势.  相似文献   

10.
该文章以云南省昆明市西山区为研究区域,利用WordView-2的4波段影像数据源,通过学习掌握ENVI软件中的决策树分类工具,以及利用不同地类的波谱信息的特征差异,分析了影像的各个地类的光谱特征,从中提取了4波段影像的NDVI(归一化植被指数),以此确定了不同地类之间的波段均值阈,根据不同地类在不同波段以及NDVI上的变化建立对应的决策树模型,最终得到其分类结果.本文最后采用已有的样本感兴趣区数据对其决策树分类结果进行了精度评价,并且评价分析了其结果精度在遥感数据中的作用.  相似文献   

11.
 决策树算法是数据挖掘领域的重要算法之一.文章首先对决策树算法的数据进行逻辑描述,然后使用保险公司客户数据来构建决策树,利用Prolog语言实现了基于逻辑描述的ID3算法,尝试了用逻辑推理方法解决数据挖掘问题,并对结果进行了分析.  相似文献   

12.
在不平衡数据集中,多数类不一定是最优的,这一问题将会影响决策树的生成效果和分类预测的准确性,提出类置信度比例决策树算法,这种算法对类的大小不敏感.通过实验验证,这种算法比传统的决策树算法更具有优越性.  相似文献   

13.
WILD:基于加权信息损耗的离散化算法   总被引:2,自引:0,他引:2  
现实应用中常常涉及许多连续的数值属性,而目前许多机器学习算法则要求所处理的属性具有离散值。基于信息论的基本原理,提出一种新的有监督离散化算法WILD,它可以看成是决策树离散化算法的一种扩充,其主要改进在于考虑区间内观测值出现的频度,采用加权信息损耗作为区间离散化的测试,以克服决策树算法离散不均衡的问题。该算法非常自然地采用了自底向上的区间归并方案,可以同时归并多个相邻区间,有利于提高离散化算法的速度,实验结果表明该算法能够提高机器学习算法的精度。  相似文献   

14.
Extensible Markup Language即"可扩展的标置语言"(简记为XML)的出现,为基于Web的数据挖掘带来了便利,开发人员能够用XML的格式标记交换数据。充分利用XML的优点,提供一种利用决策树ID3修正算法和聚类的方法,对XML文档信息进行挖掘,并结合实例说明这种方法。  相似文献   

15.
判定树在基于知识的专家系统中非常有用,同时在数据挖掘中也是一种重要的方法.但是目前的判定树判定方法并不能准确、清晰地处理与人类思想和感觉的知识.通过自映射空间模型作为知识表达和处理不确定性的方法以达到改进目前方法的目的.与传统的分类方法相比,自映射空间方法更好地集成了模糊性和随机性.提出了基于自映射空间模型的判定树方法,该方法处理人类思维更加自然.在实际的分类问题过程中,自映射空间方法更加有效、灵活.  相似文献   

16.
提出了多目标监督聚类GA算法,即:根据样本的类标签有监督地将样本聚类,在每个类中根据样本属性的相似性有监督地聚成类簇.如果分属不同类标签的类簇出现相交,则相交类簇再次聚类,直到所有类簇均不相交.适应度矢量函数由类簇数和类内距离2个目标确定,类簇数和类簇中心由目标函数自动确定,从而类簇数和中心就不受主观因素的影响,并且保证了这2个关键要素的优化性质.预测分类时,删去单点类簇,并根据类簇号和离某个类簇中心距离的最近邻法则以及该类簇的类标签进行分类.算法模型采用C#实现,采用3个UCI数据集进行实例分析,实验结果表明,本算法优于著名的Native Bayes、Boost C4.5和KNN算法.  相似文献   

17.
数据挖掘的目标是在海量数据集中寻找和分析某些内涵信息,其数据分析的方法对结果集有很大的影响. 通过改进决策树算法的数据结构,产生分类关联规则并进行规则剪枝,实现了决策树的CMAR(Accurate and Efficient Classification Based on Multiple Class-Association Rules)生成算法;实验表明CMAR算法具有快速和精确度高的优点,具有一定的应用前景.  相似文献   

18.
基于粗糙集的RDT决策树生成算法的研究及应用   总被引:1,自引:0,他引:1  
介绍了一种基于粗糙集理论的决策树生成算法--RDT(Rought Set Decision Tree).该方法运用了粗糙集理论中条件属性相对于决策属性的核,引入启发式条件计算并选择条件属性作为决策树的根结点或子结点.通过一个例子,与运用信息熵概念建立决策树的算法进行比较,结果表明采用RDT方法得到的决策树优于采用信息熵方法得到的决策树.还讨论了RDT与ID3算法对决策树精度和规模的影响,分析数据分类和知识发现的过程及特点.  相似文献   

19.
常见的决策树分类算法、贝叶斯分类算法、神经网络分类算法为数据挖据分类算法研究提供了重要基础。但面对海量数据时,在时间效率、鲁棒性和精确性上都显示出了不足。为此,本文将模糊聚类的思想引入到神经网络分类算法中,首先通过模糊聚类子模型,将样本数据聚为几个数据子集,然后再采用不同的神经网络对各个数据子集同时进行训练学习。由于经过了模糊聚类子模型的预处理,每个神经网络训练学习样本的复杂性大大减少,使神经网络的学习效率大大提高。最后通过UCI下的实际数据库,对提出的分类算法进行了检验,结果显示了基于模糊聚类的神经网络在数据挖掘分类中应用的有效性。  相似文献   

20.
ID3算法是决策树分类方法的核心算法,文章论述了ID3算法的基本思想和实现方法,并对ID3算法的性能进行分析,发现该算法存在不足之处.针对ID3算法倾向于多属性值的缺点,引入了权值对算法进行改进,并通过试验对改进前后的算法进行比较,结果表明改进后的算法是有效的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号