首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
针对传统流量分类方法(基于端口和有效载荷)分类不可靠的问题,提出基于C4.5决策树算法,根据训练集中属性的信息增益比率构建分类模型,按属性对测试数据集进行预测,通过查找分类模型实现对网络流量的分类。在公开数据集和自己采集的数据集上进行实验,结果表明,采用C4.5决策树算法对网络流量分类,平均分类精度为93%,单类别分类精度均在90%以上,能有效地实现对网络流量应用类型的识别。  相似文献   

2.
针对传统决策树在非平衡数据集分类时少数类预测性能出现偏差的问题,提出一种基于强化学习累积回报的属性优化策略即改进型同分布多决策树方法。首先通过同分布随机抽样法对非平衡数据集中的多数类样本进行随机采样,进而对各子集建立单决策树形成多个决策树,各决策树采用分类回归树算法建树,并利用强化学习累积回报机制进行属性选择策略的优化。研究结果表明:提出的基于强化学习累积回报机制的属性优化策略可有效提高少数类被正确分类的概率;同分布多决策树方法可有效提高非平衡数据集整体预测性能,且正类率和负类率的几何平均值都有所提高。  相似文献   

3.
针对计算机免疫系统模型GECISM中的类MC Agent,利用模糊决策树Fuzzy-Id3算法并使用应用程序中的系统调用作为数据集构造决策树,从而生成计算机免疫系统中的入侵检测规则,并与C4.5算法生成规则进行了对比分析,利用Fuzzy-Id3算法方法生成的规则对未知数据集进行分类有较低的误报率和漏报率.  相似文献   

4.
基于Rough集的决策树算法   总被引:1,自引:0,他引:1  
针对基于Rough集的经典分类算法值约简算法等不适合大数据集的问题,提出了基于Rough集的决策树算法。采用一个新的选择属性的测度——属性分类粗糙度作为选择属性的启发式,该测度较Rough中刻画属性相关性的测度正区域等更为全面地刻画了属性分类综合贡献能力,并且比信息增益和信息增益率的计算更为简单。采取了一种新的剪枝方法——预剪枝,即在选择属性计算前基于变精度正区域修正属性对数据的初始划分模式,以更有效地消除噪音数据对选择属性和生成叶节点的影响.采取了一种与决策树算法高度融合的简单有效的检测和处理不相容数据的方法,从而使算法对相容和不相容数据都能进行有效处理。对UCI机器学习数据库中几个数据集的挖掘结果表明,该算法生成的决策树较ID3算法小,与用信息增益率作为启发式的决策树算法生成的决策树规模相当。算法生成所有叶节点均满足给定最小置信度和支持度的决策树或分类规则,并易于利用数据库技术实现,适合大数据集。  相似文献   

5.
Rough集在乳腺癌辅助诊断中的应用   总被引:1,自引:0,他引:1  
目的研究Rough集在乳腺癌辅助诊断中的应用。方法采用基于Rough集的属性约简算法,利用决策树算法对乳腺癌图像数据进行分类,辅助医疗诊断。结果实现了基于Rough集的属性约简算法,对乳腺癌数据进行处理,获得了分类的实验结果。结论该模型系统达到了较高的分类准确率,证明Rough集在辅助医疗诊断中有着广泛的应用前景。  相似文献   

6.
为了提高入侵检测的准确度和速度,针对入侵规则属性相关性的特点,将属性与类间的互信息与属性间的互信息结合,提出了一种新的混合互信息的决策树分类算法.在对此算法进行了算法设计和分析的基础上,将由此算法构造的决策树分类方法对入侵规则进行组织,改变了传统的入侵规则逐条串行检测,以增加预处理时间为代价,提高了数据包的过滤速度和准确度.实验分析表明,应用该算法的入侵检测系统比使用传统方法具有更高的准确率和速度.  相似文献   

7.
一种新型决策树属性选择标准   总被引:7,自引:0,他引:7  
讨论传统决策树算法中三种常用的基于熵的属性选择标准,提出一种基于属性重要性排序的建立决策树的新方法。该方法在决策树的每个内结点首先依据属性重要性将属性进行排序,然后选择最重要的属性作为分类属性生成决策树,并抽取出规则。与传统的决策树数据分类方法相比,此方法可有效地选择出对于分类最重要的分类属性,增强决策树的抗干扰能力,并提高规则的预测精度。  相似文献   

8.
针对ID3算法构造的决策树结构复杂、对噪声数据比较敏感等局限性,提出一种新的面向噪声数据的决策树构造算法。算法借鉴变精度粗糙集和尺度函数概念,采用不同尺度下近似分类精度选择测试属性构造决策树,在算法形成过程中利用决策规则的可信度对决策树进行修剪,避免了生成的决策树过于庞大。结果表明,该方法是有效的,能够克服部分噪声数据对决策树的影响,且能满足不同用户对决策精度的要求。  相似文献   

9.
在Ant-Miner算法基础上提出了一种利用蚁群算法解决分类规则挖掘的算法(ACR),设计了合理的蚂蚁选择属性及属性分区的概率公式,并对规则质量的衡量等策略进行改进,可以较好地挖掘分类规则.在标准数据集上通过与Ant-Miner算法和经典的基于决策树的C 4.5算法比较,ACR在挖掘分类规则的简单性、正确率上有较好的表现.  相似文献   

10.
针对绝大部分多变量决策树只能联合数值型属性,而不能直接为带有分类型属性数据集进行分类的问题,提出一种可联合多种类型属性的多变量决策树算法(CMDT).该算法通过统计各个分类型属性的属性值在各个类别或各个簇中的频率分布,来定义样本集合在分类型属性上的中心,以及样本到中心的距离.然后,使用加权k-means算法划分决策树中的非终端结点.使用这种结点划分方法构建的决策树可用于数值型数据、分类型数据以及混合型数据.实验结果表明,该算法建立的分类模型在各种类型的数据集上均获得比经典决策树算法更好的泛化正确率和更简洁的树结构.  相似文献   

11.
根据数据属性间存在的线性相关和非线性相关影响决策树性能的特点,提出了一种用拟合回归建立决策树的算法,并利用这种相关性来提高分类能力.该算法选择了一个较优的属性子集,对此子集中的属性进行加权组合,用于构造决策树的节点,采用二次多项式来拟合两个属性间可能存在的相关性,从而构造出分类能力更强的决策树.研究中用UCI标准数据集对各种算法进行测试及比较,实验结果及分析表明此决策树算法具有良好性能.  相似文献   

12.
在处理不平衡数据集时,为了降低类重叠对分类效果的影响,避免过采样造成的过拟合现象,以及欠采样造成的信息丢失问题,本文提出一种基于欠采样与属性选择的多决策树方法UAMDT(multi-decision tree based on under-sampling and attribute selection)。其首先利用Tomek link欠采样与集成欠采样两种技术相结合对数据进行处理,并获得多个平衡子集;然后在每个平衡子集上构建单决策树,采用结合信息增益和基尼指数的混合属性度量作为属性选择标准,选择最优属性作为每棵单决策树的根节点的分裂属性;最后将单决策树进行集成构建多决策树。通过对10个不平衡数据集的多个评估指标进行实验,验证了本文算法的有效性和可行性。  相似文献   

13.
基于粗糙集和决策树的数据挖掘方法   总被引:10,自引:1,他引:9  
从粗糙集和决策树两种方法具有的优势互补性出发,提出了一种基于粗糙集和决策树相结合的数据挖掘新方法·以胶合板缺陷检测数据分析为应用对象,利用粗糙集理论对胶合板数据库中的特征信息进行缺陷识别·利用谱系聚类重心距离法对数据进行离散化处理,采用粗糙集进行属性约简,得到低维样本数据,最后用决策树方法产生决策规则·实验证明,这种数据挖掘方法保留了原始数据的内部特点,加快了获取知识的进程,提高了模型的分类准确率,增强了规则的可解释性,取得了满意的研究结果·  相似文献   

14.
为了能够对软件维护性进行评价,以类级软件维护性数据集为例进行了软件维护性实验,应用Logiscope对类的维护性做了定性评价;运用Krakatau Professional收集类各个度量的度量值;通过WEKA得到了类级度量关键属性;最后,选取决策树分类方法训练分类模型,并利用训练好的分类模型对测试集进行测试,得到基本满足要求的类级软件维护性评价模型。  相似文献   

15.
针对数据挖掘的一般应用,采用决策树的方法,建立了二元组决策树模型,给出了模型中的两类数据和六个操作的一般描述,模型的重点是决策树建立、决策树剪枝和规则集推导。  相似文献   

16.
基于支持度置信度框架的关联分类算法在生成规则时难以提出大量高质量规则,而且在一些数据集尤其是不平衡数据集上,部分训练实例未被产生的关联规则所覆盖,导致算法的分类准确率不高.基于以上问题提出了改进的关联分类的算法(Improved Algorithm based on Multiple learning and Correlation degree,IAMC).首先,在提取规则时,IAMC对训练集进行多次关联分类学习,尽量多地提出高质量的规则.其次,在生成规则时采用综合考虑了置信度,补类支持度的新度量关联度,以提高生成的规则的质量.最后,在关联分类规则提取后,对利用已有规则无法判断类别的和未被已有规则覆盖的训练实例用决策树方法再次提取规则,并加入到规则集中.实验结果表明,IAMC算法能提出更多高质量的规则,在多个UCI数据集上具有较高的分类准确率.  相似文献   

17.
提出一种基于粗糙集理论的决策树分类算法.首先,将核属性集中的核属性进行合取后加入析取变换,实现属性约简;其次,在决策树构造阶段,对各条件属性分别求其上下近似集,进而得到各属性的近似精度.选择近似精度最大的属性作为决策树的根结点,以此方法递归应用到各子树上来选择决策树的结点并实现决策树的剪枝.实例分析表明,改进的算法提高了决策树方法的效率.  相似文献   

18.
在决策树算法中,即使存在两个"最好"属性,也只是随机选择一个作为根或节点属性.因此,决策树算法产生的分类规则较少.此外,决策树算法采用全匹配测试实例,测试实例最多匹配一条分类规则甚至没有匹配,进而影响分类准确率.针对该问题,提出了基于双属性节点部分匹配的决策树改进算法(DAID3):首先,如果存在两个信息熵相等或相近的"最好"属性,DAID3算法选择两个属性构建节点,它们的属性值及组合作为分枝.因此,每个训练实例可能被多条分类规则覆盖.其次,判断新实例时,在分枝节点上可能匹配到多条路径,为了选择最好路径,为每个分枝节点设置了节点强度.最后,如果不存在一条从根节点到叶子节点的路径全匹配测试实例,则找出部分匹配该实例的路径,返回该路径的终节点强度最大的类标值.为了便于部分匹配时返回强度最大的类标值,为每一个分枝节点设置节点类标值.实验结果表明,与决策树算法相比,DAID3算法具有分类规则多且有更高的分类准确率.  相似文献   

19.
数据分类技术在高校人才识别系统中的应用   总被引:1,自引:1,他引:0  
提出将数据挖掘技术应用于高校人才识别中,采用数据分类方法对人才进行定量的识别,更具科学性.讨论了数据分类的定义和方法,介绍了决策树分类和简单贝叶斯分类以及贝叶斯网络推理的算法,并给出具体的数据分类实例,利用过去已有的引进人才的经验数据分析提取规则.为以后的人才识别提供合理的、科学的技术支持.  相似文献   

20.
传统的模糊决策树虽然可以从模糊数据中抽取模糊分类规则,但只能获取节点的隶属度信息,无法得出样本数据对于节点的非隶属度和犹豫度信息,导致数据分类的准确率不高。针对此,基于毕达哥拉斯模糊集理论,提出了一种新的加权毕达哥拉斯模糊决策树算法(Weighted Pythagorean Fuzzy Decision Tree,WPFDT)。首先,通过改进的K-means聚类算法得到连续属性数据的聚类中心,并结合三角模糊数对连续数据进行模糊处理;其次,定义并计算每一个属性的加权毕达哥拉斯模糊熵,选择加权毕达哥拉斯模糊熵最小的属性作为决策树根节点,在根节点下递归选择模糊熵最小的属性作为分裂节点,同时通过阈值控制树的规模,得到从根节点到叶子节点路径的模糊规则以及模糊规则的隶属度、非隶属度以及犹豫度,并完成预测分类,直至生成WPFDT模型;最后,选取UCI上的3个医学数据集(Haberman、Breast Cancer、Parkinson)进行实验,在分类准确率和得出模糊规则的数量与3种传统决策树算法(模糊ID3算法、C4.5算法、CART算法)比较,实验结果表明:WPFDT在分类精度和树大小上都优于其他传统决策树算法,并且有较高的召回率和精确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号