首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 353 毫秒
1.
WILD:基于加权信息损耗的离散化算法   总被引:2,自引:0,他引:2  
现实应用中常常涉及许多连续的数值属性,而目前许多机器学习算法则要求所处理的属性具有离散值。基于信息论的基本原理,提出一种新的有监督离散化算法WILD,它可以看成是决策树离散化算法的一种扩充,其主要改进在于考虑区间内观测值出现的频度,采用加权信息损耗作为区间离散化的测试,以克服决策树算法离散不均衡的问题。该算法非常自然地采用了自底向上的区间归并方案,可以同时归并多个相邻区间,有利于提高离散化算法的速度,实验结果表明该算法能够提高机器学习算法的精度。  相似文献   

2.
在基于χ2统计独立性的离散化算法中,自由度与期望频数的选取直接影响χ2计算的准确性,从而影响离散化的性能.为此,提出了一种基于改进χ2统计的数据离散化算法,提高了基于统计独立性离散化算法的质量.首先,分析了χ2函数中自由度选取的不足,给出了自由度选取的修正方案;其次,根据数据类分布等特点,提出了期望频数的改进方案,克服了不同数据集赋予相同期望频数的缺陷,提高了χ2计算的准确性.实验结果表明,改进的方法显著提高了C4.5决策树与Naive贝叶斯分类器的学习精度.  相似文献   

3.
研究了基于联合熵和粗糙集理论的关联规则挖掘算法,改进了基于粗糙集的属性离散化方法—连续属性联合熵差离散化算法;以联合信息熵作为属性约简的标准,提出了基于联合熵的知识约简算法;并给出了以支持度、兴趣度和准确度为阈值的有效关联规则算法.  相似文献   

4.
目前常用的离散算法多为单属性离散化算法.利用该类算法对多维连续属性进行离散化时,逐次对单个属性进行离散化,割裂了多维属性之间的关系.基于此提出了一种基于遗传算法和变精度粗糙集的多属性离散化算法.该算法基于变精度粗糙集所具有的较好数据分类容错和抗噪能力,通过变精度粗糙集近似分类精度建立遗传算法适宜度评价函数,并利用遗传算法在多维连续属性候选断点集上寻找最优断点子集.基于UCI数据集比较了所提算法与多种常用的离散化算法的差异,实验结果表明,该算法可以获得相对较好的离散化效果.  相似文献   

5.
为了更好地解决时变非线性方程(time-varying nonlinear equation, TVNE),设计了一类Adams-Bashforth离散时间算法。首先给出了求解TVNE的连续时间零化神经网络,该神经网络具有指数收敛速度。然后利用线性多步算法将连续时间零化神经网络离散化,提出了一类六步Adams-Bashforth离散时间算法,并利用Jury稳定准则,给出了Adams-Bashforth离散算法步长的有效区间。最后将所提出的算法应用于解决机械臂路径规划问题,得到了较好的数值效果,精度最终可以达到10-14m。  相似文献   

6.
介绍了在数据库知识发现(KDD)中将连续属性离散化的一些方法,并提出使用值差分度量离散化的算法.值差分度量算法原本是用于计算离散属性值间的距离,但实际上将这种方法反过来用于连续属性的离散化也可以有相当好的效果.将其与传统的使用统计量χ2的离散化算法作了比较.  相似文献   

7.
连续数值属性的离散化是粒计算理论应用的重要步骤,提出粒度商的连续属性离散化方法。通过给出粒度商的概念,根据粒度商的大小来选取合适的区间粒,从而达到连续属性离散化的目的。最后给出实例分析,说明该算法的有效可行性。  相似文献   

8.
针对ZPW-2000A无绝缘轨道电路故障逻辑机理模糊的问题,本文采用了基于决策树的轨道电路专家系统知识表示方法.该方法首先将轨道电路故障影响较大的特征向量样本建立故障决策表,然后运用最小信息熵算法对属性值离散化,根据决策树算法快速学习及分类的特点对离散后的数据样本进行训练学习,生成故障决策树后进行知识规则的获取,在专家系统的知识库中以产生规则存储.通过对ZPW-2000A无绝缘轨道电路的实例分析验证了该方法在轨道电路专家系统知识表示与获取中的有效性和实用性.  相似文献   

9.
为了提高基于大规模数据的决策树训练效率,提出了一种基于Spark平台的并行决策树算法(SPDT).首先,采用数据按列分区的方法,把单个属性列完整地保留在一个分区内,使缓存该分区数据的数据节点能独立完成信息熵的计算,以减少数据节点之间的信息交流造成的网络资源的占用.然后,数据在按列分区后以稠密向量的形式缓存于内存中,SPDT对数据进行压缩,以减少对内存的占用.最后,SPDT采用基于边界点类别判定的连续属性离散化方法来处理连续属性,减少决策树训练过程中信息熵计算的频次,并提出使用信息增益比划分训练数据集的方法,以减少信息增益计算对多属性值属性的依赖.实验结果表明,在树的训练效率方面,SPDT在保持分类精度的情况下,比Apache Spark-MLlib决策树算法(MLDT)以及基于Spark平台的垂直划分决策树算法(Yggdrasil)有明显的提升.  相似文献   

10.
决策树是分类的常用方法.文章针对一个局域网上模拟的入侵检测问题,描述了对利用决策树方法学习的一种优化实现.并且对怎样处理缺失数据、连续属性的离散化、怎样剪枝以及分类法的准确率评估及提高等关键技术进行了研究.实验证明,该方法可为入侵检测系统生成有效的决策树.  相似文献   

11.
针对病理诊断规则获取问题,采用基于粗糙集理论的规则提取方法.首先进行连续属性的离散化,用遗传算法对CAIM(class-attribute interdependence maximum)离散化算法进行改进.然后利用粗糙集理论进行规则提取.采用以核为基础的增量式约简算法,综合考虑属性对约简的增益和属性在剩余属性集中的重要性,给出了衡量属性重要性程度的一个准则.随后进行属性值约简,获取诊断规则.  相似文献   

12.
概念学习中连续值型属性的离散化   总被引:1,自引:0,他引:1  
在概念学习中,属性不仅可以为离散值型,还可以为连续值型,因此,连续值型属性的离散化问题是概念学习中的一个重要问题,本给出了基于假设检验的离散化方法的理论依据,并依此提出了一种离散化算法Discrete,实验结果表明,这种方法一有得到较合理的区间划分。  相似文献   

13.
自动生成决策树的通用算法模板   总被引:4,自引:0,他引:4  
目的 提供自动生成决策树的通用算法模板,从而使算法的设计能够快速验证为解决特定决策问题而设计的新算法。方法 提供智能编辑器供算法设计定义自己的公式,并利用该公式或内置算示来初始化通用算法模板,从而实现连续属性的离散化、采用基于概率分布的方法处理未知属性和噪声数据,利用预剪枝和后剪枝算法进行剪枝。结果与结论 用户能够利用该模板,在系统提供的交互式图形环境中,针对不同的决策问题测试决策树生成算法。  相似文献   

14.
模糊ID3算法处理的对象是具有模糊条件属性和模糊决策属性的模糊决策表,它利用平均模糊分类熵作为启发式选择扩展属性,利用模糊置信度作为叶子结点的终止条件.当用模糊ID3算法处理连续值和离散值决策表时,需要对连续值或离散值条件属性进行模糊化.模糊化的关键是模糊测度的确定,但确定合适的模糊测度非常困难,而且模糊化会损失有用的信息.针对这些问题,基于粗糙模糊集技术,提出了一种模糊决策树归纳算法,称为粗糙模糊决策树(RFDT:Rough Fuzzy Decision Tree).RFDT可直接处理离散值模糊决策表,归纳模糊决策树,不需要模糊化的过程.和模糊ID3算法类似,RFDT也分为三步:(1)利用粗糙模糊依赖度作为启发式选择扩展属性;(2)用选择的扩展属性划分样例集合;(3)如果划分的样例集合满足终止条件,则算法终止;否则递归地重复步骤(1)和(2).提出的算法用Kosko模糊熵作为叶子结点的终止条件,并通过一个例子说明了模糊决策树的归纳过程.  相似文献   

15.
针对一般非线性滤波方法对磁偶极子跟踪时存在精度不高和滤波发散的问题,提出了一种改进粗糙化粒子滤波算法进行求解.该算法基于欧拉离散化方法,将连续随机滤波方法引入粗糙化粒子滤波框架,计算出在K-L散度意义下的最优控制量,将其作为粗糙化均值,以克服粒子贫化问题.建立了磁偶极子目标跟踪的连续时间状态空间模型,并给出了算法具体实现,通过仿真实验,将该算法与目前采用的磁偶极子目标跟踪算法进行对比,结果表明所提出的算法精度较高,且性能稳定.  相似文献   

16.
讨论模糊C均值聚类算法在决策表条件属性对决策属性的相容程度的指导下对粗集理论中的连续属性进行离散化的一种新算法.该算法充分考虑属性之间的相关性,将所有连续属性转化为矩阵同时处理,能明显提高传统动态层次聚类算法离散化过程的速度.算法测试结果表明,新算法能较好地保留有效属性,提高离散化精度.  相似文献   

17.
基于粗集理论的数据离散化技术研究   总被引:2,自引:0,他引:2  
信息系统连续型属性值的离散化对决策规则或决策树的学习具有非常重要的意义,它能够提高系统对样本的聚类能力,增强系统抗数据噪音的能力,减少机器学习算法的时间和空间开销,提高其学习精度。粗集是有效的数据离散化工具。对基于粗集理论的数据离散化方法进行了深入研究,分析其特征,评述其研究进展,并通过仿真实验研究了几种典型的启发式离散化算法的性能。其结果对发展新的离散化技术或为特定应用选择合适算法都有参考价值。  相似文献   

18.
提出一种基于连续属性离散化的知识分类方法.将条件属性按照重要度由高到低排序,并依照此排序将决策表中各条件属性依次离散化.在对决策表中条件属性的离散化过程中充分考虑已离散化的条件属性及决策属性,离散后的决策表不需要进一步约简.使用了模拟数据和UCI机器学习数据集中的数据进行算法测试,而且与其他离散化算法进行了对比,结果充分证明了新方法的有效性.  相似文献   

19.
文中给出了基于属性值出现的频率的连续属性离散化的一种方法。在离散化问题描述的基础上,利用属性值出现的频率确定频数候选断点,再利用边缘断点算法进一步减少断点数目,达到离散化目的。该方法提高了决策属性关于条件属性的支持度,提高了属性约简的满意度。  相似文献   

20.
为提高大数据粗糙集挖掘能力,提出基于信息熵的粗糙集连续属性离散检验算法﹒在云计算环境下进行粗糙集连续属性大数据挖掘,采用特征空间重组方法进行粗糙集连续属性离散数据的模糊特征重构,提取粗糙集连续属性离散数据的信息熵,并得到其分布序列特征;对所提取的信息熵进行聚类分析,采用空间决策树模型,获取离散数据闭繁项关联分析度量;通过数据特征权重的决策树分布特征量化集,得到粗糙集连续属性离散数据空间重组;采用大数据挖掘方法,将离散数据空间重组的信息融合,得到优化的粗糙集和连续属性离散数据检验输出;根据粗糙集连续属性的融合结果,实现离散检验优化﹒仿真结果表明:在迭代次数为400时,收敛程度为0.265%,远远高于其它方法,证明采用该方法进行粗糙集连续属性离散检验的数据聚类性较好﹒  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号