首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 30 毫秒
1.
分析了全断面掘进机复杂的故障机理和运行参数,研究了将粗糙集和决策树应用到数据挖掘中的方法.以全断面掘进机刀盘的一些实时数据为例,采用MATLAB 7.0对数据进行离散化处理,结合粗糙集属性约简的算法对故障样本进行冗余属性的约简;然后,利用决策树算法对约简后的故障样本集进行规则提取,利用数据挖掘工具Clementine实现了C4.5算法和改进的C4.5算法,对其结果进行了对比分析;最后,运用VB编程对全断面掘进机采集的部分数据进行测试,结果表明该融合算法是一种快速、有效、可靠的故障检测与诊断的新途径.  相似文献   

2.
基于粗糙集和决策树的数据挖掘方法   总被引:10,自引:1,他引:9  
从粗糙集和决策树两种方法具有的优势互补性出发,提出了一种基于粗糙集和决策树相结合的数据挖掘新方法·以胶合板缺陷检测数据分析为应用对象,利用粗糙集理论对胶合板数据库中的特征信息进行缺陷识别·利用谱系聚类重心距离法对数据进行离散化处理,采用粗糙集进行属性约简,得到低维样本数据,最后用决策树方法产生决策规则·实验证明,这种数据挖掘方法保留了原始数据的内部特点,加快了获取知识的进程,提高了模型的分类准确率,增强了规则的可解释性,取得了满意的研究结果·  相似文献   

3.
基于粗糙集的RDT决策树生成算法的研究及应用   总被引:1,自引:0,他引:1  
介绍了一种基于粗糙集理论的决策树生成算法--RDT(Rought Set Decision Tree).该方法运用了粗糙集理论中条件属性相对于决策属性的核,引入启发式条件计算并选择条件属性作为决策树的根结点或子结点.通过一个例子,与运用信息熵概念建立决策树的算法进行比较,结果表明采用RDT方法得到的决策树优于采用信息熵方法得到的决策树.还讨论了RDT与ID3算法对决策树精度和规模的影响,分析数据分类和知识发现的过程及特点.  相似文献   

4.
为提升数据挖掘技术与网络恶意行为识别准确率,研究基于大数据关联规则的网络恶意行为识别检测方法。模糊化处理网络中存在的大数据,构建模糊数据库,分类聚集模糊数据库中的模糊数据,离散化处理模糊数据的连续属性,确定模糊数据频繁关联规则,通过基于模糊关联规则的数据挖掘方法获得整理后的网络数据;以此为基础,分析用户恶意访问流量特征,加权处理用户访问流量特征与用户信息熵特征,建立多特征融合的网络恶意行为识别模型,完成网络恶意行为识别检测。经实验验证,该方法识别检测网络恶意行为时准确率较高,在93%以上,漏检测率较低,低于8%,在数据挖掘时具有较低的时间消耗与空间消耗,支持度较高。  相似文献   

5.
针对粗糙集中连续属性需要离散化问题进行了研究.根据数据对象的可分辨性原理构造超立方体,在数据空间上对信息表中的连续属性进行整体离散化处理.根据条件属性与决策属性的一致性关系,依照条件属性在粗糙集边界域中的分类能力来确定条件属性的重要性,在此基础上选取重要划分点对信息表中的连续属性进行局部离散化,同时以信息熵作为迭代约束条件.数值示例和实验表明这种整体与局部相结合的离散化方法是有效可行的.  相似文献   

6.
一种基于粗糙集的决策树构造方法   总被引:2,自引:1,他引:2  
决策树是一种有效的数据分类方法。传统的决策树方法是通过信息熵的计算去生成决策树的节点,计算量大。基于粗糙集理论,利用近似精度的概念来进行属性选择,构造决策树,有效地提高了效率并降低了决策树的复杂度。  相似文献   

7.
应用粗糙集对知识分类的特点,结合遗传算法进化理论,提出了新的数据挖掘模型;针对大数据表字段过多、信息冗余大的特点,采用粗糙集的理论方法进行处理,在改进数据预处理方法的基础上,对条件属性进行约简,提出了改进的属性约简算法;指出对于数据量大的决策表仅仅属性约简是不够的,对大量的规则还要进行筛选提取,结合遗传算法进行优化筛选处理,通过选择、交叉、变异后从大量的规则中得到较优的规则集.  相似文献   

8.
文章通过汽轮机故障样本数据的空间分布状态分析,基于模糊c均值(FCM)聚类方法实现故障征兆参数属性的离散化处理;采用粗糙集(RS)属性约简方法对原始特征向量进行优化,去除冗余特征,提取特征向量的本质信息;基于约简后的特征向量建立支持向量机(SVM)故障诊断模型.实验结果表明,该文所提出的方法不仅可以提高故障诊断的准确性...  相似文献   

9.
在分析大肠早癌荧光数据属性约简方法的基础上,提出一种基于容错关系信息熵的粗糙主成分属性约简方法.该方法首先针对数据的不完整特性,建立容错关系粗糙集模型.然后,引入随信息量减小而单调下降的信息熵,建立基于信息熵的容错关系粗糙集模型,并进行初步数据属性处理.最后,结合主成分分析方法,形成基于容错关系信息熵的粗糙主成分分析方法,在进行数据降维处理的同时提取数据特征.以大肠早癌荧光光谱为实验数据的分析处理结果表明,该方法可以有效地降低荧光光谱数据的处理维数,提取影响医疗诊断的特征数据,减少后续数据处理的复杂度.  相似文献   

10.
李恒宾 《科学技术与工程》2012,12(21):5149-5153,5162
提出了一种模糊聚类、粗糙集理论与神经网络集成的混合智能故障诊断方法。引入聚类有效性函数和点分布密度函数。对模糊c-均值聚类算法进行改进,形成了自适应模糊聚类算法并依据该算法将连续的故障特征值离散化。应用粗糙集理论处理离散化的故障诊断数据。采用基于信息熵的方法,约简冗余的故障特征。依据约简结果构建神经网络,采用遗传算法优化网络的权值和阈值。将该方法用于柴油机气门故障诊断,并与普通神经网络进行对比。结果表明,该方法提高了故障诊断的正确率。  相似文献   

11.
应用空间聚类进行点数据分布研究   总被引:2,自引:0,他引:2  
空间数据挖掘是寻找大数据量空间分布的重要方法,应用地理信息系统(GIS)进行空间数据挖掘是目前进行海量数据分析的重要手段之一.应用空间聚类方法对北京市海淀区54 325个企业点数据进行量化分析研究,通过空间位置聚类,进行属性指标量化,从而进行属性指标分层聚类,得到企业空间分布特征.研究表明,空间聚类方法是进行点数据空间分布研究的有效方法.  相似文献   

12.
将数据挖掘中的决策树与粗糙集理论进行了有机结合,提出了一种基于粗糙集技术的决策树构造算法,并将该算法应用于胶合板缺陷检测.通过粗糙集属性约简,找出造成胶合板缺陷的关键因素;再基于约简后的决策表,使用该决策树算法构建决策树,从而提取分类规则,指导决策过程.通过实验验证了,该算法可以有效对胶合板的缺陷进行检测.  相似文献   

13.
研究了基于联合熵和粗糙集理论的关联规则挖掘算法,改进了基于粗糙集的属性离散化方法—连续属性联合熵差离散化算法;以联合信息熵作为属性约简的标准,提出了基于联合熵的知识约简算法;并给出了以支持度、兴趣度和准确度为阈值的有效关联规则算法.  相似文献   

14.
为了提高基于大规模数据的决策树训练效率,提出了一种基于Spark平台的并行决策树算法(SPDT).首先,采用数据按列分区的方法,把单个属性列完整地保留在一个分区内,使缓存该分区数据的数据节点能独立完成信息熵的计算,以减少数据节点之间的信息交流造成的网络资源的占用.然后,数据在按列分区后以稠密向量的形式缓存于内存中,SPDT对数据进行压缩,以减少对内存的占用.最后,SPDT采用基于边界点类别判定的连续属性离散化方法来处理连续属性,减少决策树训练过程中信息熵计算的频次,并提出使用信息增益比划分训练数据集的方法,以减少信息增益计算对多属性值属性的依赖.实验结果表明,在树的训练效率方面,SPDT在保持分类精度的情况下,比Apache Spark-MLlib决策树算法(MLDT)以及基于Spark平台的垂直划分决策树算法(Yggdrasil)有明显的提升.  相似文献   

15.
决策树C4.5算法在森林资源二类调查中的应用   总被引:3,自引:0,他引:3  
C4.5算法是基于信息熵理论进行数据分类分析的经典决策树数据挖掘算法.它主要包括数据预处理、决策树生成、决策树修剪、决策树规则提取等步骤.笔者将C4.5算法应用于森林资源二类调查的数据分析中,通过对调查数据挖掘分析表明,数据挖掘在森林资源调查数据分析中具有广泛的应用前景.  相似文献   

16.
一种不完备信息表的预处理方法   总被引:1,自引:0,他引:1  
针对不完备信息表预处理问题中的不完备数据的填补问题、冗余属性的约简问题和连续属性的离散化问题进行了研究. 应用粗糙集理论,由相容信息表中条件属性与决策属性间的一致性对应关系,定义了划分区间的加法运算,解决了不完备数据填补问题;根据类别概念,定义了差别向量,利用差别向量加法运算删除了冗余属性;根据条件属性与决策属性之间的依赖关系及相对信息熵概念,实现了连续属性的离散化. 数值示例和实验结果显示此方法是有效可行的.  相似文献   

17.
针对病理诊断规则获取问题,采用基于粗糙集理论的规则提取方法.首先进行连续属性的离散化,用遗传算法对CAIM(class-attribute interdependence maximum)离散化算法进行改进.然后利用粗糙集理论进行规则提取.采用以核为基础的增量式约简算法,综合考虑属性对约简的增益和属性在剩余属性集中的重要性,给出了衡量属性重要性程度的一个准则.随后进行属性值约简,获取诊断规则.  相似文献   

18.
应用分类贡献函数的决策树构造方法   总被引:1,自引:0,他引:1  
在构造决策树的过程中,分类属性选择的标准直接影响分类的效果。本文基于粗糙集的理论,提出了在核中应用分类贡献函数来选择分类属性的新方法。利用UCI提供的数据集对该算法和基于信息熵的算法C4.5,以及基于加权平均粗糙度的决策树生成算法相比较。实验证明:用该方法构造的决策树与传统的基于信息熵方法构造的决策树相比较,复杂性低,且能有效提高分类效果。  相似文献   

19.
苏艳琴  张光轶 《科学技术与工程》2013,13(12):3457-3459,3465
针对粗糙集无法对航空电子装备测试数据中的连续数据进行处理的问题,提出一种基于FCM聚类的离散化方法,通过计算各聚类中心值进行离散化处理,并应用粗糙集属性约简和规则提取方法,获得最终诊断规则,并在某型机载电台故障诊断中验证其有效性。  相似文献   

20.
一种连续属性离散化的新算法   总被引:5,自引:0,他引:5  
连续属性的离散化问题是机器学习、数据挖掘等领域中重要研究课题之一,本文深入讨论连续属性离散的各种方法,提出一种基于RS理论和条件信息熵的决策表条件属性离散化算法,计算简单、易实现并以实例加以说明。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号