首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
知识发现过程中连续属性离散化方法研究   总被引:8,自引:0,他引:8  
在综合分析知识发现过程中连续属性离散化方法的基础上,提出了一种基于全局聚类分析来处理连续属性离散化问题的方法。实例验证结果表明该方法对知识发现过程中连续属性离散化的划分更为合理。  相似文献   

2.
介绍了在数据库知识发现(KDD)中将连续属性离散化的一些方法,并提出使用值差分度量离散化的算法.值差分度量算法原本是用于计算离散属性值间的距离,但实际上将这种方法反过来用于连续属性的离散化也可以有相当好的效果.将其与传统的使用统计量χ2的离散化算法作了比较.  相似文献   

3.
连续属性离散化是粗糙集应用研究的重点内容之一.基于条件熵可以反应属性依赖度的性质,将决策属性对条件属性的条件熵作为离散化标准,提出了一种粗糙集连续属性离散化方法,并通过实例证明了该方法的正确性.  相似文献   

4.
在用粗糙集理论解决连续系统的问题时,要求信息表必须是离散值.在对由连续量构成的信息表离散化时,首先要对决策属性的值域进行离散化。文中针对这一问题提出了3种确定离散化区间的方法,即经验分割法、等频分割法和等距分割法;又提出了2种求区间离散值的算法,即区间重心法和区间值平均法,并通过算例验证这些算法均是可行的,其中等距分割法中的区间值平均法效果最为满意。  相似文献   

5.
针对在数据挖掘中,连续属性常常需要预处理问题,应用粗糙集理论对连续属性的不完备问题、离散问题进行了研究,提出了一种连续属性预处理方法。基于条件属性与决策属性间的对应关系完成了不完备数据的填补。依据划分区间的概念、连续属性离散化含义及其本质特征,定义了划分区间的加法运算法则,以此对填补后的信息表进行了划分区间运算,并以分类质量作为离散过程迭代约束条件,实现了信息表中连续属性的离散化。通过C 编写的算法进行数值示例及测试数据库。实验结果表明此算法有效可行。  相似文献   

6.
一种连续属性离散化的新算法   总被引:5,自引:0,他引:5  
连续属性的离散化问题是机器学习、数据挖掘等领域中重要研究课题之一,本文深入讨论连续属性离散的各种方法,提出一种基于RS理论和条件信息熵的决策表条件属性离散化算法,计算简单、易实现并以实例加以说明。  相似文献   

7.
目的 讨论连续值决策表的一种属性约简方法.方法 连续值决策表是一种常见的根据实际应用抽象所得的数据库.本文通过对连续值决策表进行预处理--离散化,把它们转化为有序决策表,然后以r度量作为度量标准对转化后所得的有序决策表进行属性约简.结果 与结论可以证明该方法可对连续值决策表有效的进行属性约简,使此类决策表的规则表示简单直观.  相似文献   

8.
苏艳琴  张光轶 《科学技术与工程》2013,13(12):3457-3459,3465
针对粗糙集无法对航空电子装备测试数据中的连续数据进行处理的问题,提出一种基于FCM聚类的离散化方法,通过计算各聚类中心值进行离散化处理,并应用粗糙集属性约简和规则提取方法,获得最终诊断规则,并在某型机载电台故障诊断中验证其有效性。  相似文献   

9.
WILD:基于加权信息损耗的离散化算法   总被引:2,自引:0,他引:2  
现实应用中常常涉及许多连续的数值属性,而目前许多机器学习算法则要求所处理的属性具有离散值。基于信息论的基本原理,提出一种新的有监督离散化算法WILD,它可以看成是决策树离散化算法的一种扩充,其主要改进在于考虑区间内观测值出现的频度,采用加权信息损耗作为区间离散化的测试,以克服决策树算法离散不均衡的问题。该算法非常自然地采用了自底向上的区间归并方案,可以同时归并多个相邻区间,有利于提高离散化算法的速度,实验结果表明该算法能够提高机器学习算法的精度。  相似文献   

10.
对于混合属性相关度的计算,现有方法的做法是将连续属性离散化后,用基于频率的计算方法来计算.而连续属性离散化可能会丢失部分信息,为属性评估带来不确定因素.在此提出一种直接计算混合属性相关度的方法:将一个连续属性中的所有数据,根据一个离散属性的属性值分组,以分组连续属性前后数据方差的关系确定两个属性的相关度.在两个真实数据集及常用机器学习数据集上的实验结果表明:该方法可以有效度量混合属性数据之间的相关程度.  相似文献   

11.
连续属性离散化是粗集理论应用于实际问题时的重要环节,一般的离散化方法应用于不确定信息系统的属性离散化时,在数值选择上却存在着依据缺失的突出问题.利用数值态势构成的态势差研究两个集对势之间的差度,并将其结果应用到了连续属性离散化过程中,形成了基于数值态势分析的连续属性离散化的新方法,较好地解决了数值选择不确定问题,并给出实例进行了验证.  相似文献   

12.
文中给出了基于属性值出现的频率的连续属性离散化的一种方法。在离散化问题描述的基础上,利用属性值出现的频率确定频数候选断点,再利用边缘断点算法进一步减少断点数目,达到离散化目的。该方法提高了决策属性关于条件属性的支持度,提高了属性约简的满意度。  相似文献   

13.
讨论模糊C均值聚类算法在决策表条件属性对决策属性的相容程度的指导下对粗集理论中的连续属性进行离散化的一种新算法。该算法充分考虑属性之间的相关性,将所有连续属性转化为矩阵同时处理,能明显提高传统动态层次聚类算法离散化过程的速度。算法测试结果表明,新算法能较好地保留有效属性,提高离散化精度。  相似文献   

14.
目前常用的离散算法多为单属性离散化算法.利用该类算法对多维连续属性进行离散化时,逐次对单个属性进行离散化,割裂了多维属性之间的关系.基于此提出了一种基于遗传算法和变精度粗糙集的多属性离散化算法.该算法基于变精度粗糙集所具有的较好数据分类容错和抗噪能力,通过变精度粗糙集近似分类精度建立遗传算法适宜度评价函数,并利用遗传算法在多维连续属性候选断点集上寻找最优断点子集.基于UCI数据集比较了所提算法与多种常用的离散化算法的差异,实验结果表明,该算法可以获得相对较好的离散化效果.  相似文献   

15.
提出了在没有任何领域知识可供借鉴的情况下,基于聚类思想,利用遗传算法对数量型属性进行离散化的新算法——遗传C均值算法.该算法利用遗传算法具有全局寻优的特性,对训练样本根据其每一属性值进行聚类,将样本划分为不同的类,从而为每一属性找到其值的最佳分割点.然后,对不同类赋以不同的编码.该算法的优点是能得到最优的离散化结果.在VC 6.0环境下实现了该算法.仿真实验证明该方法有效解决了利用粗糙集理论进行分类规则挖掘时,数量型属性的离散化问题。  相似文献   

16.
讨论模糊C均值聚类算法在决策表条件属性对决策属性的相容程度的指导下对粗集理论中的连续属性进行离散化的一种新算法。该算法充分考虑属性之间的相关性,将所有连续属性转化为矩阵同时处理,能明显提高传统动态层次聚类算法离散化过程的速度。算法测试结果表明,新算法能较好地保留有效属性,提高离散化精度。  相似文献   

17.
提出了连续属性的一种离散化方法,指出与其他离散化方法的不同之处:离散化算法应是与挖掘目标息息相关的.研究和探讨了分类问题中的属性离散化方法,以分类精度和正域的势来评估每一步离散化过程,并将评估结果进行反馈,直至所有属性的属性值判断完为止.通过UCI机器学习数据库的实验表明,属性值个数的减少会提高在数据集上运行数据挖掘算法的效率,离散化后的分类正确率保持不变或有一定的提高.  相似文献   

18.
为解决连续属性无法直接用于粗糙集理论中这一问题,将Parzen窗方法和遗传算法相结合,提出了一种全新的属性离散化方法。该方法首先选取较多个断点将连续属性分为较多类,然后结合粗糙集理论的一致性要求和Parzen窗所反映的离散结果稳定性指标定义遗传算法的适值函数。仿真结果表明:使用该方法得到的离散结果能得到较少个断点,并且保持数据原有的分类能力。  相似文献   

19.
针对粗糙集中连续属性需要离散化问题进行了研究.根据数据对象的可分辨性原理构造超立方体,在数据空间上对信息表中的连续属性进行整体离散化处理.根据条件属性与决策属性的一致性关系,依照条件属性在粗糙集边界域中的分类能力来确定条件属性的重要性,在此基础上选取重要划分点对信息表中的连续属性进行局部离散化,同时以信息熵作为迭代约束条件.数值示例和实验表明这种整体与局部相结合的离散化方法是有效可行的.  相似文献   

20.
一种基于聚类的粗糙集连续属性的离散化算法   总被引:4,自引:0,他引:4  
粗糙集理论是一种新的处理不精确、不完全与不相容知识的数学工具。粗糙集理论只能对离散属性进行处理,而不能处理连续属性。中针对这一缺陷,利用连续数值属性有序性的性质和统计方差理论,提出了一种基于聚类的连续属性离散化算法。运用典型数据将本算法与现有方法进行了比较分析,得到了满意的结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号