首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 375 毫秒
1.
一种基于聚类的粗糙集连续属性的离散化算法   总被引:4,自引:0,他引:4  
粗糙集理论是一种新的处理不精确、不完全与不相容知识的数学工具。粗糙集理论只能对离散属性进行处理,而不能处理连续属性。中针对这一缺陷,利用连续数值属性有序性的性质和统计方差理论,提出了一种基于聚类的连续属性离散化算法。运用典型数据将本算法与现有方法进行了比较分析,得到了满意的结果。  相似文献   

2.
针对在数据挖掘中,连续属性常常需要预处理问题,应用粗糙集理论对连续属性的不完备问题、离散问题进行了研究,提出了一种连续属性预处理方法。基于条件属性与决策属性间的对应关系完成了不完备数据的填补。依据划分区间的概念、连续属性离散化含义及其本质特征,定义了划分区间的加法运算法则,以此对填补后的信息表进行了划分区间运算,并以分类质量作为离散过程迭代约束条件,实现了信息表中连续属性的离散化。通过C 编写的算法进行数值示例及测试数据库。实验结果表明此算法有效可行。  相似文献   

3.
粗糙集理论是一种研究不完整、不确定知识处理的数学工具,属性约简是粗糙集理论的核心内容之一.阐述了粗糙集理论的基本思想,给出了一种启发式的最小约简算法,通过一个实例,分析说明算法的可行性和有效性.  相似文献   

4.
为在应用粗糙集理论处理数据时,对连续属性进行离散化预处理,采用k均值算法对连续属性进行离散化的方法,将属性无监督聚类成两类.通过在UCI数据库上选取的4组数据进行实验,首先离散化,再通过粗糙集约简,最后使用k NN(k=10)分类器,并和其他两种离散化方法进行对比.研究结果表明:该方法能够提高离散化的效率,降低实验的复杂度,并有效减少断点数.  相似文献   

5.
样本信息处理中一种属性约简方法的研究   总被引:10,自引:1,他引:10  
为了剔除样本信息中存在的冗余成分和不相容性,同时提取关键信息等,根据样本信息的特点和信息具有粒度的思想,基于粗糙集的2个近似精度科学地定义了条件属性重要性,进而提出一种对样本信息进行属性约简的有效、简便方法.该方法主要包括信息核的求取、可省条件属性的重要性计算和相对属性约简集的确定.其中,为连续属性的离散化处理提供了一种基于模糊相似比原理的快速离散化算法,它能起到剔除模糊噪声的作用.典型实例计算和在油水层识别系统中的实际应用表明,这种属性约简方法的识别准确率可达90%以上,应用效果显著.  相似文献   

6.
一种基于粗糙集理论的连续属性离散化方法   总被引:14,自引:0,他引:14  
基于粗糙集的有关理论,提出了一种新的连续属性离散化方法·首先说明决策属性支持度的概念,再利用决策属性支持度作为反馈信息,提出一种领域独立的基于决策属性支持度的连续属性离散化算法·该算法能在保证决策表原始分类能力不变的前提下,提高约简效率·同时,各个属性拥有较少的分割区间,会使规则集合更加简洁·通过实例分析比较,说明该算法是非常有效的·  相似文献   

7.
应用经典粗糙集理论处理连续值属性决策表问题时,对连续值属性进行离散化会造成信息损失.本文在分析已有相似度不足的基础上提出一种改进的相似度,建立基于改进相似度的扩展粗糙集模型,并提出一种基于重要度的约简算法.  相似文献   

8.
研究了基于联合熵和粗糙集理论的关联规则挖掘算法,改进了基于粗糙集的属性离散化方法—连续属性联合熵差离散化算法;以联合信息熵作为属性约简的标准,提出了基于联合熵的知识约简算法;并给出了以支持度、兴趣度和准确度为阈值的有效关联规则算法.  相似文献   

9.
针对在使用粗糙集理论处理决策表时需要事先对连续属性进行离散化处理的问题,提出了一种基于连续属性分布特征的离散化算法.并通过实例分析说明该算法能在保证决策表原始分类能力不变的前提下,获得较少的断点数.  相似文献   

10.
目的针对不完备信息系统寻找处理方法。方法利用粗糙集扩充模型限制容差关系,取代经典粗糙集理论中的不可分辨关系,对不完备信息进行处理。结果理论上证明了算法的完备性,并使用UCI机器学习数据库对属性约简算法进行测试。结论所述的属性约简算法,不仅可以处理不完备信息,而且在效率上有所提高。  相似文献   

11.
基于粗集理论的数据离散化技术研究   总被引:3,自引:0,他引:3  
信息系统连续型属性值的离散化对决策规则或决策树的学习具有非常重要的意义。它能够提高系统对样本的聚类能力,增强系统抗数据噪音的能力,减少机器学习算法的时间和空间开销,提高其学习精度。粗集是有效的数据离散化工具。对基于粗集理论的数据离散化方法进行了深入研究,分析其特征,评述其研究进展,并通过仿真实验研究了几种典型的启发式离散化算法的性能。其结果对发展新的离散化技术或为特定应用选择合适算法都有参考价值。  相似文献   

12.
基于粗集理论的数据离散化技术研究   总被引:2,自引:0,他引:2  
信息系统连续型属性值的离散化对决策规则或决策树的学习具有非常重要的意义,它能够提高系统对样本的聚类能力,增强系统抗数据噪音的能力,减少机器学习算法的时间和空间开销,提高其学习精度。粗集是有效的数据离散化工具。对基于粗集理论的数据离散化方法进行了深入研究,分析其特征,评述其研究进展,并通过仿真实验研究了几种典型的启发式离散化算法的性能。其结果对发展新的离散化技术或为特定应用选择合适算法都有参考价值。  相似文献   

13.
在网络入侵异常检测中,数据预处理是一个非常重要的步骤,数据预处理的好坏直接影响后续检测的准确性.本文针对基于层次聚类的网络入侵异常检测中两个问题,在数据预处理阶段做出改进,一是属性冗余和属性权重问题,运用粗集理论对各个属性赋予权重并进行属性约减,二是粗集理论中连续数据离散化问题,提出了针对数据特点的自适应离散化算法,该算法是根据样本属性值分布来决定离散间隔,最后针对两个改进方法进行了实验,并与采用现有离散化方法进行了对比,实验结果证明了该算法的有效性和准确性.  相似文献   

14.
由于粗糙集理论对不确定性的描述是相对客观的,且在无需先验信息的情况下提供了严格地处理数据分类问题的数学方法,结合遥感数据的不确定性,就能对遥感数据进行分类处理.文章通过对遥感数据的处理,经过数据离散化等一系列数据处理后得到约简属性,再根据Fisher线性判别对遥感数据进行监督分类,得到分类结果.可以得出粗糙集理论应用于...  相似文献   

15.
为解决连续属性无法直接用于粗糙集理论中这一问题,将Parzen窗方法和遗传算法相结合,提出了一种全新的属性离散化方法。该方法首先选取较多个断点将连续属性分为较多类,然后结合粗糙集理论的一致性要求和Parzen窗所反映的离散结果稳定性指标定义遗传算法的适值函数。仿真结果表明:使用该方法得到的离散结果能得到较少个断点,并且保持数据原有的分类能力。  相似文献   

16.
In order to avoid the discretization in the classical rough set theory, a generlization rough set theory is proposed. At first, the degree of general importance of an attribute and attribute subsets are presented. Then, depending on the degree of general importance of attribute, the space distance can be measured with weighted method. At last, a generalization rough set theory based on the general near neighborhood relation is proposed. The proposed theory partitions the universe into the tolerant modules, and forms lower approximation and upper approximation of the set under general near neighborhood relationship, which avoids the discretization in Pawlak's rough set theory.  相似文献   

17.
A new feature selection method is proposed based on the discern matrix in rough set in this paper. The main idea of this method is that the most effective feature, if used for classification, can distinguish the most number of samples belonging to different classes. Experiments are performed using this method to select relevant features for artificial datasets and real-world datasets. Results show that the selection method proposed can correctly select all the relevant features of artificial datasets and drastically reduce the number of features at the same time. In addition, when this method is used for the selection of classification features of real-world underwater targets,the number of classification features after selection drops to 20% of the original feature set, and the classification accuracy increases about 6% using dataset after feature selection.  相似文献   

18.
一种基于粗糙集的朴素贝叶斯分类算法   总被引:3,自引:0,他引:3  
朴素贝叶斯分类器的计算过程只有在完全数据库中才成立,而基于相似关系的粗糙集模型具有处理空值的功能,并且提供了属性离散化和约简技术,可以改善属性间的依赖关系。因此,将两种不同的软计算方法相结合,利用粗糙集合理论先把决策表补齐,再对数据进行约简,然后结合朴素贝叶斯分类器,得出分类结果。实验证明这种方法不仅简化了数据和模型的规模,也具有对不完全数据的分类能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号