首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 109 毫秒
1.
连续属性离散化是粗集理论应用于实际问题时的重要环节,一般的离散化方法应用于不确定信息系统的属性离散化时,在数值选择上却存在着依据缺失的突出问题.利用数值态势构成的态势差研究两个集对势之间的差度,并将其结果应用到了连续属性离散化过程中,形成了基于数值态势分析的连续属性离散化的新方法,较好地解决了数值选择不确定问题,并给出实例进行了验证.  相似文献   

2.
在网络入侵异常检测中,数据预处理是一个非常重要的步骤,数据预处理的好坏直接影响后续检测的准确性.本文针对基于层次聚类的网络入侵异常检测中两个问题,在数据预处理阶段做出改进,一是属性冗余和属性权重问题,运用粗集理论对各个属性赋予权重并进行属性约减,二是粗集理论中连续数据离散化问题,提出了针对数据特点的自适应离散化算法,该算法是根据样本属性值分布来决定离散间隔,最后针对两个改进方法进行了实验,并与采用现有离散化方法进行了对比,实验结果证明了该算法的有效性和准确性.  相似文献   

3.
在数据挖掘和机器学习研究中,许多算法以离散值为处理对象,常常需要对连续属性进行离散化.由于正态分布的广泛性,本文提出一种基于正态分布的近似等频离散化方法.该方法实现简单,关于数据集大小具有线性时间复杂度,适用于大规模数据集.在许多数据集上与文献中多个离散化方法进行了对比测试,实验结果表明,提出的无指导的离散化方法是有效、可行的.  相似文献   

4.
提出了连续属性的一种离散化方法,指出与其他离散化方法的不同之处:离散化算法应是与挖掘目标息息相关的.研究和探讨了分类问题中的属性离散化方法,以分类精度和正域的势来评估每一步离散化过程,并将评估结果进行反馈,直至所有属性的属性值判断完为止.通过UCI机器学习数据库的实验表明,属性值个数的减少会提高在数据集上运行数据挖掘算法的效率,离散化后的分类正确率保持不变或有一定的提高.  相似文献   

5.
为在应用粗糙集理论处理数据时,对连续属性进行离散化预处理,采用k均值算法对连续属性进行离散化的方法,将属性无监督聚类成两类.通过在UCI数据库上选取的4组数据进行实验,首先离散化,再通过粗糙集约简,最后使用k NN(k=10)分类器,并和其他两种离散化方法进行对比.研究结果表明:该方法能够提高离散化的效率,降低实验的复杂度,并有效减少断点数.  相似文献   

6.
针对粗糙集中连续属性需要离散化问题进行了研究.根据数据对象的可分辨性原理构造超立方体,在数据空间上对信息表中的连续属性进行整体离散化处理.根据条件属性与决策属性的一致性关系,依照条件属性在粗糙集边界域中的分类能力来确定条件属性的重要性,在此基础上选取重要划分点对信息表中的连续属性进行局部离散化,同时以信息熵作为迭代约束条件.数值示例和实验表明这种整体与局部相结合的离散化方法是有效可行的.  相似文献   

7.
目前常用的离散算法多为单属性离散化算法.利用该类算法对多维连续属性进行离散化时,逐次对单个属性进行离散化,割裂了多维属性之间的关系.基于此提出了一种基于遗传算法和变精度粗糙集的多属性离散化算法.该算法基于变精度粗糙集所具有的较好数据分类容错和抗噪能力,通过变精度粗糙集近似分类精度建立遗传算法适宜度评价函数,并利用遗传算法在多维连续属性候选断点集上寻找最优断点子集.基于UCI数据集比较了所提算法与多种常用的离散化算法的差异,实验结果表明,该算法可以获得相对较好的离散化效果.  相似文献   

8.
提出一种基于连续属性离散化的知识分类方法.将条件属性按照重要度由高到低排序,并依照此排序将决策表中各条件属性依次离散化.在对决策表中条件属性的离散化过程中充分考虑已离散化的条件属性及决策属性,离散后的决策表不需要进一步约简.使用了模拟数据和UCI机器学习数据集中的数据进行算法测试,而且与其他离散化算法进行了对比,结果充分证明了新方法的有效性.  相似文献   

9.
在对典型的离散化方法分析的基础上,提出一种适用于粗糙集决策表的连续属性离散化处理的通用模型结构;对遗传算法的适应度线性尺度变换作改进,将模拟退火的思想引入遗传算法,提出基于遗传模拟退火算法(GASA)的数据离散化方法,并用UCI机器学习数据库中的Iris和Glass数据集进行验证.实验结果表明,离散化方法通用模型对数据...  相似文献   

10.
基于启发式信息熵的粗集数值属性离散化算法   总被引:1,自引:0,他引:1  
在一致性假设前提下,以数据集的统计性质作为启发式知识,从候选离散点集中选择离散点,根据数据集的期望值和方差来确定搜索最优离散点的区域,提出一种新的基于信息熵粗集数值属性离散化算法,并采用UCI国际标准数据集来验证新算法.新算法与已报道的算法所得到的离散断点集完全一致,决策表的离散化结果也相同,但时间代价不同,新算法比其计算效率提高40%~50%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号