首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 265 毫秒
1.
目前常用的离散算法多为单属性离散化算法.利用该类算法对多维连续属性进行离散化时,逐次对单个属性进行离散化,割裂了多维属性之间的关系.基于此提出了一种基于遗传算法和变精度粗糙集的多属性离散化算法.该算法基于变精度粗糙集所具有的较好数据分类容错和抗噪能力,通过变精度粗糙集近似分类精度建立遗传算法适宜度评价函数,并利用遗传算法在多维连续属性候选断点集上寻找最优断点子集.基于UCI数据集比较了所提算法与多种常用的离散化算法的差异,实验结果表明,该算法可以获得相对较好的离散化效果.  相似文献   

2.
连续属性的离散化是粗糙集理论亟待解决的关键问题之一。基于灰色系统和粗糙集的有关理论,提出了 一种新的基于属性重要性的离散化算法。该算法以条件属性对决策属性的灰色关联度来度量条件属性的重要性, 在保证决策表原始分类能力不变的前提下,按照属性重要性由小到大的顺序对每个条件属性的侯选断点进行考 察!将冗余的断点去掉,从而将条件属性离散化。同时给出了该算法的时间复杂度分析,并通过实例分析验证了算 法的有效性和实用性。  相似文献   

3.
为提高大数据粗糙集挖掘能力,提出基于信息熵的粗糙集连续属性离散检验算法﹒在云计算环境下进行粗糙集连续属性大数据挖掘,采用特征空间重组方法进行粗糙集连续属性离散数据的模糊特征重构,提取粗糙集连续属性离散数据的信息熵,并得到其分布序列特征;对所提取的信息熵进行聚类分析,采用空间决策树模型,获取离散数据闭繁项关联分析度量;通过数据特征权重的决策树分布特征量化集,得到粗糙集连续属性离散数据空间重组;采用大数据挖掘方法,将离散数据空间重组的信息融合,得到优化的粗糙集和连续属性离散数据检验输出;根据粗糙集连续属性的融合结果,实现离散检验优化﹒仿真结果表明:在迭代次数为400时,收敛程度为0.265%,远远高于其它方法,证明采用该方法进行粗糙集连续属性离散检验的数据聚类性较好﹒  相似文献   

4.
针对在使用粗糙集理论处理决策表时需要事先对连续属性进行离散化处理的问题,提出了一种基于连续属性分布特征的离散化算法.并通过实例分析说明该算法能在保证决策表原始分类能力不变的前提下,获得较少的断点数.  相似文献   

5.
一种基于聚类的粗糙集连续属性的离散化算法   总被引:4,自引:0,他引:4  
粗糙集理论是一种新的处理不精确、不完全与不相容知识的数学工具。粗糙集理论只能对离散属性进行处理,而不能处理连续属性。中针对这一缺陷,利用连续数值属性有序性的性质和统计方差理论,提出了一种基于聚类的连续属性离散化算法。运用典型数据将本算法与现有方法进行了比较分析,得到了满意的结果。  相似文献   

6.
连续属性离散化是粗糙集应用研究的重点内容之一.基于条件熵可以反应属性依赖度的性质,将决策属性对条件属性的条件熵作为离散化标准,提出了一种粗糙集连续属性离散化方法,并通过实例证明了该方法的正确性.  相似文献   

7.
提出了在没有任何领域知识可供借鉴的情况下,基于聚类思想,利用遗传算法对数量型属性进行离散化的新算法——遗传C均值算法.该算法利用遗传算法具有全局寻优的特性,对训练样本根据其每一属性值进行聚类,将样本划分为不同的类,从而为每一属性找到其值的最佳分割点.然后,对不同类赋以不同的编码.该算法的优点是能得到最优的离散化结果.在VC 6.0环境下实现了该算法.仿真实验证明该方法有效解决了利用粗糙集理论进行分类规则挖掘时,数量型属性的离散化问题。  相似文献   

8.
针对病理诊断规则获取问题,采用基于粗糙集理论的规则提取方法.首先进行连续属性的离散化,用遗传算法对CAIM(class-attribute interdependence maximum)离散化算法进行改进.然后利用粗糙集理论进行规则提取.采用以核为基础的增量式约简算法,综合考虑属性对约简的增益和属性在剩余属性集中的重要性,给出了衡量属性重要性程度的一个准则.随后进行属性值约简,获取诊断规则.  相似文献   

9.
文中给出了基于属性值出现的频率的连续属性离散化的一种方法。在离散化问题描述的基础上,利用属性值出现的频率确定频数候选断点,再利用边缘断点算法进一步减少断点数目,达到离散化目的。该方法提高了决策属性关于条件属性的支持度,提高了属性约简的满意度。  相似文献   

10.
提出了基于断点辨别力的粗糙集离散化算法通过分析候选断点与决策类之间的相关性,定义了候选断点对决策类的辨别力,并以此作为断点重要性的度量,实现连续属性的离散化。离散化后的决策系统不改变原有的相容性,而且能最大限度地保留有用信息。采用多组数据对该算法的性能进行了检验,并与其它算法做了对比实验。实验结果表明该算法是有效的,而且当候选断点个数增多时仍具有较高的计算效率  相似文献   

11.
粗糙集理论应用中的离散化方法综述   总被引:8,自引:0,他引:8  
粗糙集理论是一种有效处理不确定、不精确、不完备信息的数学工具。但是传统的粗糙集理论只能对数据库中的离散属性进行处理,而绝大多数现实的数据库既包含了离散属性,又包含了连续属性。针对粗糙集理论的这些缺陷,综述了几种比较常用的离散化算法,并在此基础上,引申出一些启发式离散算法。最后指出,现有的离散化算法都会或多或少地损失部分信息,目前还没有确定的评判准则评论哪一种方法更好、更合适;离散化方法的一个有效思想就是“最低限度地减少信息丢失、保持数据分类能力和使最终得到的离散化最小(分类器最小)”的原则。  相似文献   

12.
在对典型的离散化方法分析的基础上,提出一种适用于粗糙集决策表的连续属性离散化处理的通用模型结构;对遗传算法的适应度线性尺度变换作改进,将模拟退火的思想引入遗传算法,提出基于遗传模拟退火算法(GASA)的数据离散化方法,并用UCI机器学习数据库中的Iris和Glass数据集进行验证.实验结果表明,离散化方法通用模型对数据...  相似文献   

13.
基于粗集理论的数据离散化技术研究   总被引:3,自引:0,他引:3  
信息系统连续型属性值的离散化对决策规则或决策树的学习具有非常重要的意义。它能够提高系统对样本的聚类能力,增强系统抗数据噪音的能力,减少机器学习算法的时间和空间开销,提高其学习精度。粗集是有效的数据离散化工具。对基于粗集理论的数据离散化方法进行了深入研究,分析其特征,评述其研究进展,并通过仿真实验研究了几种典型的启发式离散化算法的性能。其结果对发展新的离散化技术或为特定应用选择合适算法都有参考价值。  相似文献   

14.
基于粗集理论的数据离散化技术研究   总被引:2,自引:0,他引:2  
信息系统连续型属性值的离散化对决策规则或决策树的学习具有非常重要的意义,它能够提高系统对样本的聚类能力,增强系统抗数据噪音的能力,减少机器学习算法的时间和空间开销,提高其学习精度。粗集是有效的数据离散化工具。对基于粗集理论的数据离散化方法进行了深入研究,分析其特征,评述其研究进展,并通过仿真实验研究了几种典型的启发式离散化算法的性能。其结果对发展新的离散化技术或为特定应用选择合适算法都有参考价值。  相似文献   

15.
为了提高分类的精确度,提出一种基于粗糙集理论的增强学习型分类器。采用分割算法对训练数据集中连续的属性进行离散处理;利用粗糙集理论获取约简集,从中选择一个能提供最高分类精确度的约简。对于不同的测试数据,由于离散属性值的变化,相同的约简可能达不到最高的分类精确度。为克服此问题,改进了Q学习算法,使其全面系统地解决离散化和特征选择问题,因此不同的属性可以学习到最佳的分割值,使相应的约简产生最大分类精确度。实验结果表明.该分类器能达到98%的精确度.与其它分类器相比.表现出较好的性能。  相似文献   

16.
一种不完备信息表的预处理方法   总被引:1,自引:0,他引:1  
针对不完备信息表预处理问题中的不完备数据的填补问题、冗余属性的约简问题和连续属性的离散化问题进行了研究. 应用粗糙集理论,由相容信息表中条件属性与决策属性间的一致性对应关系,定义了划分区间的加法运算,解决了不完备数据填补问题;根据类别概念,定义了差别向量,利用差别向量加法运算删除了冗余属性;根据条件属性与决策属性之间的依赖关系及相对信息熵概念,实现了连续属性的离散化. 数值示例和实验结果显示此方法是有效可行的.  相似文献   

17.
针对客户市场细分问题进行了研究。依据粗糙集理论,以信息表中条件属性与决策属性的一致性原理为基础,以超立方体、扫描向量为数据计算对象,进行数据离散化和连续型属性约简,实现了数据预处理;在此基础上,以集合差异度指标为约束条件,运用集合特征向量加法法则最终实现客户市场细分。在实验中,连续属性离散化和冗余属性约简有效地减少了计算数据,便于客户市场细分的实现,提高了客户市场细分的效果。研究结果表明该客户市场细分算法是有效可行的。  相似文献   

18.
基于粗糙集方法提出了一种系统的决策表约简和决策规则提取方法. 为了避免现有属性离散化方法的不足,使用多元统计中的聚类分析,并借助树形图,R2、半偏相关以及伪F统计量,对连续属性进行离散化处理,得到适合粗糙集方法要求的决策表. 在此基础上,简化了基于可辨识矩阵和逻辑运算的传统属性约简算法,并完善了启发式算法进行属性值约简和决策规则提取. 最后,以应用实例验证了该方法的可行性和有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号