首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
一种基于聚类的粗糙集连续属性的离散化算法   总被引:4,自引:0,他引:4  
粗糙集理论是一种新的处理不精确、不完全与不相容知识的数学工具。粗糙集理论只能对离散属性进行处理,而不能处理连续属性。中针对这一缺陷,利用连续数值属性有序性的性质和统计方差理论,提出了一种基于聚类的连续属性离散化算法。运用典型数据将本算法与现有方法进行了比较分析,得到了满意的结果。  相似文献   

2.
目前常用的离散算法多为单属性离散化算法.利用该类算法对多维连续属性进行离散化时,逐次对单个属性进行离散化,割裂了多维属性之间的关系.基于此提出了一种基于遗传算法和变精度粗糙集的多属性离散化算法.该算法基于变精度粗糙集所具有的较好数据分类容错和抗噪能力,通过变精度粗糙集近似分类精度建立遗传算法适宜度评价函数,并利用遗传算法在多维连续属性候选断点集上寻找最优断点子集.基于UCI数据集比较了所提算法与多种常用的离散化算法的差异,实验结果表明,该算法可以获得相对较好的离散化效果.  相似文献   

3.
本文探讨了基于属性重要性、基于信息熵、基于遗传算法和基于聚类的离散化算法,通过分析总结了各算法的优点及不足,并提出有待解决的问题.  相似文献   

4.
一种连续属性离散化的新算法   总被引:5,自引:0,他引:5  
连续属性的离散化问题是机器学习、数据挖掘等领域中重要研究课题之一,本文深入讨论连续属性离散的各种方法,提出一种基于RS理论和条件信息熵的决策表条件属性离散化算法,计算简单、易实现并以实例加以说明。  相似文献   

5.
对现有的数值属性离散化算法进行研究, 客观地评价了它们的优缺点, 并在此基础上针对基于贪心思想的数值属性离散化算法的不足, 提出了一种新的改进算法. 最后通过算法示例验证表明这种改进算法是有效、可行的.  相似文献   

6.
连续属性的离散化是粗糙集理论亟待解决的关键问题之一。基于灰色系统和粗糙集的有关理论,提出了 一种新的基于属性重要性的离散化算法。该算法以条件属性对决策属性的灰色关联度来度量条件属性的重要性, 在保证决策表原始分类能力不变的前提下,按照属性重要性由小到大的顺序对每个条件属性的侯选断点进行考 察!将冗余的断点去掉,从而将条件属性离散化。同时给出了该算法的时间复杂度分析,并通过实例分析验证了算 法的有效性和实用性。  相似文献   

7.
基于启发式信息熵的粗集数值属性离散化算法   总被引:1,自引:0,他引:1  
在一致性假设前提下,以数据集的统计性质作为启发式知识,从候选离散点集中选择离散点,根据数据集的期望值和方差来确定搜索最优离散点的区域,提出一种新的基于信息熵粗集数值属性离散化算法,并采用UCI国际标准数据集来验证新算法.新算法与已报道的算法所得到的离散断点集完全一致,决策表的离散化结果也相同,但时间代价不同,新算法比其计算效率提高40%~50%.  相似文献   

8.
提出一种基于粗糙集中连续属性离散化和支持向量机(SVM)的分类预测算法。首先,提出一种新颖的Improved Chi2离散化技术,将其作为预处理器将连续属性数据离散化,然后应用粗糙集理论进行属性约简和规则提取,删去冗余的属性和样本,在横向和纵向均大大降低了数据的维度,降低了样本的存储要求,而且没有失去原始决策表所表达的信息。应用支持向量机进行分类建模预测,大大降低了SVM分类过程中的复杂度,不会降低分类能力。仿真实验表明了本文算法的有效性,不仅分类预测精度高,且训练速度快了。  相似文献   

9.
提出了基于断点辨别力的粗糙集离散化算法.通过分析候选断点与决策类之间的相关性,定义了候选断点对决策类的辨别力,并以此作为断点重要性的度量,实现连续属性的离散化.离散化后的决策系统不改变原有的相容性,而且能最大限度地保留有用信息.采用多组数据对此算法的性能进行了检验,并与其他算法做了对比实验.实验结果表明此算法是有效的,而且当候选断点个数增多时仍有较高的计算效率.  相似文献   

10.
为解决连续属性无法直接用于粗糙集理论中这一问题,将Parzen窗方法和遗传算法相结合,提出了一种全新的属性离散化方法。该方法首先选取较多个断点将连续属性分为较多类,然后结合粗糙集理论的一致性要求和Parzen窗所反映的离散结果稳定性指标定义遗传算法的适值函数。仿真结果表明:使用该方法得到的离散结果能得到较少个断点,并且保持数据原有的分类能力。  相似文献   

11.
一种改进的Rough集属性约简启发式遗传算法   总被引:4,自引:0,他引:4  
属性约简是知识发现中的关键问题之一 .为了能够有效地获取决策表中属性最小相对约简 ,提出了一种在优化初始群体基础上提高算法性能的启发式遗传算法 .首先 ,通过构造一个新的算子 ,将信息论角度定义的属性重要性度量作为启发式信息 ,来描述所选择的属性子集对论域中确定分类子集的影响 ;接着 ,以此为基础并结合遗传算法 ,选择一些经过优化的染色体作为初始群体 ,在加强局部搜索能力的同时保持了该算法全局寻优的特性 .最后 ,从理论上对算法做了分析 ,证明了新算子所选择的属性子集对原有属性分类能力保持不变 .试验分析表明 ,该算法能有效地对决策表属性进行约简  相似文献   

12.
针对在数据挖掘中,连续属性常常需要预处理问题,应用粗糙集理论对连续属性的不完备问题、离散问题进行了研究,提出了一种连续属性预处理方法。基于条件属性与决策属性间的对应关系完成了不完备数据的填补。依据划分区间的概念、连续属性离散化含义及其本质特征,定义了划分区间的加法运算法则,以此对填补后的信息表进行了划分区间运算,并以分类质量作为离散过程迭代约束条件,实现了信息表中连续属性的离散化。通过C 编写的算法进行数值示例及测试数据库。实验结果表明此算法有效可行。  相似文献   

13.
连续属性离散化是粗糙集应用研究的重点内容之一.基于条件熵可以反应属性依赖度的性质,将决策属性对条件属性的条件熵作为离散化标准,提出了一种粗糙集连续属性离散化方法,并通过实例证明了该方法的正确性.  相似文献   

14.
针对连续型决策表,利用模糊相容关系对样例聚类产生模糊决策表,运用宽松下近似概念定义属性重要度,利用函数弹性概念定义决策属性关于条件属性的敏感度,将其作为属性重要度的权重得到加权重要度,并以此为启发式信息提出了一种连续型决策表的属性约简方法.  相似文献   

15.
一种基于可信度最优的数量关联规则挖掘算法   总被引:2,自引:0,他引:2  
研究了数量关联规划挖掘过程中的连续属性离散化问题,描述了连续属性离散化方程,包括连续属性区间划分算法和数据库样本大小的确定,提出了基于可信度最优的数量关联规则挖掘算法。该算法首先利用等深度划分算法对连续属性进行离散化,然后利用凸包处理技术提取强规则中可信度最高的数量关联区间,它对于数量关联规则的优化有着重要的应用价值。应用该算法对股票行情进行了数量关联分析,提取股票涨跌与股票价格之间可信度最高的关联规则。实验表明该算法是非常有效的。  相似文献   

16.
在用粗糙集理论解决连续系统的问题时,要求信息表必须是离散值.在对由连续量构成的信息表离散化时,首先要对决策属性的值域进行离散化。文中针对这一问题提出了3种确定离散化区间的方法,即经验分割法、等频分割法和等距分割法;又提出了2种求区间离散值的算法,即区间重心法和区间值平均法,并通过算例验证这些算法均是可行的,其中等距分割法中的区间值平均法效果最为满意。  相似文献   

17.
在对典型的离散化方法分析的基础上,提出一种适用于粗糙集决策表的连续属性离散化处理的通用模型结构;对遗传算法的适应度线性尺度变换作改进,将模拟退火的思想引入遗传算法,提出基于遗传模拟退火算法(GASA)的数据离散化方法,并用UCI机器学习数据库中的Iris和Glass数据集进行验证.实验结果表明,离散化方法通用模型对数据...  相似文献   

18.
针对病理诊断规则获取问题,采用基于粗糙集理论的规则提取方法.首先进行连续属性的离散化,用遗传算法对CAIM(class-attribute interdependence maximum)离散化算法进行改进.然后利用粗糙集理论进行规则提取.采用以核为基础的增量式约简算法,综合考虑属性对约简的增益和属性在剩余属性集中的重要性,给出了衡量属性重要性程度的一个准则.随后进行属性值约简,获取诊断规则.  相似文献   

19.
属性约简是粗糙集理论中一个核心研究问题,在对粗糙集中属性约简相关理论研究的基础上,提出了一种新的基于属性重要性和依赖性相结合的GENRED_GROWTH属性约简算法.并通过CUI机器学习数据集测试实验,验证了该算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号