首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
有效判别决策表中离散化后样本数据的类型对于对后继阶段的机器学习和数据挖掘过程具有非常重要的意义.本文提出了一种基于属性重要性和样本信息熵的数据类型判别方法,并利用人工改造的一部分UCI数据库进行了模拟试验,结果表明方法是有效的,识别样本数据的准确率较高、识别错误率和拒识率较低.  相似文献   

2.
基于启发式信息熵的粗集数值属性离散化算法   总被引:1,自引:0,他引:1  
在一致性假设前提下,以数据集的统计性质作为启发式知识,从候选离散点集中选择离散点,根据数据集的期望值和方差来确定搜索最优离散点的区域,提出一种新的基于信息熵粗集数值属性离散化算法,并采用UCI国际标准数据集来验证新算法.新算法与已报道的算法所得到的离散断点集完全一致,决策表的离散化结果也相同,但时间代价不同,新算法比其计算效率提高40%~50%.  相似文献   

3.
提出一种基于连续属性离散化的知识分类方法.将条件属性按照重要度由高到低排序,并依照此排序将决策表中各条件属性依次离散化.在对决策表中条件属性的离散化过程中充分考虑已离散化的条件属性及决策属性,离散后的决策表不需要进一步约简.使用了模拟数据和UCI机器学习数据集中的数据进行算法测试,而且与其他离散化算法进行了对比,结果充分证明了新方法的有效性.  相似文献   

4.
连续属性离散化是数据预处理的关键步骤之一,在实际应用中往往通过高效的启发式算法来计算离散化结果.对基于辅助矩阵和信息熵的两类启发式离散化算法进行实验研究,分别选取每类算法中的5种典型方法,通过系列实验,对两类算法的性能进行对比研究,结果表明:辅助矩阵类算法具有相对较高的样本识别能力,但算法复杂度较高,运行时间更长,较适...  相似文献   

5.
一种基于粗糙集理论的连续属性离散化方法   总被引:14,自引:0,他引:14  
基于粗糙集的有关理论,提出了一种新的连续属性离散化方法·首先说明决策属性支持度的概念,再利用决策属性支持度作为反馈信息,提出一种领域独立的基于决策属性支持度的连续属性离散化算法·该算法能在保证决策表原始分类能力不变的前提下,提高约简效率·同时,各个属性拥有较少的分割区间,会使规则集合更加简洁·通过实例分析比较,说明该算法是非常有效的·  相似文献   

6.
提出一种基于分类目标的启发式离散化算法, 通过该算法能够解决粗糙集理论中的连续属性离散化问题. 该算法充分考虑目标分类和属性的重要性, 在减少决策规则的同时完成了属性约简. 通过茶味觉信号的验证及与传统算法结果的比较, 验证了所给算法的有效性.  相似文献   

7.
提出了在没有任何领域知识可供借鉴的情况下,基于聚类思想,利用遗传算法对数量型属性进行离散化的新算法——遗传C均值算法.该算法利用遗传算法具有全局寻优的特性,对训练样本根据其每一属性值进行聚类,将样本划分为不同的类,从而为每一属性找到其值的最佳分割点.然后,对不同类赋以不同的编码.该算法的优点是能得到最优的离散化结果.在VC 6.0环境下实现了该算法.仿真实验证明该方法有效解决了利用粗糙集理论进行分类规则挖掘时,数量型属性的离散化问题。  相似文献   

8.
连续属性离散化是粗糙集应用研究的重点内容之一.基于条件熵可以反应属性依赖度的性质,将决策属性对条件属性的条件熵作为离散化标准,提出了一种粗糙集连续属性离散化方法,并通过实例证明了该方法的正确性.  相似文献   

9.
提出一种基于粗糙集中连续属性离散化和支持向量机(SVM)的分类预测算法。首先,提出一种新颖的Improved Chi2离散化技术,将其作为预处理器将连续属性数据离散化,然后应用粗糙集理论进行属性约简和规则提取,删去冗余的属性和样本,在横向和纵向均大大降低了数据的维度,降低了样本的存储要求,而且没有失去原始决策表所表达的信息。应用支持向量机进行分类建模预测,大大降低了SVM分类过程中的复杂度,不会降低分类能力。仿真实验表明了本文算法的有效性,不仅分类预测精度高,且训练速度快了。  相似文献   

10.
一种不完备信息表的预处理方法   总被引:1,自引:0,他引:1  
针对不完备信息表预处理问题中的不完备数据的填补问题、冗余属性的约简问题和连续属性的离散化问题进行了研究. 应用粗糙集理论,由相容信息表中条件属性与决策属性间的一致性对应关系,定义了划分区间的加法运算,解决了不完备数据填补问题;根据类别概念,定义了差别向量,利用差别向量加法运算删除了冗余属性;根据条件属性与决策属性之间的依赖关系及相对信息熵概念,实现了连续属性的离散化. 数值示例和实验结果显示此方法是有效可行的.  相似文献   

11.
目前常用的离散算法多为单属性离散化算法.利用该类算法对多维连续属性进行离散化时,逐次对单个属性进行离散化,割裂了多维属性之间的关系.基于此提出了一种基于遗传算法和变精度粗糙集的多属性离散化算法.该算法基于变精度粗糙集所具有的较好数据分类容错和抗噪能力,通过变精度粗糙集近似分类精度建立遗传算法适宜度评价函数,并利用遗传算法在多维连续属性候选断点集上寻找最优断点子集.基于UCI数据集比较了所提算法与多种常用的离散化算法的差异,实验结果表明,该算法可以获得相对较好的离散化效果.  相似文献   

12.
基于信息熵的不完备信息系统属性约简算法   总被引:11,自引:0,他引:11  
在现实生活中信息的不完备现象广泛存在,等价关系不一定成立,限制了经典Rough集理论在一些实际问题中的应用.从信息论角度出发引入信息熵的概念,提出了不完备信息系统中知识熵的度量方法,定义了信息观下不完备信息系统知识约简的方法,分析并讨论了与现有其他约简定义的关系,给出了一种基于信息熵的不完备信息系统属性约简算法,通过仿真实验说明了该算法对于不完备信息表知识约简是可行的.  相似文献   

13.
一种新的基于决策熵的决策表约简方法   总被引:2,自引:0,他引:2  
分析了在知识约简过程中经典粗糙集理论决策表知识约简方法的不足.以知识粗糙熵为基础,将一致和不一致对象分开,提出决策熵的概念及其属性重要性,在此基础上给出约简的判定定理;然后以条件属性子集的决策熵来度量其对决策分类的重要性,提出一种新的知识约简启发式方法.理论分析和实验结果表明,基于决策熵的属性重要性是一种更有效的启发式信息,该方法时间复杂度较低,有助于搜索最小或次优约简.  相似文献   

14.
分析了在知识约简过程中经典粗糙集理论决策表知识约简方法的不足。以知识粗糙熵为基础,将一致和不一致对象分开,提出决策熵的概念及其属性重要性,在此基础上给出约简的判定定理;然后以条件属性子集的决策熵来度量其对决策分类的重要性,提出一种新的知识约简启发式方法。理论分析和实验结果表明,基于决策熵的属性重要性是一种更有效的启发式信息,该方法时间复杂度较低,有助于搜索最小或次优约简。  相似文献   

15.
一种基于条件熵的粗糙集属性约简算法   总被引:1,自引:0,他引:1  
粗糙集(Rough set)理论是一个新的数据挖掘方法,其主要思想是保持分类能力不变的情况下,通过属性约简,达到发掘知识并简化知识的目的。本文在理解和分析基于粗糙集理论的数据挖掘算法基础上针对属性约简提出了一个基于条件熵的启发式算法。  相似文献   

16.
基于熵和变精度粗糙集的规则不确定性量度   总被引:21,自引:0,他引:21  
由已知数据中产生的粗糙决策规则往往具有不确定性 ,需要适当的不确定性量度。借鉴变精度粗糙集理论的思想 ,采用基于信息熵的方法构造了两个新的粗糙决策规则不确定性量度函数。它们不仅可以兼顾由划分的粒度引起的规则不确定性的两个方面 ,即不一致性和随机性 ,还考虑了数据中的噪声对规则一致性的影响。因此 ,它们对一类“几乎一致性规则”具有一定的保护作用。通过举例分析 ,说明它们更适于评价从有噪声数据中提取的粗糙决策规则。  相似文献   

17.
一种基于互信息的粗糙集知识约简算法   总被引:2,自引:0,他引:2  
针对粗糙集理论核心内容之一的知识约简问题,该文提出了一种改进的互信息的属性约简算法。该算法结合信息论中信息熵与互信息的概念定义了粗糙集里的一种新的属性重要度,并以此属性重要度为启发式信息进行属性约简。实验分析表明:在大多数情况下,该种算法都能够得到决策表的最小约简。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号