首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 968 毫秒
1.
针对在数据挖掘中,连续属性常常需要预处理问题,应用粗糙集理论对连续属性的不完备问题、离散问题进行了研究,提出了一种连续属性预处理方法。基于条件属性与决策属性间的对应关系完成了不完备数据的填补。依据划分区间的概念、连续属性离散化含义及其本质特征,定义了划分区间的加法运算法则,以此对填补后的信息表进行了划分区间运算,并以分类质量作为离散过程迭代约束条件,实现了信息表中连续属性的离散化。通过C 编写的算法进行数值示例及测试数据库。实验结果表明此算法有效可行。  相似文献   

2.
WILD:基于加权信息损耗的离散化算法   总被引:2,自引:0,他引:2  
现实应用中常常涉及许多连续的数值属性,而目前许多机器学习算法则要求所处理的属性具有离散值。基于信息论的基本原理,提出一种新的有监督离散化算法WILD,它可以看成是决策树离散化算法的一种扩充,其主要改进在于考虑区间内观测值出现的频度,采用加权信息损耗作为区间离散化的测试,以克服决策树算法离散不均衡的问题。该算法非常自然地采用了自底向上的区间归并方案,可以同时归并多个相邻区间,有利于提高离散化算法的速度,实验结果表明该算法能够提高机器学习算法的精度。  相似文献   

3.
概念学习中连续值型属性的离散化   总被引:1,自引:0,他引:1  
在概念学习中,属性不仅可以为离散值型,还可以为连续值型,因此,连续值型属性的离散化问题是概念学习中的一个重要问题,本给出了基于假设检验的离散化方法的理论依据,并依此提出了一种离散化算法Discrete,实验结果表明,这种方法一有得到较合理的区间划分。  相似文献   

4.
连续量决策信息表的离散化问题研究   总被引:1,自引:0,他引:1  
在粗糙集理论中,知识是以表格的形式表达的.当用粗糙集算法从连续量决策信息表中提取规则时,首先要对其进行离散化处理.针对连续量决策信息表离散化过程中存在的问题,本文中提出了2个定理并进行了证明.定理表明:在考虑决策信息表中属性值之间不可分关系的条件下,若决策信息表的值发生变化,则离散化结果必然发生变化.所以由单一样本构成的连续量决策信息表所得到的离散化结果不能用于实际的连续量系统中.  相似文献   

5.
针对目前离散化信息量度无法准确表征数据离散后有效分类信息量的问题,提出了一种基于有效信息比率的离散化算法.在构建离散化方案相依表的基础上,分析了离散区间内类属性分布与分类信息蕴含量间的关系,并根据类属性分布信息引入有效信息比率,用于表征各离散区间内有效分类信息量.然后,依据离散化方案的离散区间数及其有效信息比率,设计出表征离散化方案划分质量的离散化评价指标,从而提高了数据的离散化效果.仿真实验和实际应用的结果表明,该算法离散化后在有效分类信息量和分类预测精度上高于主流基于信息论的离散化算法.  相似文献   

6.
数据离散化是数据预处理中的一项重要内容.本文针对区间型数据离散化问题进行研究,提出一种连续区间属性值离散化的新方法,提出一种新的变量-关联度,通过区间数的关联度来描述对象间的相关性,定义关联度阈度确定离散关系,来实现对区间数据的离散化.最后采用多组数据对此算法的性能进行检验,并与其他算法做对比实验,实验结果表明本算法是...  相似文献   

7.
针对等区间离散化方法的刚性划分问题,提出一种具有柔性的2-Flou数因素值离散化算法.利用提出的2-Flou数理论及其连接算法,采用双参数调节策略和四元组表示策略,对给定连续型数据进行柔性离散化.以iris数据集为例进行离散化实验,实验过程简单、结果符合预期.结果表明:2-Fou数的离散化方法比经典等区间离散化法更有柔性,比模糊区间离散化法表达更简单,是一种更有效的离散化方法.  相似文献   

8.
一种基于可信度最优的数量关联规则挖掘算法   总被引:2,自引:0,他引:2  
研究了数量关联规划挖掘过程中的连续属性离散化问题,描述了连续属性离散化方程,包括连续属性区间划分算法和数据库样本大小的确定,提出了基于可信度最优的数量关联规则挖掘算法。该算法首先利用等深度划分算法对连续属性进行离散化,然后利用凸包处理技术提取强规则中可信度最高的数量关联区间,它对于数量关联规则的优化有着重要的应用价值。应用该算法对股票行情进行了数量关联分析,提取股票涨跌与股票价格之间可信度最高的关联规则。实验表明该算法是非常有效的。  相似文献   

9.
一种基于粗糙集理论的连续属性离散化方法   总被引:14,自引:0,他引:14  
基于粗糙集的有关理论,提出了一种新的连续属性离散化方法·首先说明决策属性支持度的概念,再利用决策属性支持度作为反馈信息,提出一种领域独立的基于决策属性支持度的连续属性离散化算法·该算法能在保证决策表原始分类能力不变的前提下,提高约简效率·同时,各个属性拥有较少的分割区间,会使规则集合更加简洁·通过实例分析比较,说明该算法是非常有效的·  相似文献   

10.
应用经典粗糙集理论处理连续值属性决策表问题时,对连续值属性进行离散化会造成信息损失.本文在分析已有相似度不足的基础上提出一种改进的相似度,建立基于改进相似度的扩展粗糙集模型,并提出一种基于重要度的约简算法.  相似文献   

11.
提出一种时序Rough逻辑,定义了时序算子及其作用于Rough逻辑公式上的意义.描述了这种逻辑的语法和语义.论述了时序Rough逻辑中的语义模型是一个无限状态序列,其中每一状态都描述了当前时刻和场景点上信息系统的信息.从当前状态到下一状态的变换是遵循时序Rough逻辑演算的,它必须保持知识不变,也就是属性和讨论的对象不变,而属性关于对象的特征值,即属性值随着时间和场景变化而可以变化.因此。在信息系统上作决策、数据约简和信息粒化等都将产生影响,由此可见时序Rough逻辑将是动态地处理信息系统的理论工具,也将是合理地解决和处理不一致信息表的较好方法.  相似文献   

12.
 讨论了权重完全未知且属性值为区间数的多属性决策问题,提出了一种基于理想区间数贴近度的决策方法。首先定义区间数的距离,并给出区间数贴近度的公理化定义,讨论区间数贴近度的性质,然后针对区间型多属性决策问题给出一种区间型决策矩阵的规范化方法,并给出3种确定权重的方法,分别是模糊标度重心赋权法(主观赋权法)、基于最小相对熵原理的熵与相对熵综合赋权法(客观赋权法)以及利用优化方法,以待评方案与理想最优方案的贴近度最大化为优化目标,建立的贴近度最大化赋权法(主、客观组合赋权法)。利用权重可计算出每个方案与理想方案的综合贴近度,即可得到所有方案的排序结果。最后通过实例分析验证了该方法的有效性和实用性。  相似文献   

13.
对基于粗糙集的决策系统,从理论上分析了决策数据细化的程度对规则近似质量、近似分类精度、核属性和信息熵的影响.证明了决策属性的属性值划分越细,则其规则近似质量、近似分类精度和信息熵就越小,并且决策表中决策属性值细化后所得到的核属性集一定包含细化前的核属性集.因此,在对决策属性离散化时,决策数据细化的程度要适宜.研究结果对研究决策表属性的约简、决策规则的形成和有效性等问题具有实际意义.  相似文献   

14.
Fayyad连续值属性决策树学习算法使用信息熵的下降速度作为选取扩展属性标准的启发式,本文针对其易选取重复的条件属性等不足之处,引入属性间的交互信息,提出了一种改进算法--基于交互信息的连续值属性决策树学习算法,它的核心是使用信息熵和交互信息的下降速度作为选取扩展属性标准的启发式.实验结果表明,与Fayyad决策树学习算法相比,该算法降低了决策树中同一扩展属性的重复选取率,实现了信息熵的真正减少,提高了训练精度和测试精度,能构造出更优的决策树.  相似文献   

15.
在数据挖掘和机器学习研究中,许多算法以离散值为处理对象,常常需要对连续属性进行离散化.由于正态分布的广泛性,本文提出一种基于正态分布的近似等频离散化方法.该方法实现简单,关于数据集大小具有线性时间复杂度,适用于大规模数据集.在许多数据集上与文献中多个离散化方法进行了对比测试,实验结果表明,提出的无指导的离散化方法是有效、可行的.  相似文献   

16.
邓青  薛青  杜楠  付朝博 《科学技术与工程》2021,21(27):11674-11680
离散化是装备模拟训练系统数据预处理的重要组成部分。针对传统数据离散化方法对单个属性依次处理,往往忽视属性间的相关性,造成装备模拟训练系统数据离散化后的误差。提出基于层次聚类和相容度的数据离散化方法。采用逐层泛化构建离散化总体框架,完成对装备模拟训练系统数据混合型决策表处理。设计动态确定簇数的层次聚类,实现对属性的初始整体划分;结合类别属性信息和相容度合并相邻区间,去除冗余的离散划分。实验结果表明,基于层次聚类和相容度的数据离散化方法在区间总数、精度方面有明显优势。  相似文献   

17.
针对不确定区间信息的集成问题,提出了连续区间广义power多重平均(C-GPMA)算子和连续区间广义power有序加权多重平均(C-GPOWMA)算子,研究了这些算子的性质,并讨论C-GPMA算子和C-GPOWMA算子的算子族。在此基础上,提出一种属性权重未知且属性值以不确定区间数形式给出的多属性群决策方法。最后,通过算例说明此方法在不确定多属性群决策中的应用,结果表明该方法是有效的、可行的。  相似文献   

18.
目前决策树中很多分类算法例如ID3/C4.5/C5.0等都依赖于离散的属性值,并且希望将它们的值域划分到一个有限区间。利用统计学法则,提出一种新的连续属性值的划分方法;该方法通过统计学法则来发现精准的合并区间。另外在此基础上,为提高决策树算法分类学习性能,提出一种启发式的划分算法来获得理想的划分结果.在UCI真实数据集上进行仿真实验.结果表明获得了一个比较高的分类学习精度、与常见的划分算法比较起来有很好的分类学习能力。  相似文献   

19.
信息表相对属性约简的一个算法   总被引:4,自引:0,他引:4       下载免费PDF全文
给出一种相对属性约简的算法 .该算法对于信息表中由决策属性决定的划分中的每个基本集合 ,计算它们的下逼近集并对每个条件属性在下逼近集中的取值进行检索 ,剔除可能是多余的条件属性 ,得到一个候选属性约简 .在此基础上 ,通过逐步扩展属性 ,最终得到一个属性约简 .与已有的一些算法相比 ,该算法计算量较少  相似文献   

20.
一种不完备信息表的预处理方法   总被引:1,自引:0,他引:1  
针对不完备信息表预处理问题中的不完备数据的填补问题、冗余属性的约简问题和连续属性的离散化问题进行了研究. 应用粗糙集理论,由相容信息表中条件属性与决策属性间的一致性对应关系,定义了划分区间的加法运算,解决了不完备数据填补问题;根据类别概念,定义了差别向量,利用差别向量加法运算删除了冗余属性;根据条件属性与决策属性之间的依赖关系及相对信息熵概念,实现了连续属性的离散化. 数值示例和实验结果显示此方法是有效可行的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号