首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 546 毫秒
1.
连续量决策信息表的离散化问题研究   总被引:1,自引:0,他引:1  
在粗糙集理论中,知识是以表格的形式表达的.当用粗糙集算法从连续量决策信息表中提取规则时,首先要对其进行离散化处理.针对连续量决策信息表离散化过程中存在的问题,本文中提出了2个定理并进行了证明.定理表明:在考虑决策信息表中属性值之间不可分关系的条件下,若决策信息表的值发生变化,则离散化结果必然发生变化.所以由单一样本构成的连续量决策信息表所得到的离散化结果不能用于实际的连续量系统中.  相似文献   

2.
对于混合属性相关度的计算,现有方法的做法是将连续属性离散化后,用基于频率的计算方法来计算.而连续属性离散化可能会丢失部分信息,为属性评估带来不确定因素.在此提出一种直接计算混合属性相关度的方法:将一个连续属性中的所有数据,根据一个离散属性的属性值分组,以分组连续属性前后数据方差的关系确定两个属性的相关度.在两个真实数据集及常用机器学习数据集上的实验结果表明:该方法可以有效度量混合属性数据之间的相关程度.  相似文献   

3.
针对病理诊断规则获取问题,采用基于粗糙集理论的规则提取方法.首先进行连续属性的离散化,用遗传算法对CAIM(class-attribute interdependence maximum)离散化算法进行改进.然后利用粗糙集理论进行规则提取.采用以核为基础的增量式约简算法,综合考虑属性对约简的增益和属性在剩余属性集中的重要性,给出了衡量属性重要性程度的一个准则.随后进行属性值约简,获取诊断规则.  相似文献   

4.
股票时间序列模型的关联规则挖掘   总被引:2,自引:0,他引:2  
目前的数据挖掘技术偏重于发现类似于商业销售数据库中不同离散化属性值之间的关系,而对证券投资中数值型数据之间变化趋势的相互影响分析不够.以股票信息的关联规则挖掘为例,大多采用传统的关联规则算法(如Apriori)来发现离散序列数据库中事务间的关系,时间序列关联规则挖掘的  相似文献   

5.
提出了连续属性的一种离散化方法,指出与其他离散化方法的不同之处:离散化算法应是与挖掘目标息息相关的.研究和探讨了分类问题中的属性离散化方法,以分类精度和正域的势来评估每一步离散化过程,并将评估结果进行反馈,直至所有属性的属性值判断完为止.通过UCI机器学习数据库的实验表明,属性值个数的减少会提高在数据集上运行数据挖掘算法的效率,离散化后的分类正确率保持不变或有一定的提高.  相似文献   

6.
基于粗集理论的数据离散化新算法   总被引:20,自引:0,他引:20       下载免费PDF全文
连续属性值的离散化一直是机器学习领域中殛待解决的关键问题之一,他对于提高后继学习算法的运行速度、降低算法的实际空间要求和时间消耗、提高学习结果的聚类能力等都具有极其重要的意义。本文首先分析了基于粗集模型的数据离散化方法的特点和基本思路,研究了候选断点重要性的衡量方式,在此基础上提出两种新的从候选集合中最终确定离散化断点的启发式算法。这两种算法考虑并体现了粗集理论的基本特点和优点,选择的断点都能够保证信息系统的分辨关系,并能够取得较理想的离散化结果。  相似文献   

7.
介绍了在数据库知识发现(KDD)中将连续属性离散化的一些方法,并提出使用值差分度量离散化的算法.值差分度量算法原本是用于计算离散属性值间的距离,但实际上将这种方法反过来用于连续属性的离散化也可以有相当好的效果.将其与传统的使用统计量χ2的离散化算法作了比较.  相似文献   

8.
文中给出了基于属性值出现的频率的连续属性离散化的一种方法。在离散化问题描述的基础上,利用属性值出现的频率确定频数候选断点,再利用边缘断点算法进一步减少断点数目,达到离散化目的。该方法提高了决策属性关于条件属性的支持度,提高了属性约简的满意度。  相似文献   

9.
为了提高基于大规模数据的决策树训练效率,提出了一种基于Spark平台的并行决策树算法(SPDT).首先,采用数据按列分区的方法,把单个属性列完整地保留在一个分区内,使缓存该分区数据的数据节点能独立完成信息熵的计算,以减少数据节点之间的信息交流造成的网络资源的占用.然后,数据在按列分区后以稠密向量的形式缓存于内存中,SPDT对数据进行压缩,以减少对内存的占用.最后,SPDT采用基于边界点类别判定的连续属性离散化方法来处理连续属性,减少决策树训练过程中信息熵计算的频次,并提出使用信息增益比划分训练数据集的方法,以减少信息增益计算对多属性值属性的依赖.实验结果表明,在树的训练效率方面,SPDT在保持分类精度的情况下,比Apache Spark-MLlib决策树算法(MLDT)以及基于Spark平台的垂直划分决策树算法(Yggdrasil)有明显的提升.  相似文献   

10.
一种不完备信息表的预处理方法   总被引:1,自引:0,他引:1  
针对不完备信息表预处理问题中的不完备数据的填补问题、冗余属性的约简问题和连续属性的离散化问题进行了研究. 应用粗糙集理论,由相容信息表中条件属性与决策属性间的一致性对应关系,定义了划分区间的加法运算,解决了不完备数据填补问题;根据类别概念,定义了差别向量,利用差别向量加法运算删除了冗余属性;根据条件属性与决策属性之间的依赖关系及相对信息熵概念,实现了连续属性的离散化. 数值示例和实验结果显示此方法是有效可行的.  相似文献   

11.
ID3算法的改进和简化   总被引:2,自引:0,他引:2  
针对ID3算法倾向于选择取值较多的属性的缺点,引进属性重要性来改进ID3算法,并根据改进的ID3算法中信息增益的计算特点,利用凸函数的性质来简化该算法.实验表明,优化的ID3算法与原ID3算法相比,在构造决策树时具有较高的准确率和更快的计算速度,并且构造的决策树还具有较少的平均叶子数.  相似文献   

12.
在现有的对于属性选择所做工作的基础上,提出了一种基于信息增益和遗传算法的属性选择方法。通过实验结果与其他的属性选择方法的比较,发现这种基于最基于信息增益和遗传算法的属性选择方法能够从一定程度上提高属性选择算法的效率。  相似文献   

13.
基于Rough集的决策树算法   总被引:1,自引:0,他引:1  
针对基于Rough集的经典分类算法值约简算法等不适合大数据集的问题,提出了基于Rough集的决策树算法。采用一个新的选择属性的测度——属性分类粗糙度作为选择属性的启发式,该测度较Rough中刻画属性相关性的测度正区域等更为全面地刻画了属性分类综合贡献能力,并且比信息增益和信息增益率的计算更为简单。采取了一种新的剪枝方法——预剪枝,即在选择属性计算前基于变精度正区域修正属性对数据的初始划分模式,以更有效地消除噪音数据对选择属性和生成叶节点的影响.采取了一种与决策树算法高度融合的简单有效的检测和处理不相容数据的方法,从而使算法对相容和不相容数据都能进行有效处理。对UCI机器学习数据库中几个数据集的挖掘结果表明,该算法生成的决策树较ID3算法小,与用信息增益率作为启发式的决策树算法生成的决策树规模相当。算法生成所有叶节点均满足给定最小置信度和支持度的决策树或分类规则,并易于利用数据库技术实现,适合大数据集。  相似文献   

14.
提出了一种基于训练集中已有类别的数学期望的分类算法,该算法先将离散属性值映射为相应的数值,并计算各类别中各属性的数学期望,以各类别中各属性的数学期望为坐标,当有新的数据需要进行类别判定时,只要以新数据的属性为坐标,求取其到各个类别的距离,距离最短的类别即为该数据所属类别。该算法不受属性离散性及类别个数限制,可用于属性类别不统一(既有离散型属性,又有连续型属性),且所属类别数较多的分类情况。  相似文献   

15.
一类不确定信息下的多属性决策问题的研究   总被引:4,自引:0,他引:4  
对一类不确定信息下的多属性决策问题进行了研究,给出了不确定信息的定义,即在决策过程中决策者不仅不能准确地估计方案的属性值,甚至不能确定同一属性下方案之间的偏好关系.在此基础上,提出使用具有置信结构的偏序关系来表示不确定信息,并给出了解决这类问题的模型和方法.该方法首先采用证据推理算法对不确定信息进行集成,然后使用优势和劣势这2种指数来确定方案间的偏好关系,并在这2种指数的定义中使用了偏序之间的距离公式.最后通过一个例子说明,在信息不确定的情况下该方法能够帮助决策者做出比较合理的决策.  相似文献   

16.
信息增益率倾向于取值数较少的属性和产生不平衡的划分,GINI指数偏向于取值数较多的属性且区间趋于平衡的划分.基于此,该文提出融合GINI指数的C4.5改进算法,首先计算候选属性的信息增益率和GINI指数,其次计算信息增益率和GINI指数的比值,最后筛选出比值最大的属性作为划分结点,改进了C4.5算法的不足.以10次10折交叉验证准确率和运行时间为评价指标,通过5组UCI数据测试改进算法性能,并与ID3、C4.5和CART算法对比实验.实验结果表明:融合GINI指数的C4.5算法减轻了属性取值多少对划分结点选择的影响,并且缓和了划分区间的不平衡,提高了分类准确率和运行效率,算法更加稳定,可行有效.  相似文献   

17.
针对现有的不完全数模糊聚类算法未考虑样本各维属性对聚类贡献不同的问题,提出了基于属性加权的不完全数模糊c均值聚类算法.利用ReliefF算法评价各维属性的重要程度,通过加权欧式距离将属性权重结合入聚类,并能实现在聚类迭代过程中的缺失属性、隶属度及聚类中心的一体化求解.实验结果表明,该算法强调了重要属性在不完全数模糊聚类中的作用,能够得到更为准确的聚类结果.  相似文献   

18.
从粒度计算的观点出发,给出了信息系统中知识距离的定义,指出利用知识距离可以度量信息系统中知识的粗糙性,分析了其相关性质.提出了一种基于知识距离的启发式属性约简算法,算法不需求核,对无核的特殊信息系统计算约简更加有效.  相似文献   

19.
WILD:基于加权信息损耗的离散化算法   总被引:2,自引:0,他引:2  
现实应用中常常涉及许多连续的数值属性,而目前许多机器学习算法则要求所处理的属性具有离散值。基于信息论的基本原理,提出一种新的有监督离散化算法WILD,它可以看成是决策树离散化算法的一种扩充,其主要改进在于考虑区间内观测值出现的频度,采用加权信息损耗作为区间离散化的测试,以克服决策树算法离散不均衡的问题。该算法非常自然地采用了自底向上的区间归并方案,可以同时归并多个相邻区间,有利于提高离散化算法的速度,实验结果表明该算法能够提高机器学习算法的精度。  相似文献   

20.
针对大型事务数据库中频繁集的多属性聚类问题,提出一种高效的频繁集聚类算法.以往聚类算法采用基于距离的计算方法,由于受到属性数据的制约,在频繁集挖掘中具有一定的限制.在属性聚类基础上,基于连接对频繁集进行聚类.在算法中先找出数据点的邻居和计算相似度,构造邻居矩阵;然后计算连接数目,确定邻居数目矩阵;最后通过设置判定函数和阈值确定聚类数.通过实验证明,算法能够不仅能有效地完成频繁集的多属性聚类问题,而且还可以进一步发现频繁集在某一层次的相关性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号