首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 796 毫秒
1.
基于粗集理论的数据离散化技术研究   总被引:2,自引:0,他引:2  
信息系统连续型属性值的离散化对决策规则或决策树的学习具有非常重要的意义,它能够提高系统对样本的聚类能力,增强系统抗数据噪音的能力,减少机器学习算法的时间和空间开销,提高其学习精度。粗集是有效的数据离散化工具。对基于粗集理论的数据离散化方法进行了深入研究,分析其特征,评述其研究进展,并通过仿真实验研究了几种典型的启发式离散化算法的性能。其结果对发展新的离散化技术或为特定应用选择合适算法都有参考价值。  相似文献   

2.
基于粗集理论的数据离散化技术研究   总被引:3,自引:0,他引:3  
信息系统连续型属性值的离散化对决策规则或决策树的学习具有非常重要的意义。它能够提高系统对样本的聚类能力,增强系统抗数据噪音的能力,减少机器学习算法的时间和空间开销,提高其学习精度。粗集是有效的数据离散化工具。对基于粗集理论的数据离散化方法进行了深入研究,分析其特征,评述其研究进展,并通过仿真实验研究了几种典型的启发式离散化算法的性能。其结果对发展新的离散化技术或为特定应用选择合适算法都有参考价值。  相似文献   

3.
以面向对象的软件度量为研究对象,首先采用SOM神经网络离散化度量元因子矩阵数据,接着对于得到的离散化的矩阵数据采用粗糙集理论的属性约简算法进行属性约简,然后根据约简得到规则构造模糊神经网络的网络结构,并采用BP算法对网络进行训练,最后通过仿真实验验证了该算法。  相似文献   

4.
提出了基于断点辨别力的粗糙集离散化算法通过分析候选断点与决策类之间的相关性,定义了候选断点对决策类的辨别力,并以此作为断点重要性的度量,实现连续属性的离散化。离散化后的决策系统不改变原有的相容性,而且能最大限度地保留有用信息。采用多组数据对该算法的性能进行了检验,并与其它算法做了对比实验。实验结果表明该算法是有效的,而且当候选断点个数增多时仍具有较高的计算效率  相似文献   

5.
提出了基于断点辨别力的粗糙集离散化算法.通过分析候选断点与决策类之间的相关性,定义了候选断点对决策类的辨别力,并以此作为断点重要性的度量,实现连续属性的离散化.离散化后的决策系统不改变原有的相容性,而且能最大限度地保留有用信息.采用多组数据对该算法的性能进行了检验,并与其它算法做了对比实验实验结果表明该算法是有效的,而且当候选断点个数增多时仍具有较高的计算效率.  相似文献   

6.
提出了基于断点辨别力的粗糙集离散化算法。通过分析候选断点与决策类之间的相关性,定义了候选断点对决策类的辨别力,并以此作为断点重要性的度量,实现连续属性的离散化。离散化后的决策系统不改变原有的相容性,而且能最大限度地保留有用信息。采用多组数据对此算法的性能进行了检验,并与其他算法做了对比实验。实验结果表明此算法是有效的,而且当候选断点个数增多时仍有较高的计算效率。  相似文献   

7.
提出了基于断点辨别力的粗糙集离散化算法.通过分析候选断点与决策类之间的相关性,定义了候选断点对决策类的辨别力,并以此作为断点重要性的度量,实现连续属性的离散化.离散化后的决策系统不改变原有的相容性,而且能最大限度地保留有用信息.采用多组数据对此算法的性能进行了检验,并与其他算法做了对比实验.实验结果表明此算法是有效的,而且当候选断点个数增多时仍有较高的计算效率.  相似文献   

8.
为在应用粗糙集理论处理数据时,对连续属性进行离散化预处理,采用k均值算法对连续属性进行离散化的方法,将属性无监督聚类成两类.通过在UCI数据库上选取的4组数据进行实验,首先离散化,再通过粗糙集约简,最后使用k NN(k=10)分类器,并和其他两种离散化方法进行对比.研究结果表明:该方法能够提高离散化的效率,降低实验的复杂度,并有效减少断点数.  相似文献   

9.
讨论模糊C均值聚类算法在决策表条件属性对决策属性的相容程度的指导下对粗集理论中的连续属性进行离散化的一种新算法.该算法充分考虑属性之间的相关性,将所有连续属性转化为矩阵同时处理,能明显提高传统动态层次聚类算法离散化过程的速度.算法测试结果表明,新算法能较好地保留有效属性,提高离散化精度.  相似文献   

10.
讨论模糊C均值聚类算法在决策表条件属性对决策属性的相容程度的指导下对粗集理论中的连续属性进行离散化的一种新算法。该算法充分考虑属性之间的相关性,将所有连续属性转化为矩阵同时处理,能明显提高传统动态层次聚类算法离散化过程的速度。算法测试结果表明,新算法能较好地保留有效属性,提高离散化精度。  相似文献   

11.
基于粗集理论的数据离散化新算法   总被引:20,自引:0,他引:20       下载免费PDF全文
连续属性值的离散化一直是机器学习领域中殛待解决的关键问题之一,他对于提高后继学习算法的运行速度、降低算法的实际空间要求和时间消耗、提高学习结果的聚类能力等都具有极其重要的意义。本文首先分析了基于粗集模型的数据离散化方法的特点和基本思路,研究了候选断点重要性的衡量方式,在此基础上提出两种新的从候选集合中最终确定离散化断点的启发式算法。这两种算法考虑并体现了粗集理论的基本特点和优点,选择的断点都能够保证信息系统的分辨关系,并能够取得较理想的离散化结果。  相似文献   

12.
提出一种基于分类目标的启发式离散化算法, 通过该算法能够解决粗糙集理论中的连续属性离散化问题. 该算法充分考虑目标分类和属性的重要性, 在减少决策规则的同时完成了属性约简. 通过茶味觉信号的验证及与传统算法结果的比较, 验证了所给算法的有效性.  相似文献   

13.
特征选择作为模式识别领域的研究热点,是一种重要的降维方法.对于连续型特征,目前主要采用离散化方法或特征分类能力的"相关性"评估进行特征选择.引入区间数相似度的概念,提出一种连续型特征选择方法.该方法以区间数相似度为基础,定义每个特征的属性相似度,以此作为特征选择的启发信息,对特征全集进行排序,选择特征子集,实现特征选择.相关实验表明了该方法的有效性.  相似文献   

14.
Fayyad连续值属性决策树学习算法使用信息熵的下降速度作为选取扩展属性标准的启发式,本文针对其易选取重复的条件属性等不足之处,引入属性间的交互信息,提出了一种改进算法--基于交互信息的连续值属性决策树学习算法,它的核心是使用信息熵和交互信息的下降速度作为选取扩展属性标准的启发式.实验结果表明,与Fayyad决策树学习算法相比,该算法降低了决策树中同一扩展属性的重复选取率,实现了信息熵的真正减少,提高了训练精度和测试精度,能构造出更优的决策树.  相似文献   

15.
粗糙集理论应用中的离散化方法综述   总被引:8,自引:0,他引:8  
粗糙集理论是一种有效处理不确定、不精确、不完备信息的数学工具。但是传统的粗糙集理论只能对数据库中的离散属性进行处理,而绝大多数现实的数据库既包含了离散属性,又包含了连续属性。针对粗糙集理论的这些缺陷,综述了几种比较常用的离散化算法,并在此基础上,引申出一些启发式离散算法。最后指出,现有的离散化算法都会或多或少地损失部分信息,目前还没有确定的评判准则评论哪一种方法更好、更合适;离散化方法的一个有效思想就是“最低限度地减少信息丢失、保持数据分类能力和使最终得到的离散化最小(分类器最小)”的原则。  相似文献   

16.
提出一种基于连续属性离散化的知识分类方法.将条件属性按照重要度由高到低排序,并依照此排序将决策表中各条件属性依次离散化.在对决策表中条件属性的离散化过程中充分考虑已离散化的条件属性及决策属性,离散后的决策表不需要进一步约简.使用了模拟数据和UCI机器学习数据集中的数据进行算法测试,而且与其他离散化算法进行了对比,结果充分证明了新方法的有效性.  相似文献   

17.
对基于粗糙集的决策系统,从理论上分析了决策数据细化的程度对规则近似质量、近似分类精度、核属性和信息熵的影响.证明了决策属性的属性值划分越细,则其规则近似质量、近似分类精度和信息熵就越小,并且决策表中决策属性值细化后所得到的核属性集一定包含细化前的核属性集.因此,在对决策属性离散化时,决策数据细化的程度要适宜.研究结果对研究决策表属性的约简、决策规则的形成和有效性等问题具有实际意义.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号