期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

赵军王国胤等《重庆大学学报(自然科学版)》2002,25(3):18-21

连续属性值的离散化一直是机器学习领域中殛待解决的关键问题之一，他对于提高后继学习算法的运行速度、降低算法的实际空间要求和时间消耗、提高学习结果的聚类能力等都具有极其重要的意义。本文首先分析了基于粗集模型的数据离散化方法的特点和基本思路，研究了候选断点重要性的衡量方式，在此基础上提出两种新的从候选集合中最终确定离散化断点的启发式算法。这两种算法考虑并体现了粗集理论的基本特点和优点，选择的断点都能够保证信息系统的分辨关系，并能够取得较理想的离散化结果。相似文献

2.

基于遗传算法的Parzen窗离散化方法

王军霞杨慧中丁锋《华东理工大学学报(自然科学版)》2006,32(7):789-791

为解决连续属性无法直接用于粗糙集理论中这一问题,将Parzen窗方法和遗传算法相结合,提出了一种全新的属性离散化方法。该方法首先选取较多个断点将连续属性分为较多类,然后结合粗糙集理论的一致性要求和Parzen窗所反映的离散结果稳定性指标定义遗传算法的适值函数。仿真结果表明:使用该方法得到的离散结果能得到较少个断点,并且保持数据原有的分类能力。相似文献

3.

分类问题中连续属性的离散化方法

张小峰赵永升刘智云李明《兰州理工大学学报》2007,33(1):104-106

提出了连续属性的一种离散化方法,指出与其他离散化方法的不同之处:离散化算法应是与挖掘目标息息相关的.研究和探讨了分类问题中的属性离散化方法,以分类精度和正域的势来评估每一步离散化过程,并将评估结果进行反馈,直至所有属性的属性值判断完为止.通过UCI机器学习数据库的实验表明,属性值个数的减少会提高在数据集上运行数据挖掘算法的效率,离散化后的分类正确率保持不变或有一定的提高. 相似文献

4.

基于模糊粗糙集的系统连续变量离散化方法

张化光徐悦孙秋野《东北大学学报(自然科学版)》2008,29(1):1-4

提出和探讨了一种新的基于模糊粗糙集和断点简约化的离散化方法.综合考虑到规则的支持度和可信度及其关系,应用属性离散指标作为离散化的标准,证明了该指标可以作为离散化彻底的充分条件.并且在时间复杂度和空间复杂度方面分析了算法的有效性,与同类算法比较可以发现该算法在基本不损失分类信息的基础上有效降低这两方面的复杂度,能有效地避免以往各种算法中出现的弊端.最后将其应用于电网故障诊断中,通过具体算例测试,证明该算法的有效性和实用性. 相似文献

5.

基于遗传算法和变精度粗糙集的离散化算法

张婧曹峰唐超《华中师范大学学报(自然科学版)》2018,52(3):322-328

目前常用的离散算法多为单属性离散化算法.利用该类算法对多维连续属性进行离散化时,逐次对单个属性进行离散化,割裂了多维属性之间的关系.基于此提出了一种基于遗传算法和变精度粗糙集的多属性离散化算法.该算法基于变精度粗糙集所具有的较好数据分类容错和抗噪能力,通过变精度粗糙集近似分类精度建立遗传算法适宜度评价函数,并利用遗传算法在多维连续属性候选断点集上寻找最优断点子集.基于UCI数据集比较了所提算法与多种常用的离散化算法的差异,实验结果表明,该算法可以获得相对较好的离散化效果. 相似文献

6.

具有全局聚类的多属性离散化算法 总被引：1，自引：1，他引：0

刘弹杨景明罗爱玲《西安交通大学学报》2011,45(9):1-5

为了减少连续属性离散化后有用信息的丢失和信息系统总的断点数量,提出了一种具有全局聚类效果的多属性离散化算法.算法根据各属性预插入断点对信息系统近似分类质量的影响,来确定要插入断点的属性,从全局属性范围选择最佳断点.根据Ameva统计量来判断属性中最佳断点的位置,并以保证决策表的近似分类质量作为算法的终止条件.实验采用多... 相似文献

7.

混合属性相关度计算方法研究

罗荣海蒋盛益《广西师范大学学报(自然科学版)》2009,27(1)

对于混合属性相关度的计算,现有方法的做法是将连续属性离散化后,用基于频率的计算方法来计算.而连续属性离散化可能会丢失部分信息,为属性评估带来不确定因素.在此提出一种直接计算混合属性相关度的方法:将一个连续属性中的所有数据,根据一个离散属性的属性值分组,以分组连续属性前后数据方差的关系确定两个属性的相关度.在两个真实数据集及常用机器学习数据集上的实验结果表明:该方法可以有效度量混合属性数据之间的相关程度. 相似文献

8.

数值离散化中粒度熵与分类精度的相关性 总被引：1，自引：0，他引：1

王立宏孙立民孟佳娜《重庆大学学报(自然科学版)》2008,31(1):57-60,66

研究离散化方案中断点数、粒度熵与分类精度之间的关系,证明了粒度熵随着断点数的增加而下降.设计了一种混合型的数值离散化算法来提供多种相容离散决策表.实验发现:粒度熵和分类精度之间的相关程度有时高于断点数和分类精度之间的相关程度. 相似文献

9.

一种基于连续属性离散化的知识分类方法

孙英慧孙英娟蒲东兵姜艳《东北师大学报(自然科学版)》2012,(1):45-49

提出一种基于连续属性离散化的知识分类方法.将条件属性按照重要度由高到低排序,并依照此排序将决策表中各条件属性依次离散化.在对决策表中条件属性的离散化过程中充分考虑已离散化的条件属性及决策属性,离散后的决策表不需要进一步约简.使用了模拟数据和UCI机器学习数据集中的数据进行算法测试,而且与其他离散化算法进行了对比,结果充分证明了新方法的有效性. 相似文献

10.

基于属性重要性的贪心算法的改进算法

刘斌倪志伟赵敏《合肥工业大学学报(自然科学版)》2010,33(8)

文章针对决策表属性离散化改进的贪心算法在信息表中判断断点存在的缺陷,通过引入属性重要性的概念,提出了基于属性重要性的贪心算法的改进方案,弥补了原算法无法选择断点的缺陷,通过计算属性的重要性大小,优先选择属性重要的断点。相似文献

11.

基于灰色关联度的粗集连续属性离散化算法

叶明全胡学钢《重庆邮电大学学报(自然科学版)》2007,19(4):409-412

连续属性的离散化是粗糙集理论亟待解决的关键问题之一。基于灰色系统和粗糙集的有关理论,提出了一种新的基于属性重要性的离散化算法。该算法以条件属性对决策属性的灰色关联度来度量条件属性的重要性, 在保证决策表原始分类能力不变的前提下,按照属性重要性由小到大的顺序对每个条件属性的侯选断点进行考察!将冗余的断点去掉,从而将条件属性离散化。同时给出了该算法的时间复杂度分析,并通过实例分析验证了算法的有效性和实用性。相似文献

12.

基于粗糙集理论的病理诊断规则提取算法研究

下载免费PDF全文

孙昌儿刘秉瀚《福州大学学报(自然科学版)》2007,35(2):175-179

针对病理诊断规则获取问题,采用基于粗糙集理论的规则提取方法.首先进行连续属性的离散化,用遗传算法对CAIM(class-attribute interdependence maximum)离散化算法进行改进.然后利用粗糙集理论进行规则提取.采用以核为基础的增量式约简算法,综合考虑属性对约简的增益和属性在剩余属性集中的重要性,给出了衡量属性重要性程度的一个准则.随后进行属性值约简,获取诊断规则. 相似文献

13.

VDM算法在数据采掘中的应用

王继承朱明富《华中科技大学学报(自然科学版)》2001,29(Z1):90-92

介绍了在数据库知识发现(KDD)中将连续属性离散化的一些方法,并提出使用值差分度量离散化的算法.值差分度量算法原本是用于计算离散属性值间的距离,但实际上将这种方法反过来用于连续属性的离散化也可以有相当好的效果.将其与传统的使用统计量χ2的离散化算法作了比较. 相似文献

14.

基于断点辨别力的粗糙集离散化算法

刘静王国胤胡峰《重庆邮电学院学报(自然科学版)》2010,(2)

提出了基于断点辨别力的粗糙集离散化算法。通过分析候选断点与决策类之间的相关性,定义了候选断点对决策类的辨别力,并以此作为断点重要性的度量,实现连续属性的离散化。离散化后的决策系统不改变原有的相容性,而且能最大限度地保留有用信息。采用多组数据对此算法的性能进行了检验,并与其他算法做了对比实验。实验结果表明此算法是有效的,而且当候选断点个数增多时仍有较高的计算效率。相似文献

15.

基于断点辨别力的粗糙集离散化算法

王国胤刘静胡峰《重庆邮电学院学报(自然科学版)》2009,(3)

提出了基于断点辨别力的粗糙集离散化算法通过分析候选断点与决策类之间的相关性,定义了候选断点对决策类的辨别力,并以此作为断点重要性的度量,实现连续属性的离散化。离散化后的决策系统不改变原有的相容性,而且能最大限度地保留有用信息。采用多组数据对该算法的性能进行了检验,并与其它算法做了对比实验。实验结果表明该算法是有效的,而且当候选断点个数增多时仍具有较高的计算效率相似文献

16.

连续属性的离散化算法

刘文军谷云东《郑州大学学报(理学版)》2006,38(4):41-43,55

结合聚类的思想与信息增益性质,给出一种基于距离与信息增益相结合的连续属性离散化方法.此方法不仅考虑了属性值之间的序关系,而且考虑了属性值之间的相对大小关系.此算法的一个最大优点是能自动调整离散化过程中的阈值,且能达到所要求的决策表相容度. 相似文献

17.

基于断点辨别力的粗糙集离散化算法

刘静王国胤胡峰《重庆邮电大学学报(自然科学版)》2010,22(2):257-261

提出了基于断点辨别力的粗糙集离散化算法.通过分析候选断点与决策类之间的相关性,定义了候选断点对决策类的辨别力,并以此作为断点重要性的度量,实现连续属性的离散化.离散化后的决策系统不改变原有的相容性,而且能最大限度地保留有用信息.采用多组数据对此算法的性能进行了检验,并与其他算法做了对比实验.实验结果表明此算法是有效的,而且当候选断点个数增多时仍有较高的计算效率. 相似文献

18.

基于断点辨别力的粗糙集离散化算法

王国胤刘静胡峰《重庆邮电大学学报(自然科学版)》2009,21(3):388-392

提出了基于断点辨别力的粗糙集离散化算法.通过分析候选断点与决策类之间的相关性,定义了候选断点对决策类的辨别力,并以此作为断点重要性的度量,实现连续属性的离散化.离散化后的决策系统不改变原有的相容性,而且能最大限度地保留有用信息.采用多组数据对该算法的性能进行了检验,并与其它算法做了对比实验实验结果表明该算法是有效的,而且当候选断点个数增多时仍具有较高的计算效率. 相似文献

19.

基于Rough集的集成离散化算法

刘静何贤芳《重庆三峡学院学报》2010,26(3):59-63

离散化是Rough集理论研究的一个重要内容,目前基于Rough集的离散化算法很难做到高效率和高识别率兼顾.文中分析了基于断点重要性算法和基于属性重要性算法的特点,确定了离散化思路,提出了一种基于Rough集的集成离散化算法.该算法能够有效降低候选断点的数目,快速地实现决策表的离散化.实验结果表明,文中算法保持了与已有算法可比的识别率,且运行效率更高. 相似文献

20.

贪心算法的离散化改进

陈丽芳马英《河北理工学院学报》2012,(3):89-92

连续属性离散化是数据挖掘的重要预处理步骤,直接关系到挖掘或学习的效果,对于降低算法的实际空间要求和时间消耗、提高后续算法的运行速度具有极其重要的意义。在分析贪心算法的特点和基本思路的基础上,提出了一种新的以属性重要性辅助判断断点重要性的离散化算法,经实例验证,该离散化算法所获得的结果与现场技术人员依据经验所得结论一致。该算法的研究成果为后续的属性约简及数学模型的建立提供了重要的理论依据。相似文献